Dette programmet transkriberer håndskrevne dokumenter

Gammelt foto og håndskrift
Programvaren Transkribus lar deg transkribere håndskrift

Et ikke ukjent problem når eldre slektshistorske kilder skal tydes er håndskriften. Både håndskriften og typen skrift, som gotisk, kan være nok til å få den mest garvede slektsforsker til å gi opp.

Utfordringen er naturlig nok ikke ukjent på den andre siden av kloden heller. Nasjonalarkivet på New Zealand har nå tatt i bruk programmet «Transkribus» for å få tydet de mange håndskrevne kildene i arkivet.

Slik får du tak i Transkribus

Transkribus er utviklet ved Universitetet i Innsbruck, med støtte fra EU. Programmet er lagt ut helt gratis på nett, slik at alle kan laste det ned og benytte seg av det på sin egen PC eller MAC.

Her finner du Transkribus

I utgangspunktet kan Transkribus virke noe overveldende å bruke. Derfor har utviklerne også laget denne 10-stegs bruksanvisningen for å ta programmet i bruk.

Må lage en digital modell av håndskriften først

I motsetning til en rekke andre programvarer for å identifisere tekst, må man i Transkribus gi maskinen en digital modell av håndskriften. Et menneske må legge inn informasjon om mønstre og hyppig brukte former på skriften.

For deretter å transkribere håndskriften bruker Transkribus kunstig intelligens også kjent som maskinlæring. Etterhvert som mer og mer håndskrevet tekst transkriberes, blir programmet bedre og bedre på å automatisk tolke om håndskriften til digitale bokstaver og ord.

Etterhvert som transkribus tyder de ulike dokumentene blir den transkriberte teksten lagt direkte ut på nettet. På den måten vil flest mulig kan få glede av dem, melder NewsNow fra New Zealand.

Du må trene din egen modell

Før du kan laste inn et bilde av et håndskrevet dokument må du imidlertid tilbringe mange timer med å manuelt transkribere tekster. Det er nemlig du selv som må trene opp Transkribus til å gjenkjenne håndskrift.

Utviklerne av Transkribus anslår at det skal rundt 5 000 transkriberte ord til før systemet kan gjenkjenne trykt tekst. Skal det gjenkjenne håndskrift må du først transkribere rundt 15 000 ord.

Er du imidlertid klar for den innsatsen kan du sende en epost til utviklerne, etter først å ha gjort det litt kjent med systemet og transkribert noen dokumenter. Sannsynligvis vil du da motta en tillatelse til å trene din egen modell for gjenkjenning av håndskrift.

Tyde gamle amerikabrev, kirkebøker, m.m.

Sjansen er stor for at du har håndskrevne dokumenter etter slektninger liggende. Ved å bruke litt tid på denne programvaren kan det være at du får innsikt i en større del av (om ikke hele) dokumentet.

For tiden støtter programmet følgende filtyper:

  • PDF
  • JPEG
  • PNG
  • TIFF

Du må derfor først ha et digitalt bilde av dokumentet du ønsker å få tydet. Skulle dokumentet ikke være i et av de nevnte formatene finnes det flere verktøy for å endre fil-typen.

Har du et skannet bilde av teksten du vil transkribere, men formatet er feil kan du bruke ulike programvarer for å konvertere bildefila. PixResizer er et glimrende program som enkelt gir mulighet til å endre både størrelsen og formatet på bildefilen. Programmet lar deg jobbe med et bilde av gangen eller mange.