Det danske riksarkivet leder prosjektet Multigenerasjonsregisteret, som skal identifisere familierelasjoner for alle personer født i Danmark fra 1920 til nå. Nå tar prosjektet i bruk kunstig intelligens for raskere å trekke ut slektshistorisk informasjon fra håndskrene kilder.
Med 38 millioner kroner i støtte fra Novo Nordisk Foundation, startet det danske riksarkivet opp prosjektet i 2020. Gjennom å kartlegge familierelasjoner i de skriftlige kildene og koble dette på unike danske helsedata, kan prosjektet bidra til ny kunnskap om for eksempel arvelige sykdommer.
Les også: Skal kartlegge slektstrær gjennom kunstig intelligens
Prosjektet jobber derfor med å utvikle algoritmer som kan oversette kirkebøker automatisk. For at en maskinlæringsalgoritme skal bli i stand til å oversette innholdet i en kirkebok, må den lære å oversette et input (den håndskrevne teksten) til et korrekt output (oversettelsen). Det er en utfordrende oppgave, fordi det er mange ulike håndskrifter i kirkebøkene.
For at algoritmen skal kunne lære trenger den derfor et korrekt output, eller fasit om du vil, som den kan justere seg etter.
Riksarkivet i Danmark har derfor nå fått utviklet et treningsdatasett til den kunstige intelligensen, i samarbeid med Københavns Universitet, senter for kunstig intelligens.
Tastet 25 000 fødselsregistreringer manuelt
Datasettet er utviklet på grunnlag av 25 000 manuelt avskrevne fødselsregistreringer fra ti ulike sogn i Danmark fra perioden 1920-1960. Settet inkluderer kirkebøker fra både store og små sogn, by og bygd, samt ulike regioner i landet.
Med dette datasettet som grunnlag kan kunstig intelligens trenes til å gjenkjenne håndskrevne datoer og tall og vil etter fullført trening være i stand til å transkribere en kirkebokside på bare noen få sekunder.
Overføringsverdi
Dataforsker Amalie Mygind som jobber med Multigenerasjonsregisteret forklarer at den kunstige intelligensen som nå trenes opp vil også kunne brukes i andre sammenhenger, ikke kun for kirkebøker.
-Datasettet består av datoer der månedene er skrevet på dansk, så det vil også kunne brukes til å trene modeller for gjenkjennelse av håndskrevne datoer på språk som ligner på dansk, som svensk og norsk.
Datasettet er publisert som åpen kildekode og er tilgjengeliggjort på GitHub.
Er du forresten nysgjerrig på å ta en titt i skannede kirkebøker fra Danmark, så finner du dem her.






