The Danish National Archives is leading the Multigenerational Register project, which aims to identify family relationships for all people born in Denmark from 1920 to the present. The project is now using artificial intelligence to more quickly extract family history information from handwritten sources.
Med 38 millioner kroner i støtte fra Novo Nordisk Foundation, startet det danske riksarkivet opp prosjektet i 2020. Gjennom å kartlegge familierelasjoner i de skriftlige kildene og koble dette på unike danske helsedata, kan prosjektet bidra til ny kunnskap om for eksempel arvelige sykdommer.
Read also: Mapping family trees using artificial intelligence
Prosjektet jobber derfor med å utvikle algoritmer som kan oversette kirkebøker automatisk. For at en maskinlæringsalgoritme skal bli i stand til å oversette innholdet i en kirkebok, må den lære å oversette et input (den håndskrevne teksten) til et korrekt output (oversettelsen). Det er en utfordrende oppgave, fordi det er mange ulike håndskrifter i kirkebøkene.
For at algoritmen skal kunne lære trenger den derfor et korrekt output, eller fasit om du vil, som den kan justere seg etter.
Riksarkivet i Danmark har derfor nå fått utviklet et treningsdatasett til den kunstige intelligensen, i samarbeid med Københavns Universitet, senter for kunstig intelligens.
Tastet 25 000 fødselsregistreringer manuelt
Datasettet er utviklet på grunnlag av 25 000 manuelt avskrevne fødselsregistreringer fra ti ulike sogn i Danmark fra perioden 1920-1960. Settet inkluderer kirkebøker fra både store og små sogn, by og bygd, samt ulike regioner i landet.
Med dette datasettet som grunnlag kan kunstig intelligens trenes til å gjenkjenne håndskrevne datoer og tall og vil etter fullført trening være i stand til å transkribere en kirkebokside på bare noen få sekunder.
Overføringsverdi
Dataforsker Amalie Mygind som jobber med Multigenerasjonsregisteret forklarer at den kunstige intelligensen som nå trenes opp vil også kunne brukes i andre sammenhenger, ikke kun for kirkebøker.
-Datasettet består av datoer der månedene er skrevet på dansk, så det vil også kunne brukes til å trene modeller for gjenkjennelse av håndskrevne datoer på språk som ligner på dansk, som svensk og norsk.
Datasettet er publisert som åpen kildekode og er tilgjengeliggjort på GitHub.
Er du forresten nysgjerrig på å ta en titt i skannede kirkebøker fra Danmark, så finner du dem her.







