(Persbericht KNAW / HUC)
Het KNAW Humanities Cluster in Amsterdam maakt de transcriptie-software Loghi per direct opensource beschikbaar. De software is in samenwerking met het Nationaal Archief in Den Haag speciaal ontwikkeld om gescande historische documenten digitaal leesbaar en doorzoekbaar te maken.
De transcriptie-software Loghi, zo bleek uit testen, is uitermate nauwkeurig en geeft tot minstens 96% correcte transcripties. Hierdoor is Loghi geschikt voor erfgoedorganisaties die historische, slecht leesbare teksten beschikbaar en doorzoekbaar willen maken voor bezoekers en onderzoekers. De software is opensource, wat betekent dat het beschikbaar is voor iedereen, maar ook dat het kan worden aangepast aan de eigen specifieke behoeften.
Baseline
Loghi is in staat om uiteenlopende teksten te ontcijferen of het nu handgeschreven, getypt of gedrukt is. De software doet dat in twee stappen. Eerst stelt het vast op welke lijn een regel loopt, de zogenaamde baseline. Op die manier weet de software welke zinnen bij elkaar horen. Daarna zet Loghi het plaatje van de tekst om naar digitale tekst. Door deze twee stappen kan Loghi niet alleen rekeninghouden met aantekeningen in de kantlijn of tussen regels, maar ook met teksten die verticaal zijn geschreven in bijvoorbeeld tabellen. De software herkent al die verschillende vormen van tekst en geeft de digitale weergave daarvan in de juiste context weer.
Lage foutmarge
Loghi is in de afgelopen zes jaar ontwikkeld door Rutger van Koert van de afdeling Digitale Infrastructuur van het KNAW Humanities Cluster (HuC). Van Koert: ‘We gebruiken machine learning om vast te stellen welke letter er precies is opgeschreven. Daarvoor breekt Loghi een scan van een document op in plaatjes op verschillende niveaus: van heel klein op het niveau van pixels via letters en zinnen tot het niveau van paragrafen. De software vat stapsgewijs – steeds op een iets hoger niveau – samen wat de visuele kenmerken zijn en kiest uiteindelijk op basis daarvan de meest waarschijnlijke letter. De software kan ook doorhalingen en beschadigingen negeren en zo nog accurater vaststellen waar welke letters staan. Wanneer de software getraind is op een specifieke collectie dan wordt de foutmarge teruggebracht tot onder de 4%. Dat is echt heel laag.’
Prototype
De software is deels gebaseerd op opensource software en is met succes toegepast in de grote projecten REPUBLIC en GLOBALISE. Deze projecten vanons instituut maken respectievelijk de Resoluties van de Staten-Generaal en verslagen van de VOC digitaal toegankelijk. Van de Resoluties van de Staten-Generaal is al een prototype met getranscribeerde teksten beschikbaar. In de komende jaren komen de getranscribeerde teksten online beschikbaar. De oorspronkelijke bronnen liggen bij het Nationaal Archief (NA) in Den Haag. Van Koert is daarom ook anderhalf jaar bij het NA gedetacheerd geweest.
Loghi nog beter maken
Loghi is per direct voor iedereen toegankelijk op GitHub en draagt zo bij aan een nationale en internationale open science infrastructuur. ‘Wij vinden het belangrijk dat deze software vrij gedeeld wordt, zodat ook ontwikkelaars van andere organisaties in het vakgebied ermee aan de slag kunnen en hierop kunnen voortborduren. Wij nodigen iedereen van harte uit om een bijdrage te leveren en gezamenlijk Loghi nog beter te maken’, zegt Menno Rasch, directeur Digitale Infrastructuur van het KNAW Humanities Cluster.
In de software zijn bepaalde settings aan te passen zodat op elke tekst het beste resultaat behaald kan worden. Om een zo goed mogelijk resultaat te behalen op nieuwe datasets blijven wel testen nodig waarin de uitkomst van de aangepaste code wordt vergeleken met teksten die door mensen zijn gecontroleerd.
Samenwerking KNAW Humanities Cluster en het Nationaal Archief
Het KNAW Humanities Cluster en het Nationaal Archief zullen Loghi samen verder blijven door ontwikkelen om gedigitaliseerde collecties leesbaar en doorzoekbaar te maken. Dat is nu vastgelegd in officiële samenwerking, waarin ook het Nationaal Archief een ontwikkelaar gaat aannemen. ‘We hebben al 50 miljoen documenten gescand en zullen de komende jaren nog eens 50 miljoen pagina’s digitaliseren. Door deze veelal handgeschreven en getypte documenten met Loghi machineleesbaar te maken, kunnen gebruikers de documenten veel gemakkelijker doorzoeken’, zegt Liesbeth Keijser, projectleider digitalisering bij het Nationaal Archief.
Willem Kuiper zegt
Wil hier heel graag kennis mee maken, maar denk dat ik dat niet zonder hulp kan. Kan er zoiets als een ‘klasje’ georganiseerd worden, waarin dit gedemonstreerd wordt, zodat ik het daarna zelf thuis wel red?
Voel mij nu iemand die leest: Daar en daar gratis biefstuk af te halen. Maar als ik daar dan kom, zie ik een koe en daarnaast een bijl.
Thijs van der Veen - Communicatie Huygens Instituut zegt
De transcriptiesoftware Loghi is inderdaad alleen te gebruiken wanneer je kennis hebt van software ontwikkeling. Een klasje is helaas niet voldoende om op het niveau te komen om deze software te gebruiken. Wij raden u aan om gebruik te maken van Transkribus. Dit is een vergelijkbare software die wel voorzien is van een interface voor gebruikers zonder of met beperkte kennis van programmeren. Het verschil zit ‘m in het feit dat Loghi open source is, en Transkribus niet. Daarom is dit nieuws: dankzij Loghi kunnen software ontwikkelaars van erfgoedinstellingen nu, rekening houdend met hun eigen wensen, hun eigen (vaak grote) datasets ontsluiten.
Piet Franssen zegt
Ik ben het eens met Willem. Ook voor mij is het in deze vorm niet bruikbaar.