• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Unieke software om historische teksten te transcriberen nu opensource beschikbaar

22 april 2023 door Redactie Neerlandistiek 4 Reacties

(Persbericht KNAW / HUC)

Het KNAW Humanities Cluster in Amsterdam maakt de transcriptie-software Loghi per direct opensource beschikbaar. De software is in samenwerking met het Nationaal Archief in Den Haag speciaal ontwikkeld om gescande historische documenten digitaal leesbaar en doorzoekbaar te maken.

De transcriptie-software Loghi, zo bleek uit testen, is uitermate nauwkeurig en geeft tot minstens 96% correcte transcripties. Hierdoor is Loghi geschikt voor erfgoedorganisaties die historische, slecht leesbare teksten beschikbaar en doorzoekbaar willen maken voor bezoekers en onderzoekers. De software is opensource, wat betekent dat het beschikbaar is voor iedereen, maar ook dat het kan worden aangepast aan de eigen specifieke behoeften.

Baseline

Loghi is in staat om uiteenlopende teksten te ontcijferen of het nu handgeschreven, getypt of gedrukt is. De software doet dat in twee stappen. Eerst stelt het vast op welke lijn een regel loopt, de zogenaamde baseline. Op die manier weet de software welke zinnen bij elkaar horen. Daarna zet Loghi het plaatje van de tekst om naar digitale tekst. Door deze twee stappen kan Loghi niet alleen rekeninghouden met aantekeningen in de kantlijn of tussen regels, maar ook met teksten die verticaal zijn geschreven in bijvoorbeeld tabellen. De software herkent al die verschillende vormen van tekst en geeft de digitale weergave daarvan in de juiste context weer.

Lage foutmarge

Loghi is in de afgelopen zes jaar ontwikkeld door Rutger van Koert van de afdeling Digitale Infrastructuur van het KNAW Humanities Cluster (HuC). Van Koert: ‘We gebruiken machine learning om vast te stellen welke letter er precies is opgeschreven. Daarvoor breekt Loghi een scan van een document op in plaatjes op verschillende niveaus: van heel klein op het niveau van pixels via letters en zinnen tot het niveau van paragrafen. De software vat stapsgewijs – steeds op een iets hoger niveau – samen wat de visuele kenmerken zijn en kiest uiteindelijk op basis daarvan de meest waarschijnlijke letter. De software kan ook doorhalingen en beschadigingen negeren en zo nog accurater vaststellen waar welke letters staan. Wanneer de software getraind is op een specifieke collectie dan wordt de foutmarge teruggebracht tot onder de 4%. Dat is echt heel laag.’

Prototype

De software is deels gebaseerd op opensource software en is met succes toegepast in de grote projecten REPUBLIC en GLOBALISE. Deze projecten vanons instituut maken respectievelijk de Resoluties van de Staten-Generaal en verslagen van de VOC digitaal toegankelijk. Van de Resoluties van de Staten-Generaal is al een prototype met getranscribeerde teksten beschikbaar. In de komende jaren komen de getranscribeerde teksten online beschikbaar. De oorspronkelijke bronnen liggen bij het Nationaal Archief (NA) in Den Haag. Van Koert is daarom ook anderhalf jaar bij het NA gedetacheerd geweest.

Loghi nog beter maken

Loghi is per direct voor iedereen toegankelijk op GitHub en draagt zo bij aan een nationale en internationale open science infrastructuur. ‘Wij vinden het belangrijk dat deze software vrij gedeeld wordt, zodat ook ontwikkelaars van andere organisaties in het vakgebied ermee aan de slag kunnen en hierop kunnen voortborduren. Wij nodigen iedereen van harte uit om een bijdrage te leveren en gezamenlijk Loghi nog beter te maken’, zegt Menno Rasch, directeur Digitale Infrastructuur van het KNAW Humanities Cluster.

In de software zijn bepaalde settings aan te passen zodat op elke tekst het beste resultaat behaald kan worden. Om een zo goed mogelijk resultaat te behalen op nieuwe datasets blijven wel testen nodig waarin de uitkomst van de aangepaste code wordt vergeleken met teksten die door mensen zijn gecontroleerd.

Samenwerking KNAW Humanities Cluster en het Nationaal Archief

Het KNAW Humanities Cluster en het Nationaal Archief zullen Loghi samen verder blijven door ontwikkelen om gedigitaliseerde collecties leesbaar en doorzoekbaar te maken. Dat is nu vastgelegd in officiële samenwerking, waarin ook het Nationaal Archief een ontwikkelaar gaat aannemen. ‘We hebben al 50 miljoen documenten gescand en zullen de komende jaren nog eens 50 miljoen pagina’s digitaliseren. Door deze veelal handgeschreven en getypte documenten met Loghi machineleesbaar te maken, kunnen gebruikers de documenten veel gemakkelijker doorzoeken’, zegt Liesbeth Keijser, projectleider digitalisering bij het Nationaal Archief.

Delen:

  • Klik om af te drukken (Opent in een nieuw venster) Print
  • Klik om dit te e-mailen naar een vriend (Opent in een nieuw venster) E-mail
  • Klik om te delen op Facebook (Opent in een nieuw venster) Facebook
  • Klik om te delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Klik om te delen op Telegram (Opent in een nieuw venster) Telegram
  • Klik om op LinkedIn te delen (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Nieuws Tags: transcriptie

Lees Interacties

Reacties

  1. Willem Kuiper zegt

    22 april 2023 om 17:13

    Wil hier heel graag kennis mee maken, maar denk dat ik dat niet zonder hulp kan. Kan er zoiets als een ‘klasje’ georganiseerd worden, waarin dit gedemonstreerd wordt, zodat ik het daarna zelf thuis wel red?
    Voel mij nu iemand die leest: Daar en daar gratis biefstuk af te halen. Maar als ik daar dan kom, zie ik een koe en daarnaast een bijl.

    Beantwoorden
    • Thijs van der Veen - Communicatie Huygens Instituut zegt

      1 augustus 2023 om 16:51

      De transcriptiesoftware Loghi is inderdaad alleen te gebruiken wanneer je kennis hebt van software ontwikkeling. Een klasje is helaas niet voldoende om op het niveau te komen om deze software te gebruiken. Wij raden u aan om gebruik te maken van Transkribus. Dit is een vergelijkbare software die wel voorzien is van een interface voor gebruikers zonder of met beperkte kennis van programmeren. Het verschil zit ‘m in het feit dat Loghi open source is, en Transkribus niet. Daarom is dit nieuws: dankzij Loghi kunnen software ontwikkelaars van erfgoedinstellingen nu, rekening houdend met hun eigen wensen, hun eigen (vaak grote) datasets ontsluiten.

      Beantwoorden
  2. Piet Franssen zegt

    24 april 2023 om 12:52

    Ik ben het eens met Willem. Ook voor mij is het in deze vorm niet bruikbaar.

    Beantwoorden
  3. Jan Willem Smits zegt

    25 maart 2025 om 13:53

    Mijn (duplex naar duplex) PDF, compact PDF, doorzoekbare PDF en PDF A-1b bestanden smeken, mede namens mijzelf, om een klasje bestandsbeheer en ARCHIVERING, al dan niet in Loghi

    Beantwoorden

Laat een reactie achter bij Piet FranssenReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Sint Nicolaas

Zie eens, Mietje! wat al lekkers
U, Sint Nicolaas al bragt;
Omdat ge’ als gehoorzaam Meisje,
Uw verpligting hebt volbragt.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

De koeien schemeren door de heg,
het paard is uit taaitaai gesneden,
in ieder duindal ligt dun sneeuw.

De branding vlecht een veren zee
waar zon over omhoog stijgt, licht waarin
geen plaats om uit te vliegen is.

Bron: Uit de hoge boom geschreven, 1967

➔ Bekijk hier alle citaten

Agenda

11 december 2025: Anne Frank, schrijfster

11 december 2025: Anne Frank, schrijfster

3 december 2025

➔ Lees meer
11 december 2025: Proefcollege Nederlands

11 december 2025: Proefcollege Nederlands

2 december 2025

➔ Lees meer
5 december 2025: Intreerede Jolyn Philips

5 december 2025: Intreerede Jolyn Philips

28 november 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1946 Dick Wortel
➔ Neerlandicikalender

Media

Dichter Esther Jansma (24 december 1958-23 januari 2025)

Dichter Esther Jansma (24 december 1958-23 januari 2025)

2 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
De postkoloniale podcast met Remco Raben over Pramoedya Ananta Toer

De postkoloniale podcast met Remco Raben over Pramoedya Ananta Toer

30 november 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Peter van Zonneveld over Tjalie Robinson/Vincent Mahieu (1993)

Peter van Zonneveld over Tjalie Robinson/Vincent Mahieu (1993)

29 november 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d