• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Unieke software om historische teksten te transcriberen nu opensource beschikbaar

22 april 2023 door Redactie Neerlandistiek 4 Reacties

(Persbericht KNAW / HUC)

Het KNAW Humanities Cluster in Amsterdam maakt de transcriptie-software Loghi per direct opensource beschikbaar. De software is in samenwerking met het Nationaal Archief in Den Haag speciaal ontwikkeld om gescande historische documenten digitaal leesbaar en doorzoekbaar te maken.

De transcriptie-software Loghi, zo bleek uit testen, is uitermate nauwkeurig en geeft tot minstens 96% correcte transcripties. Hierdoor is Loghi geschikt voor erfgoedorganisaties die historische, slecht leesbare teksten beschikbaar en doorzoekbaar willen maken voor bezoekers en onderzoekers. De software is opensource, wat betekent dat het beschikbaar is voor iedereen, maar ook dat het kan worden aangepast aan de eigen specifieke behoeften.

Baseline

Loghi is in staat om uiteenlopende teksten te ontcijferen of het nu handgeschreven, getypt of gedrukt is. De software doet dat in twee stappen. Eerst stelt het vast op welke lijn een regel loopt, de zogenaamde baseline. Op die manier weet de software welke zinnen bij elkaar horen. Daarna zet Loghi het plaatje van de tekst om naar digitale tekst. Door deze twee stappen kan Loghi niet alleen rekeninghouden met aantekeningen in de kantlijn of tussen regels, maar ook met teksten die verticaal zijn geschreven in bijvoorbeeld tabellen. De software herkent al die verschillende vormen van tekst en geeft de digitale weergave daarvan in de juiste context weer.

Lage foutmarge

Loghi is in de afgelopen zes jaar ontwikkeld door Rutger van Koert van de afdeling Digitale Infrastructuur van het KNAW Humanities Cluster (HuC). Van Koert: ‘We gebruiken machine learning om vast te stellen welke letter er precies is opgeschreven. Daarvoor breekt Loghi een scan van een document op in plaatjes op verschillende niveaus: van heel klein op het niveau van pixels via letters en zinnen tot het niveau van paragrafen. De software vat stapsgewijs – steeds op een iets hoger niveau – samen wat de visuele kenmerken zijn en kiest uiteindelijk op basis daarvan de meest waarschijnlijke letter. De software kan ook doorhalingen en beschadigingen negeren en zo nog accurater vaststellen waar welke letters staan. Wanneer de software getraind is op een specifieke collectie dan wordt de foutmarge teruggebracht tot onder de 4%. Dat is echt heel laag.’

Prototype

De software is deels gebaseerd op opensource software en is met succes toegepast in de grote projecten REPUBLIC en GLOBALISE. Deze projecten vanons instituut maken respectievelijk de Resoluties van de Staten-Generaal en verslagen van de VOC digitaal toegankelijk. Van de Resoluties van de Staten-Generaal is al een prototype met getranscribeerde teksten beschikbaar. In de komende jaren komen de getranscribeerde teksten online beschikbaar. De oorspronkelijke bronnen liggen bij het Nationaal Archief (NA) in Den Haag. Van Koert is daarom ook anderhalf jaar bij het NA gedetacheerd geweest.

Loghi nog beter maken

Loghi is per direct voor iedereen toegankelijk op GitHub en draagt zo bij aan een nationale en internationale open science infrastructuur. ‘Wij vinden het belangrijk dat deze software vrij gedeeld wordt, zodat ook ontwikkelaars van andere organisaties in het vakgebied ermee aan de slag kunnen en hierop kunnen voortborduren. Wij nodigen iedereen van harte uit om een bijdrage te leveren en gezamenlijk Loghi nog beter te maken’, zegt Menno Rasch, directeur Digitale Infrastructuur van het KNAW Humanities Cluster.

In de software zijn bepaalde settings aan te passen zodat op elke tekst het beste resultaat behaald kan worden. Om een zo goed mogelijk resultaat te behalen op nieuwe datasets blijven wel testen nodig waarin de uitkomst van de aangepaste code wordt vergeleken met teksten die door mensen zijn gecontroleerd.

Samenwerking KNAW Humanities Cluster en het Nationaal Archief

Het KNAW Humanities Cluster en het Nationaal Archief zullen Loghi samen verder blijven door ontwikkelen om gedigitaliseerde collecties leesbaar en doorzoekbaar te maken. Dat is nu vastgelegd in officiële samenwerking, waarin ook het Nationaal Archief een ontwikkelaar gaat aannemen. ‘We hebben al 50 miljoen documenten gescand en zullen de komende jaren nog eens 50 miljoen pagina’s digitaliseren. Door deze veelal handgeschreven en getypte documenten met Loghi machineleesbaar te maken, kunnen gebruikers de documenten veel gemakkelijker doorzoeken’, zegt Liesbeth Keijser, projectleider digitalisering bij het Nationaal Archief.

Delen:

  • Klik om af te drukken (Opent in een nieuw venster) Print
  • Klik om dit te e-mailen naar een vriend (Opent in een nieuw venster) E-mail
  • Klik om te delen op Facebook (Opent in een nieuw venster) Facebook
  • Klik om te delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Klik om te delen op Telegram (Opent in een nieuw venster) Telegram
  • Klik om op LinkedIn te delen (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Nieuws Tags: transcriptie

Lees Interacties

Reacties

  1. Willem Kuiper zegt

    22 april 2023 om 17:13

    Wil hier heel graag kennis mee maken, maar denk dat ik dat niet zonder hulp kan. Kan er zoiets als een ‘klasje’ georganiseerd worden, waarin dit gedemonstreerd wordt, zodat ik het daarna zelf thuis wel red?
    Voel mij nu iemand die leest: Daar en daar gratis biefstuk af te halen. Maar als ik daar dan kom, zie ik een koe en daarnaast een bijl.

    Beantwoorden
    • Thijs van der Veen - Communicatie Huygens Instituut zegt

      1 augustus 2023 om 16:51

      De transcriptiesoftware Loghi is inderdaad alleen te gebruiken wanneer je kennis hebt van software ontwikkeling. Een klasje is helaas niet voldoende om op het niveau te komen om deze software te gebruiken. Wij raden u aan om gebruik te maken van Transkribus. Dit is een vergelijkbare software die wel voorzien is van een interface voor gebruikers zonder of met beperkte kennis van programmeren. Het verschil zit ‘m in het feit dat Loghi open source is, en Transkribus niet. Daarom is dit nieuws: dankzij Loghi kunnen software ontwikkelaars van erfgoedinstellingen nu, rekening houdend met hun eigen wensen, hun eigen (vaak grote) datasets ontsluiten.

      Beantwoorden
  2. Piet Franssen zegt

    24 april 2023 om 12:52

    Ik ben het eens met Willem. Ook voor mij is het in deze vorm niet bruikbaar.

    Beantwoorden
  3. Jan Willem Smits zegt

    25 maart 2025 om 13:53

    Mijn (duplex naar duplex) PDF, compact PDF, doorzoekbare PDF en PDF A-1b bestanden smeken, mede namens mijzelf, om een klasje bestandsbeheer en ARCHIVERING, al dan niet in Loghi

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Kees Jiskoot • Zwaarmoed en potsier

Maar aan Brusselse loketten
bezig ik hun zoet patois:
Jefke, Ickxske, Sjefke, Krieckxske,
Olland, Olland, Toetatwâ.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

SNOETJE

Een snoetje van ontroering, een snoetje van ontrouw.

Bron: Barbarber, september 1969

➔ Bekijk hier alle citaten

Agenda

6 februari 2026: Towards New Horizons of Scholarly Publishing

6 februari 2026: Towards New Horizons of Scholarly Publishing

17 december 2025

➔ Lees meer
28 december 2025: Zesde editie van Winterzinnen

28 december 2025: Zesde editie van Winterzinnen

16 december 2025

➔ Lees meer
14 januari – 6 maart 2026: Workshop Slimmer zoeken in Delpher

14 januari – 6 maart 2026: Workshop Slimmer zoeken in Delpher

10 december 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1901 Pierre Boyens
sterfdag
1891 Jan Beckering Vinckers
1933 Johan Kern
1951 Jacoba van Lessen
2024 Erik Brus
➔ Neerlandicikalender

Media

Het verdwenen botje van Sint-Werenfridus

Het verdwenen botje van Sint-Werenfridus

18 december 2025 Door Redactie Neerlandistiek 2 Reacties

➔ Lees meer
Elise Vos – Van alles de laatste

Elise Vos – Van alles de laatste

17 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Waar komt al die literatuur vandaan?

Waar komt al die literatuur vandaan?

16 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d