De DBNL is een digitaliseringsprogramma. Op dbnl.org vind je duizenden teksten uit de Nederlandstalige letterkunde, taalkunde en cultuurgeschiedenis en er komen maandelijks nieuwe teksten bij. Maar hoe gaat dat digitaliseren eigenlijk in zijn werk? Hoe maak je van een papieren boek of tijdschrift een digitaal bestand?
Dit filmpje over het digitaliseringsproces bevat een korte uitleg. Wil je meer weten? Lees dan verder.
Van boek naar bytes
Het begint allemaal met het inscannen van een papieren boek of tijdschriftjaargang. Op de scans worden coderingen aangebracht die informatie bevatten over de tekst, zoals de auteur(s), jaartallen, geografische plaatsen en de hoofdstukindeling. Vervolgens wordt de scan met behulp van OCR-technieken (Optical Character Recognition) omgezet naar een tekstbestand dat een bijna 100% nauwkeurige weergave geeft van de oorspronkelijke tekst. Ook de coderingen worden in dit bestand overgenomen. Daarbij hanteren we de internationale standaard TEI XML.
Bestandsformaten
De TEI XML-bestanden vormen de kern van de DBNL-collectie. Op basis van deze bestanden worden verschillende bestandsformaten gegenereerd: de tekst die je kunt lezen op de DBNL-website, een pdf-bestand van de tekst en een epub (ebook). Daarnaast worden vaak ook de scans van het originele werk getoond, zodat je een beeld krijgt van de oorspronkelijke vormgeving van het werk. Tot slot worden bij de rechtenvrije teksten ook de XML-bestanden zelf en .txt-bestanden beschikbaar gesteld. Die zijn vooral interessant voor (data)wetenschappers.
Soms is het om juridische of technische redenen niet mogelijk om alle bestandsformaten beschikbaar te stellen van een tekst.
Dwarsverbanden
De coderingen in het XML-bestand zijn er niet voor niets. Daarmee wordt structuur aangebracht in de teksten: onder andere hoofdstuktitels, tussenkoppen en tabellen kunnen hierdoor op de juiste manier worden weergegeven op de website.
Daarnaast worden door middel van de coderingen dwarsverbanden gelegd binnen de DBNL-collectie. Zo worden in elke tekst codes aangebracht voor andere werken die worden genoemd of besproken: bij een recensie van de roman Karakter in een tijdschrift wordt een code toegevoegd voor dat werk. Dankzij deze codering vind je deze recensie als je zoekt naar informatie over Karakter. En doordat Karakter geïdentificeerd is als een werk van Bordewijk, vind je via de auteurspagina van Bordewijk eenvoudig alle secundaire literatuur over Karakter die in de DBNL aanwezig is. Deze verrijkingen zorgen er dus voor dat de informatie op de website gestructureerd kan worden aangeboden. Bovendien maken ze grasduinen mogelijk, omdat je eindeloos kunt blijven doorklikken.
Dit bericht is onderdeel van een reeks. Wekelijks vertellen wij je over verschillende onderwerpen rond de DBNL. Wij, dat zijn: Ryanne Keltjens, coördinator van de DBNL bij de KB (Den Haag), en Sarah Fierens, projectleider DBNL in Vlaanderen bij de vwz Vlaamse Erfgoedbibliotheken. Wat gebeurt er allemaal achter de schermen? En wat kun je allemaal nog meer met de DBNL? Je leest het hier.
Nog meer weten over de DBNL? Houd deze reeks in de gaten of kijk eens bij de veelgestelde vragen op de website.
Laat een reactie achter