• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

DBNL in beeld (2): het digitaliseringsproces

29 september 2021 door DBNL Reageer

F. Bordewijk.

De DBNL is een digitaliseringsprogramma. Op dbnl.org vind je duizenden teksten uit de Nederlandstalige letterkunde, taalkunde en cultuurgeschiedenis en er komen maandelijks nieuwe teksten bij. Maar hoe gaat dat digitaliseren eigenlijk in zijn werk? Hoe maak je van een papieren boek of tijdschrift een digitaal bestand?

Dit filmpje over het digitaliseringsproces bevat een korte uitleg. Wil je meer weten? Lees dan verder.

Van boek naar bytes

Het begint allemaal met het inscannen van een papieren boek of tijdschriftjaargang. Op de scans worden coderingen aangebracht die informatie bevatten over de tekst, zoals de auteur(s), jaartallen, geografische plaatsen en de hoofdstukindeling. Vervolgens wordt de scan met behulp van OCR-technieken (Optical Character Recognition) omgezet naar een tekstbestand dat een bijna 100% nauwkeurige weergave geeft van de oorspronkelijke tekst. Ook de coderingen worden in dit bestand overgenomen. Daarbij hanteren we de internationale standaard TEI XML.

Bestandsformaten

De TEI XML-bestanden vormen de kern van de DBNL-collectie. Op basis van deze bestanden worden verschillende bestandsformaten gegenereerd: de tekst die je kunt lezen op de DBNL-website, een pdf-bestand van de tekst en een epub (ebook). Daarnaast worden vaak ook de scans van het originele werk getoond, zodat je een beeld krijgt van de oorspronkelijke vormgeving van het werk. Tot slot worden bij de rechtenvrije teksten ook de XML-bestanden zelf en .txt-bestanden beschikbaar gesteld. Die zijn vooral interessant voor (data)wetenschappers.

Soms is het om juridische of technische redenen niet mogelijk om alle bestandsformaten beschikbaar te stellen van een tekst.

Dwarsverbanden

De coderingen in het XML-bestand zijn er niet voor niets. Daarmee wordt structuur aangebracht in de teksten: onder andere hoofdstuktitels, tussenkoppen en tabellen kunnen hierdoor op de juiste manier worden weergegeven op de website.

Daarnaast worden door middel van de coderingen dwarsverbanden gelegd binnen de DBNL-collectie. Zo worden in elke tekst codes aangebracht voor andere werken die worden genoemd of besproken: bij een recensie van de roman Karakter in een tijdschrift wordt een code toegevoegd voor dat werk. Dankzij deze codering vind je deze recensie als je zoekt naar informatie over Karakter. En doordat Karakter geïdentificeerd is als een werk van Bordewijk, vind je via de auteurspagina van Bordewijk eenvoudig alle secundaire literatuur over Karakter die in de DBNL aanwezig is. Deze verrijkingen zorgen er dus voor dat de informatie op de website gestructureerd kan worden aangeboden. Bovendien maken ze grasduinen mogelijk, omdat je eindeloos kunt blijven doorklikken.

Dit bericht is onderdeel van een reeks. Wekelijks vertellen wij je over verschillende onderwerpen rond de DBNL. Wij, dat zijn: Ryanne Keltjens, coördinator van de DBNL bij de KB (Den Haag), en Sarah Fierens, projectleider DBNL in Vlaanderen bij de vwz Vlaamse Erfgoedbibliotheken. Wat gebeurt er allemaal achter de schermen? En wat kun je allemaal nog meer met de DBNL? Je leest het hier.

Nog meer weten over de DBNL? Houd deze reeks in de gaten of kijk eens bij de veelgestelde vragen op de website.

Delen:

  • Klik om af te drukken (Opent in een nieuw venster) Print
  • Klik om dit te e-mailen naar een vriend (Opent in een nieuw venster) E-mail
  • Klik om te delen op Facebook (Opent in een nieuw venster) Facebook
  • Klik om te delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Klik om te delen op Telegram (Opent in een nieuw venster) Telegram
  • Klik om op LinkedIn te delen (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: DBNL, digital humanities, digitalisering, XML

Lees Interacties

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Frans Budé • Parkscènes

Hij begroet de bomen, zwaait naar de eenden
in de vijver, de blinkende kiezels op de bodem.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

De koeien schemeren door de heg,
het paard is uit taaitaai gesneden,
in ieder duindal ligt dun sneeuw.

De branding vlecht een veren zee
waar zon over omhoog stijgt, licht waarin
geen plaats om uit te vliegen is.

Bron: Uit de hoge boom geschreven, 1967

➔ Bekijk hier alle citaten

Agenda

11 december 2025: Anne Frank, schrijfster

11 december 2025: Anne Frank, schrijfster

3 december 2025

➔ Lees meer
11 december 2025: Proefcollege Nederlands

11 december 2025: Proefcollege Nederlands

2 december 2025

➔ Lees meer
5 december 2025: Intreerede Jolyn Philips

5 december 2025: Intreerede Jolyn Philips

28 november 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1946 Dick Wortel
➔ Neerlandicikalender

Media

Dichter Esther Jansma (24 december 1958-23 januari 2025)

Dichter Esther Jansma (24 december 1958-23 januari 2025)

2 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
De postkoloniale podcast met Remco Raben over Pramoedya Ananta Toer

De postkoloniale podcast met Remco Raben over Pramoedya Ananta Toer

30 november 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Peter van Zonneveld over Tjalie Robinson/Vincent Mahieu (1993)

Peter van Zonneveld over Tjalie Robinson/Vincent Mahieu (1993)

29 november 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d