• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

DBNL in beeld (2): het digitaliseringsproces

29 september 2021 door DBNL Reageer

F. Bordewijk.

De DBNL is een digitaliseringsprogramma. Op dbnl.org vind je duizenden teksten uit de Nederlandstalige letterkunde, taalkunde en cultuurgeschiedenis en er komen maandelijks nieuwe teksten bij. Maar hoe gaat dat digitaliseren eigenlijk in zijn werk? Hoe maak je van een papieren boek of tijdschrift een digitaal bestand?

Dit filmpje over het digitaliseringsproces bevat een korte uitleg. Wil je meer weten? Lees dan verder.

Van boek naar bytes

Het begint allemaal met het inscannen van een papieren boek of tijdschriftjaargang. Op de scans worden coderingen aangebracht die informatie bevatten over de tekst, zoals de auteur(s), jaartallen, geografische plaatsen en de hoofdstukindeling. Vervolgens wordt de scan met behulp van OCR-technieken (Optical Character Recognition) omgezet naar een tekstbestand dat een bijna 100% nauwkeurige weergave geeft van de oorspronkelijke tekst. Ook de coderingen worden in dit bestand overgenomen. Daarbij hanteren we de internationale standaard TEI XML.

Bestandsformaten

De TEI XML-bestanden vormen de kern van de DBNL-collectie. Op basis van deze bestanden worden verschillende bestandsformaten gegenereerd: de tekst die je kunt lezen op de DBNL-website, een pdf-bestand van de tekst en een epub (ebook). Daarnaast worden vaak ook de scans van het originele werk getoond, zodat je een beeld krijgt van de oorspronkelijke vormgeving van het werk. Tot slot worden bij de rechtenvrije teksten ook de XML-bestanden zelf en .txt-bestanden beschikbaar gesteld. Die zijn vooral interessant voor (data)wetenschappers.

Soms is het om juridische of technische redenen niet mogelijk om alle bestandsformaten beschikbaar te stellen van een tekst.

Dwarsverbanden

De coderingen in het XML-bestand zijn er niet voor niets. Daarmee wordt structuur aangebracht in de teksten: onder andere hoofdstuktitels, tussenkoppen en tabellen kunnen hierdoor op de juiste manier worden weergegeven op de website.

Daarnaast worden door middel van de coderingen dwarsverbanden gelegd binnen de DBNL-collectie. Zo worden in elke tekst codes aangebracht voor andere werken die worden genoemd of besproken: bij een recensie van de roman Karakter in een tijdschrift wordt een code toegevoegd voor dat werk. Dankzij deze codering vind je deze recensie als je zoekt naar informatie over Karakter. En doordat Karakter geïdentificeerd is als een werk van Bordewijk, vind je via de auteurspagina van Bordewijk eenvoudig alle secundaire literatuur over Karakter die in de DBNL aanwezig is. Deze verrijkingen zorgen er dus voor dat de informatie op de website gestructureerd kan worden aangeboden. Bovendien maken ze grasduinen mogelijk, omdat je eindeloos kunt blijven doorklikken.

Dit bericht is onderdeel van een reeks. Wekelijks vertellen wij je over verschillende onderwerpen rond de DBNL. Wij, dat zijn: Ryanne Keltjens, coördinator van de DBNL bij de KB (Den Haag), en Sarah Fierens, projectleider DBNL in Vlaanderen bij de vwz Vlaamse Erfgoedbibliotheken. Wat gebeurt er allemaal achter de schermen? En wat kun je allemaal nog meer met de DBNL? Je leest het hier.

Nog meer weten over de DBNL? Houd deze reeks in de gaten of kijk eens bij de veelgestelde vragen op de website.

Delen:

  • Klik om af te drukken (Opent in een nieuw venster) Print
  • Klik om dit te e-mailen naar een vriend (Opent in een nieuw venster) E-mail
  • Klik om te delen op Facebook (Opent in een nieuw venster) Facebook
  • Klik om te delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Klik om te delen op Telegram (Opent in een nieuw venster) Telegram
  • Klik om op LinkedIn te delen (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: DBNL, digital humanities, digitalisering, XML

Lees Interacties

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Maya Wuytack • de toekomstige

de voorvoelde
‘ik zag haar
door de kamers
van haar hart rennen’

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

Het is alsof de dingen die gebeuren
volmaakter zich aan ons voltrokken toen
wij heler onverbloemd beschikbaar waren.

Bron: Vluchtige Verhuizing, postuum verschenen, 1975

➔ Bekijk hier alle citaten

Agenda

7 maart 2026: Themadag Standaardnederlands

7 maart 2026: Themadag Standaardnederlands

1 februari 2026

➔ Lees meer
11 maart 2026: ‘Tussen oorlog en cultuur. Ede, 1600-1800’ 

11 maart 2026: ‘Tussen oorlog en cultuur. Ede, 1600-1800’ 

31 januari 2026

➔ Lees meer
13 februari 2026: Proefcollege Nederlandse Taal en Cultuur

13 februari 2026: Proefcollege Nederlandse Taal en Cultuur

28 januari 2026

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

sterfdag
1980 Fred Batten
➔ Neerlandicikalender

Media

Waar komen spreekwoorden vandaan?

Waar komen spreekwoorden vandaan?

1 februari 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Maud Vanhauwaert en Nina Geerdink over Johanna Hobius

Maud Vanhauwaert en Nina Geerdink over Johanna Hobius

31 januari 2026 Door Fleur Speet Reageer

➔ Lees meer
In gesprek met auteur Daan Heerma van Voss

In gesprek met auteur Daan Heerma van Voss

29 januari 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2026 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d