• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

DBNL in beeld (2): het digitaliseringsproces

29 september 2021 door DBNL Reageer

F. Bordewijk.

De DBNL is een digitaliseringsprogramma. Op dbnl.org vind je duizenden teksten uit de Nederlandstalige letterkunde, taalkunde en cultuurgeschiedenis en er komen maandelijks nieuwe teksten bij. Maar hoe gaat dat digitaliseren eigenlijk in zijn werk? Hoe maak je van een papieren boek of tijdschrift een digitaal bestand?

Dit filmpje over het digitaliseringsproces bevat een korte uitleg. Wil je meer weten? Lees dan verder.

Van boek naar bytes

Het begint allemaal met het inscannen van een papieren boek of tijdschriftjaargang. Op de scans worden coderingen aangebracht die informatie bevatten over de tekst, zoals de auteur(s), jaartallen, geografische plaatsen en de hoofdstukindeling. Vervolgens wordt de scan met behulp van OCR-technieken (Optical Character Recognition) omgezet naar een tekstbestand dat een bijna 100% nauwkeurige weergave geeft van de oorspronkelijke tekst. Ook de coderingen worden in dit bestand overgenomen. Daarbij hanteren we de internationale standaard TEI XML.

Bestandsformaten

De TEI XML-bestanden vormen de kern van de DBNL-collectie. Op basis van deze bestanden worden verschillende bestandsformaten gegenereerd: de tekst die je kunt lezen op de DBNL-website, een pdf-bestand van de tekst en een epub (ebook). Daarnaast worden vaak ook de scans van het originele werk getoond, zodat je een beeld krijgt van de oorspronkelijke vormgeving van het werk. Tot slot worden bij de rechtenvrije teksten ook de XML-bestanden zelf en .txt-bestanden beschikbaar gesteld. Die zijn vooral interessant voor (data)wetenschappers.

Soms is het om juridische of technische redenen niet mogelijk om alle bestandsformaten beschikbaar te stellen van een tekst.

Dwarsverbanden

De coderingen in het XML-bestand zijn er niet voor niets. Daarmee wordt structuur aangebracht in de teksten: onder andere hoofdstuktitels, tussenkoppen en tabellen kunnen hierdoor op de juiste manier worden weergegeven op de website.

Daarnaast worden door middel van de coderingen dwarsverbanden gelegd binnen de DBNL-collectie. Zo worden in elke tekst codes aangebracht voor andere werken die worden genoemd of besproken: bij een recensie van de roman Karakter in een tijdschrift wordt een code toegevoegd voor dat werk. Dankzij deze codering vind je deze recensie als je zoekt naar informatie over Karakter. En doordat Karakter geïdentificeerd is als een werk van Bordewijk, vind je via de auteurspagina van Bordewijk eenvoudig alle secundaire literatuur over Karakter die in de DBNL aanwezig is. Deze verrijkingen zorgen er dus voor dat de informatie op de website gestructureerd kan worden aangeboden. Bovendien maken ze grasduinen mogelijk, omdat je eindeloos kunt blijven doorklikken.

Dit bericht is onderdeel van een reeks. Wekelijks vertellen wij je over verschillende onderwerpen rond de DBNL. Wij, dat zijn: Ryanne Keltjens, coördinator van de DBNL bij de KB (Den Haag), en Sarah Fierens, projectleider DBNL in Vlaanderen bij de vwz Vlaamse Erfgoedbibliotheken. Wat gebeurt er allemaal achter de schermen? En wat kun je allemaal nog meer met de DBNL? Je leest het hier.

Nog meer weten over de DBNL? Houd deze reeks in de gaten of kijk eens bij de veelgestelde vragen op de website.

Delen:

  • Klik om af te drukken (Opent in een nieuw venster) Print
  • Klik om dit te e-mailen naar een vriend (Opent in een nieuw venster) E-mail
  • Klik om te delen op Facebook (Opent in een nieuw venster) Facebook
  • Klik om te delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Klik om te delen op Telegram (Opent in een nieuw venster) Telegram
  • Klik om op LinkedIn te delen (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: DBNL, digital humanities, digitalisering, XML

Lees Interacties

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Edwin Fagel • Ik antwoord de conducteur goedenavond

Ik antwoord de conducteur goedenavond
zoals ik amen antwoord op de hostie
ik volg de structuren van de samenleving
ik houd me aan de regels.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

SNOETJE

Een snoetje van ontroering, een snoetje van ontrouw.

Bron: Barbarber, september 1969

➔ Bekijk hier alle citaten

Agenda

6 februari 2026: Towards New Horizons of Scholarly Publishing

6 februari 2026: Towards New Horizons of Scholarly Publishing

17 december 2025

➔ Lees meer
28 december 2025: Zesde editie van Winterzinnen

28 december 2025: Zesde editie van Winterzinnen

16 december 2025

➔ Lees meer
14 januari – 6 maart 2026: Workshop Slimmer zoeken in Delpher

14 januari – 6 maart 2026: Workshop Slimmer zoeken in Delpher

10 december 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1901 Pierre Boyens
sterfdag
1891 Jan Beckering Vinckers
1933 Johan Kern
1951 Jacoba van Lessen
2024 Erik Brus
➔ Neerlandicikalender

Media

Het verdwenen botje van Sint-Werenfridus

Het verdwenen botje van Sint-Werenfridus

18 december 2025 Door Redactie Neerlandistiek 2 Reacties

➔ Lees meer
Elise de Vos – Van alles de laatste

Elise de Vos – Van alles de laatste

17 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Waar komt al die literatuur vandaan?

Waar komt al die literatuur vandaan?

16 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d