• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Corpus Hedendaags Nederlands online

16 november 2021 door Redactie Neerlandistiek 1 Reactie

Bij de verschijning van de nieuwe Algemene Nederlandse Spraakkunst ontstond grote beroering over het gebruik van als en dan na een comparatief. Veel mensen klommen in de pen en spraken hun afkeur uit over bijvoorbeeld groter als. Hoewel in verzorgd Nederlands groter dan nog altijd de norm lijkt te zijn, is groter als niet ongebruikelijk. Maar hoe vaak komen beide varianten tegenwoordig eigenlijk voor?

Om onderzoek te kunnen doen naar het hedendaags Nederlands uit Nederland, Vlaanderen, Suriname en de Nederlandse Antillen is een groot en betrouwbaar tekstcorpus onontbeerlijk. Met het nieuwe Corpus Hedendaags Nederlands (voortaan CHN) hoopt het Instituut voor de Nederlandse Taal (INT) in die behoefte te voorzien.

Een groeiend corpus

Het INT – en zijn voorganger het Instituut voor Nederlandse Lexicologie – kent een lange traditie van corpusbouw voor taalkundig onderzoek. Sinds 1994 zijn bijvoorbeeld de 5, 27 en 38 miljoenwoordencorpora en het PAROLE Corpus online gezet. Het materiaal van deze eerdere corpora van hedendaags Nederlands is opgenomen in de eerste release van het CHN (januari 2014). Daaraan werd later ook een aanzienlijke hoeveelheid materiaal toegevoegd uit NRC Handelsblad en De Standaard. Voor de tweede uitgave (juni 2014) leverden die twee kranten recenter materiaal aan en is het corpus uitgebreid met materiaal uit Suriname en de Nederlandse Antillen zoals kranten, materiaal gepubliceerd op internet (blogs, websites) en boeken geschreven door Surinaamse auteurs. Nieuw in deze versie van het CHN is onder andere de uitbreiding van het krantenmateriaal met verschillende Vlaamse kranten, zoals de Gazet van Antwerpen en Het Belang van Limburg.

Het CHN is geen afgesloten geheel. Er zullen voortdurend nieuwe bronnen aan worden toegevoegd. Omdat bij het verzamelen van data de focus ligt op bronnen waaruit we doorlopend nieuw materiaal kunnen ontvangen (zoals kranten), zullen er maandelijks updates plaatsvinden. Daardoor zal het corpus blijven groeien. Dit maakt het nog beter mogelijk om ontwikkelingen in het modern Nederlands te onderzoeken.

1 miljard woorden

De huidige release van het CHN is een sterk uitgebreide versie van de twee eerdere versies. Op dit moment bevat het corpus al meer dan 2,5 miljoen teksten uit onder meer boeken, blogs, kranten, tijdschriften en journaaluitzendingen. Samen zijn deze teksten goed voor zeer binnenkort meer dan 1 miljard woorden – op 5 november 2021 stond de teller al op 991.688.586 woorden! Een overzicht van de inhoud is – na inloggen – te zien in de About. Met elke update wordt dit bestand bijgewerkt. Twee screenshots geven een indruk van de informatie die daarin te vinden is.

Daarnaast is het CHN in een nieuw jasje gestoken. Het uiterlijk van de website en de zoekmogelijkheden komen overeen met wat u gewend bent van de andere (historische) corpora die het INT voor onderzoekers en andere belangstellenden online heeft staan, zoals Brieven als Buit, het Corpus Gysseling en het Corpus Middelnederlands.

Wie deze nieuwe versie vergelijkt met de eerdere versies van het CHN zal merken dat het juridisch corpus – oorspronkelijk opgenomen in het 38 miljoenwoordencorpus – er geen deel meer van uitmaakt. Dit besluit is genomen omdat deze juridische teksten dateringen hebben uit de periode 1814-2000; hierdoor zijn ze niet op hun plaats in een corpus van hedendaags Nederlands. Daarom is ervoor gekozen dit materiaal onder te brengen en te ontsluiten in een nieuw Corpus Juridisch Nederlands, dat sinds september 2021 – zonder login – voor iedereen vrij toegankelijk en beschikbaar is.

Zoeken in het CHN

Het CHN is automatisch taalkundig verrijkt met woordsoort en lemma en syntactisch geannoteerd. Gezien de gigantische hoeveelheid woorden was het niet mogelijk om al die gegevens handmatig te controleren. Een gevolg daarvan is dat enkele onvolkomenheden onvermijdelijk zijn.

De aanwezigheid van metadata bij de teksten (titel, auteur, publicatiejaar, medium en taal) zorgt ervoor dat er in specifieke gedeeltes van het corpus gezocht kan worden. Wie bijvoorbeeld alleen in krantenteksten van de laatste tien jaar wil zoeken, kan dat eenvoudig doen.

Toegankelijk voor wetenschappelijk onderzoek

Het CHN kan een zo goed beeld geven van het huidige Nederlands omdat het gebruikmaakt van zeer recente bronnen waar vaak nog auteursrecht op rust. Daarom is het CHN alleen toegankelijk voor wetenschappelijk onderzoek, met een gebruikersnaam en wachtwoord. Wie in dienst is van een universiteit of wetenschappelijk instituut kan inloggen met de gebruikersnaam en het wachtwoord van de eigen organisatie.

Staat uw organisatie niet in de lijst die verschijnt na het drukken op de knop login of heeft u geen account bij een academische instelling, dan kunt u bij CLARIN.EU met dit formulier een account aanvragen. (Het beoordelen van uw aanvraag kan enkele dagen in beslag nemen.)

Groter als of dan

Nog even terug naar de inleiding. Welk antwoord geeft het CHN op de vraag hoe vaak groter dan respectievelijk groter als voorkomt in het (corpus) hedendaags Nederlands? De schoolmeesters kunnen voorlopig opgelucht ademhalen: groter als komt in het CHN 788 keer voor (0,0000802%) tegenover groter dan 18.738 keer (0,00191%).

Delen:

  • Klik om af te drukken (Opent in een nieuw venster) Print
  • Klik om dit te e-mailen naar een vriend (Opent in een nieuw venster) E-mail
  • Klik om te delen op Facebook (Opent in een nieuw venster) Facebook
  • Klik om te delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Klik om te delen op Telegram (Opent in een nieuw venster) Telegram
  • Klik om op LinkedIn te delen (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: CHN, corpus, Corpus Hedendaags Nederlands

Lees Interacties

Reacties

  1. Jan Stroop zegt

    16 november 2021 om 10:24

    Prachtig. Maar wat zou ’t mooi zijn als er ook een opvolger kwam voor ’t Corpus GESPROKEN Nederlands (CGN).
    Dat er ook bij ’t gebruik van als of dan verschil bestaat tussen geschreven en gesproken Nederlands is evident:

    comp. + als komt in CGN 139 (18%) keer voor. In ’t CHN 4%
    comp. + dan komt in CGN 619 (82%) keer voor. In ’t CHN 96%

    Zie:
    https://pure.uva.nl/ws/files/1148178/104890_354092.pdf

    Beantwoorden

Laat een reactie achter bij Jan StroopReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Frans Budé • Parkscènes

Hij begroet de bomen, zwaait naar de eenden
in de vijver, de blinkende kiezels op de bodem.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

De koeien schemeren door de heg,
het paard is uit taaitaai gesneden,
in ieder duindal ligt dun sneeuw.

De branding vlecht een veren zee
waar zon over omhoog stijgt, licht waarin
geen plaats om uit te vliegen is.

Bron: Uit de hoge boom geschreven, 1967

➔ Bekijk hier alle citaten

Agenda

11 december 2025: Anne Frank, schrijfster

11 december 2025: Anne Frank, schrijfster

3 december 2025

➔ Lees meer
11 december 2025: Proefcollege Nederlands

11 december 2025: Proefcollege Nederlands

2 december 2025

➔ Lees meer
5 december 2025: Intreerede Jolyn Philips

5 december 2025: Intreerede Jolyn Philips

28 november 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1946 Dick Wortel
➔ Neerlandicikalender

Media

Dichter Esther Jansma (24 december 1958-23 januari 2025)

Dichter Esther Jansma (24 december 1958-23 januari 2025)

2 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
De postkoloniale podcast met Remco Raben over Pramoedya Ananta Toer

De postkoloniale podcast met Remco Raben over Pramoedya Ananta Toer

30 november 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Peter van Zonneveld over Tjalie Robinson/Vincent Mahieu (1993)

Peter van Zonneveld over Tjalie Robinson/Vincent Mahieu (1993)

29 november 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d