• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Corpus Hedendaags Nederlands online

16 november 2021 door Redactie Neerlandistiek 1 Reactie

Bij de verschijning van de nieuwe Algemene Nederlandse Spraakkunst ontstond grote beroering over het gebruik van als en dan na een comparatief. Veel mensen klommen in de pen en spraken hun afkeur uit over bijvoorbeeld groter als. Hoewel in verzorgd Nederlands groter dan nog altijd de norm lijkt te zijn, is groter als niet ongebruikelijk. Maar hoe vaak komen beide varianten tegenwoordig eigenlijk voor?

Om onderzoek te kunnen doen naar het hedendaags Nederlands uit Nederland, Vlaanderen, Suriname en de Nederlandse Antillen is een groot en betrouwbaar tekstcorpus onontbeerlijk. Met het nieuwe Corpus Hedendaags Nederlands (voortaan CHN) hoopt het Instituut voor de Nederlandse Taal (INT) in die behoefte te voorzien.

Een groeiend corpus

Het INT – en zijn voorganger het Instituut voor Nederlandse Lexicologie – kent een lange traditie van corpusbouw voor taalkundig onderzoek. Sinds 1994 zijn bijvoorbeeld de 5, 27 en 38 miljoenwoordencorpora en het PAROLE Corpus online gezet. Het materiaal van deze eerdere corpora van hedendaags Nederlands is opgenomen in de eerste release van het CHN (januari 2014). Daaraan werd later ook een aanzienlijke hoeveelheid materiaal toegevoegd uit NRC Handelsblad en De Standaard. Voor de tweede uitgave (juni 2014) leverden die twee kranten recenter materiaal aan en is het corpus uitgebreid met materiaal uit Suriname en de Nederlandse Antillen zoals kranten, materiaal gepubliceerd op internet (blogs, websites) en boeken geschreven door Surinaamse auteurs. Nieuw in deze versie van het CHN is onder andere de uitbreiding van het krantenmateriaal met verschillende Vlaamse kranten, zoals de Gazet van Antwerpen en Het Belang van Limburg.

Het CHN is geen afgesloten geheel. Er zullen voortdurend nieuwe bronnen aan worden toegevoegd. Omdat bij het verzamelen van data de focus ligt op bronnen waaruit we doorlopend nieuw materiaal kunnen ontvangen (zoals kranten), zullen er maandelijks updates plaatsvinden. Daardoor zal het corpus blijven groeien. Dit maakt het nog beter mogelijk om ontwikkelingen in het modern Nederlands te onderzoeken.

1 miljard woorden

De huidige release van het CHN is een sterk uitgebreide versie van de twee eerdere versies. Op dit moment bevat het corpus al meer dan 2,5 miljoen teksten uit onder meer boeken, blogs, kranten, tijdschriften en journaaluitzendingen. Samen zijn deze teksten goed voor zeer binnenkort meer dan 1 miljard woorden – op 5 november 2021 stond de teller al op 991.688.586 woorden! Een overzicht van de inhoud is – na inloggen – te zien in de About. Met elke update wordt dit bestand bijgewerkt. Twee screenshots geven een indruk van de informatie die daarin te vinden is.

Daarnaast is het CHN in een nieuw jasje gestoken. Het uiterlijk van de website en de zoekmogelijkheden komen overeen met wat u gewend bent van de andere (historische) corpora die het INT voor onderzoekers en andere belangstellenden online heeft staan, zoals Brieven als Buit, het Corpus Gysseling en het Corpus Middelnederlands.

Wie deze nieuwe versie vergelijkt met de eerdere versies van het CHN zal merken dat het juridisch corpus – oorspronkelijk opgenomen in het 38 miljoenwoordencorpus – er geen deel meer van uitmaakt. Dit besluit is genomen omdat deze juridische teksten dateringen hebben uit de periode 1814-2000; hierdoor zijn ze niet op hun plaats in een corpus van hedendaags Nederlands. Daarom is ervoor gekozen dit materiaal onder te brengen en te ontsluiten in een nieuw Corpus Juridisch Nederlands, dat sinds september 2021 – zonder login – voor iedereen vrij toegankelijk en beschikbaar is.

Zoeken in het CHN

Het CHN is automatisch taalkundig verrijkt met woordsoort en lemma en syntactisch geannoteerd. Gezien de gigantische hoeveelheid woorden was het niet mogelijk om al die gegevens handmatig te controleren. Een gevolg daarvan is dat enkele onvolkomenheden onvermijdelijk zijn.

De aanwezigheid van metadata bij de teksten (titel, auteur, publicatiejaar, medium en taal) zorgt ervoor dat er in specifieke gedeeltes van het corpus gezocht kan worden. Wie bijvoorbeeld alleen in krantenteksten van de laatste tien jaar wil zoeken, kan dat eenvoudig doen.

Toegankelijk voor wetenschappelijk onderzoek

Het CHN kan een zo goed beeld geven van het huidige Nederlands omdat het gebruikmaakt van zeer recente bronnen waar vaak nog auteursrecht op rust. Daarom is het CHN alleen toegankelijk voor wetenschappelijk onderzoek, met een gebruikersnaam en wachtwoord. Wie in dienst is van een universiteit of wetenschappelijk instituut kan inloggen met de gebruikersnaam en het wachtwoord van de eigen organisatie.

Staat uw organisatie niet in de lijst die verschijnt na het drukken op de knop login of heeft u geen account bij een academische instelling, dan kunt u bij CLARIN.EU met dit formulier een account aanvragen. (Het beoordelen van uw aanvraag kan enkele dagen in beslag nemen.)

Groter als of dan

Nog even terug naar de inleiding. Welk antwoord geeft het CHN op de vraag hoe vaak groter dan respectievelijk groter als voorkomt in het (corpus) hedendaags Nederlands? De schoolmeesters kunnen voorlopig opgelucht ademhalen: groter als komt in het CHN 788 keer voor (0,0000802%) tegenover groter dan 18.738 keer (0,00191%).

Delen:

  • Klik om af te drukken (Opent in een nieuw venster) Print
  • Klik om dit te e-mailen naar een vriend (Opent in een nieuw venster) E-mail
  • Klik om te delen op Facebook (Opent in een nieuw venster) Facebook
  • Klik om te delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Klik om te delen op Telegram (Opent in een nieuw venster) Telegram
  • Klik om op LinkedIn te delen (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: CHN, corpus, Corpus Hedendaags Nederlands

Lees Interacties

Reacties

  1. Jan Stroop zegt

    16 november 2021 om 10:24

    Prachtig. Maar wat zou ’t mooi zijn als er ook een opvolger kwam voor ’t Corpus GESPROKEN Nederlands (CGN).
    Dat er ook bij ’t gebruik van als of dan verschil bestaat tussen geschreven en gesproken Nederlands is evident:

    comp. + als komt in CGN 139 (18%) keer voor. In ’t CHN 4%
    comp. + dan komt in CGN 619 (82%) keer voor. In ’t CHN 96%

    Zie:
    https://pure.uva.nl/ws/files/1148178/104890_354092.pdf

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Kees Jiskoot • Zwaarmoed en potsier

Maar aan Brusselse loketten
bezig ik hun zoet patois:
Jefke, Ickxske, Sjefke, Krieckxske,
Olland, Olland, Toetatwâ.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

SNOETJE

Een snoetje van ontroering, een snoetje van ontrouw.

Bron: Barbarber, september 1969

➔ Bekijk hier alle citaten

Agenda

6 februari 2026: Towards New Horizons of Scholarly Publishing

6 februari 2026: Towards New Horizons of Scholarly Publishing

17 december 2025

➔ Lees meer
28 december 2025: Zesde editie van Winterzinnen

28 december 2025: Zesde editie van Winterzinnen

16 december 2025

➔ Lees meer
14 januari – 6 maart 2026: Workshop Slimmer zoeken in Delpher

14 januari – 6 maart 2026: Workshop Slimmer zoeken in Delpher

10 december 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1901 Pierre Boyens
sterfdag
1891 Jan Beckering Vinckers
1933 Johan Kern
1951 Jacoba van Lessen
2024 Erik Brus
➔ Neerlandicikalender

Media

Het verdwenen botje van Sint-Werenfridus

Het verdwenen botje van Sint-Werenfridus

18 december 2025 Door Redactie Neerlandistiek 2 Reacties

➔ Lees meer
Elise Vos – Van alles de laatste

Elise Vos – Van alles de laatste

17 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Waar komt al die literatuur vandaan?

Waar komt al die literatuur vandaan?

16 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d