Bij de verschijning van de nieuwe Algemene Nederlandse Spraakkunst ontstond grote beroering over het gebruik van als en dan na een comparatief. Veel mensen klommen in de pen en spraken hun afkeur uit over bijvoorbeeld groter als. Hoewel in verzorgd Nederlands groter dan nog altijd de norm lijkt te zijn, is groter als niet ongebruikelijk. Maar hoe vaak komen beide varianten tegenwoordig eigenlijk voor?
Om onderzoek te kunnen doen naar het hedendaags Nederlands uit Nederland, Vlaanderen, Suriname en de Nederlandse Antillen is een groot en betrouwbaar tekstcorpus onontbeerlijk. Met het nieuwe Corpus Hedendaags Nederlands (voortaan CHN) hoopt het Instituut voor de Nederlandse Taal (INT) in die behoefte te voorzien.
Een groeiend corpus
Het INT – en zijn voorganger het Instituut voor Nederlandse Lexicologie – kent een lange traditie van corpusbouw voor taalkundig onderzoek. Sinds 1994 zijn bijvoorbeeld de 5, 27 en 38 miljoenwoordencorpora en het PAROLE Corpus online gezet. Het materiaal van deze eerdere corpora van hedendaags Nederlands is opgenomen in de eerste release van het CHN (januari 2014). Daaraan werd later ook een aanzienlijke hoeveelheid materiaal toegevoegd uit NRC Handelsblad en De Standaard. Voor de tweede uitgave (juni 2014) leverden die twee kranten recenter materiaal aan en is het corpus uitgebreid met materiaal uit Suriname en de Nederlandse Antillen zoals kranten, materiaal gepubliceerd op internet (blogs, websites) en boeken geschreven door Surinaamse auteurs. Nieuw in deze versie van het CHN is onder andere de uitbreiding van het krantenmateriaal met verschillende Vlaamse kranten, zoals de Gazet van Antwerpen en Het Belang van Limburg.
Het CHN is geen afgesloten geheel. Er zullen voortdurend nieuwe bronnen aan worden toegevoegd. Omdat bij het verzamelen van data de focus ligt op bronnen waaruit we doorlopend nieuw materiaal kunnen ontvangen (zoals kranten), zullen er maandelijks updates plaatsvinden. Daardoor zal het corpus blijven groeien. Dit maakt het nog beter mogelijk om ontwikkelingen in het modern Nederlands te onderzoeken.
1 miljard woorden
De huidige release van het CHN is een sterk uitgebreide versie van de twee eerdere versies. Op dit moment bevat het corpus al meer dan 2,5 miljoen teksten uit onder meer boeken, blogs, kranten, tijdschriften en journaaluitzendingen. Samen zijn deze teksten goed voor zeer binnenkort meer dan 1 miljard woorden – op 5 november 2021 stond de teller al op 991.688.586 woorden! Een overzicht van de inhoud is – na inloggen – te zien in de About. Met elke update wordt dit bestand bijgewerkt. Twee screenshots geven een indruk van de informatie die daarin te vinden is.
Daarnaast is het CHN in een nieuw jasje gestoken. Het uiterlijk van de website en de zoekmogelijkheden komen overeen met wat u gewend bent van de andere (historische) corpora die het INT voor onderzoekers en andere belangstellenden online heeft staan, zoals Brieven als Buit, het Corpus Gysseling en het Corpus Middelnederlands.
Wie deze nieuwe versie vergelijkt met de eerdere versies van het CHN zal merken dat het juridisch corpus – oorspronkelijk opgenomen in het 38 miljoenwoordencorpus – er geen deel meer van uitmaakt. Dit besluit is genomen omdat deze juridische teksten dateringen hebben uit de periode 1814-2000; hierdoor zijn ze niet op hun plaats in een corpus van hedendaags Nederlands. Daarom is ervoor gekozen dit materiaal onder te brengen en te ontsluiten in een nieuw Corpus Juridisch Nederlands, dat sinds september 2021 – zonder login – voor iedereen vrij toegankelijk en beschikbaar is.
Zoeken in het CHN
Het CHN is automatisch taalkundig verrijkt met woordsoort en lemma en syntactisch geannoteerd. Gezien de gigantische hoeveelheid woorden was het niet mogelijk om al die gegevens handmatig te controleren. Een gevolg daarvan is dat enkele onvolkomenheden onvermijdelijk zijn.
De aanwezigheid van metadata bij de teksten (titel, auteur, publicatiejaar, medium en taal) zorgt ervoor dat er in specifieke gedeeltes van het corpus gezocht kan worden. Wie bijvoorbeeld alleen in krantenteksten van de laatste tien jaar wil zoeken, kan dat eenvoudig doen.
Toegankelijk voor wetenschappelijk onderzoek
Het CHN kan een zo goed beeld geven van het huidige Nederlands omdat het gebruikmaakt van zeer recente bronnen waar vaak nog auteursrecht op rust. Daarom is het CHN alleen toegankelijk voor wetenschappelijk onderzoek, met een gebruikersnaam en wachtwoord. Wie in dienst is van een universiteit of wetenschappelijk instituut kan inloggen met de gebruikersnaam en het wachtwoord van de eigen organisatie.
Staat uw organisatie niet in de lijst die verschijnt na het drukken op de knop login of heeft u geen account bij een academische instelling, dan kunt u bij CLARIN.EU met dit formulier een account aanvragen. (Het beoordelen van uw aanvraag kan enkele dagen in beslag nemen.)
Groter als of dan
Nog even terug naar de inleiding. Welk antwoord geeft het CHN op de vraag hoe vaak groter dan respectievelijk groter als voorkomt in het (corpus) hedendaags Nederlands? De schoolmeesters kunnen voorlopig opgelucht ademhalen: groter als komt in het CHN 788 keer voor (0,0000802%) tegenover groter dan 18.738 keer (0,00191%).
Jan Stroop zegt
Prachtig. Maar wat zou ’t mooi zijn als er ook een opvolger kwam voor ’t Corpus GESPROKEN Nederlands (CGN).
Dat er ook bij ’t gebruik van als of dan verschil bestaat tussen geschreven en gesproken Nederlands is evident:
comp. + als komt in CGN 139 (18%) keer voor. In ’t CHN 4%
comp. + dan komt in CGN 619 (82%) keer voor. In ’t CHN 96%
Zie:
https://pure.uva.nl/ws/files/1148178/104890_354092.pdf