Op 1 september 2022 vertrekt Antal van den Bosch als directeur van het Meertens Instituut. De laatste dagen van de maand nemen enkele (oud-)medewerkers van het instituut afscheid.
Een van de adagia van Antal van den Bosch is: “het enige wat beter is dan veel data, is meer data”. Natuurlijk moet je die uitspraak in context zien – Van den Bosch is een ‘data-cruncher’. Maar in deze bijdrage wil ik laten zien dat een enorme hoeveelheid taaldata alléén niet genoeg is om taalkundig onderzoek te doen, en dat het ook mogelijk is om te verdrinken in een overdaad van data.
Stel, je wil een woordenboek schrijven van de partikels van het Nederlands, die kleine maar veel gebruikte ‘smeermiddelen van de taal’ als maar in ga maar zitten en ook in Wim komt ook en is hier ook een abattoir? Het lijdt geen twijfel dat daar behoefte aan is, bijvoorbeeld binnen de internationale neerlandistiek. En stel dat je in het kader van zo’n woordenboek bijvoorbeeld iets verstandigs zou willen zeggen over de zin die de titel van dit stukje vormt:
- Laten we het nog eens over data hebben
Je kunt die zin gaan opzoeken in een corpus. Kleine kans dat je hem precies in deze vorm vindt. Dan maar zoeken naar de partikelcombinatie nog eens. Raak! Het Corpus Gesproken Nederlands, dat naar moderne begrippen met zijn ca. 8 miljoen woorden heel klein genoemd mag worden, levert direct al bijna 500 ‘hits’ op: zo’n 200 voor het Nederlandse gedeelte en een kleine 300 voor het Belgische gedeelte – dat de helft kleiner is. (Interessante bijvangst: nog eens wordt in België (in de spreektaal) kennelijk vaker gebruikt dan in Nederland.) Hier zijn een paar van de voorbeelden:
CGN-NL:
- “hij liet nog eens een borrel inschenken.”
- “misschien kon hij het later nog eens ergens anders voor gebruiken”
- “maar ze liepen toch maar weer het gras nog eens af”
- “en zingt het daarna nog eens alleen omdat het zo’n kort liedje is.”
CGN-BE
- “dan dan kan ‘m nog eens lekker eten.”
- “volgende week nog eens lukt.”
- “zou je dat niet op een later moment dan nog eens kunnen afdrukken? neen hè.”
- “en dan kijken we tot besluit van dit journaal nog eens naar de laatste”
Maar kan de computer nu op basis van deze en al die andere corpusdata ook iets zinnigs zeggen over onze voorbeeldzin? Zeker wel! Neem bijvoorbeeld de zoekmachine van Google, die gebaseerd is op een enorm corpus (de exacte grootte en de gebruikte algoritmen worden voor zover ik weet geheimgehouden). Als ik in die zoekmachine onze voorbeeldzin begin in te tikken, en ik ben gekomen bij
- laten we het nog eens over
dan komen automatisch de suggesties jezelf, hebben, en onszelf hebben in beeld. Kennelijk is uit die enorme massa data een vaste verbinding of constructie laten we het nog eens over … hebben boven komen drijven. (Voegen we ook nog het woordje data aan onze zoekopdracht toe, dan krijgen we alleen nog onzinsuggesties). Toch al een prachtig resultaat van Google, natuurlijk. Maar… daarmee heb ik als samensteller van een woordenboek van de partikels van het Nederlands nog heel weinig geleerd over de bijdrage van de partikels nog en eens aan deze constructie.
Een kort moment van reflectie (ook wel bekend als leunstoeltaalkunde) daarentegen wijst uit dat onze zin (1) aanzienlijk botter, onbeleefder, ongepaster is dan de variant zonder partikels – nuanceren van de taalhandeling is immers een belangrijke functie van dit soort (modale) partikels:
- Laten we het over data hebben
Een volgende observatie is, dat het modale, nuancerende karakter van de partikelcombinatie nog eens primair gezien moet worden als een bijdrage van eens. De variant met alleen dit partikel is op een met (1) vergelijkbare manier beleefder dan (2), de variant zonder partikels:
- Laten we het eens over data hebben
Een zin met alleen nog daarentegen is ongrammaticaal (in mijn variant van het Nederlands dan, het zou kunnen zijn dat deze zin in België wel kan):
- *Laten we het nog over data hebben
Uit het verschil tussen (1) en (3) blijkt bovendien dat de bijdrage van nog is, dat het suggereert dat er al eerder over data gesproken is.
Een volgende observatie is dat de volgorde nog eens verplicht is: de omgekeerde orde is hopeloos ongrammaticaal:
- *Laten we het eens nog over data hebben
Een zin als deze zul je niet gauw in een corpus vinden, maar uit afwezigheid van een zinstype mag je niet concluderen dat dat zinstype ongrammaticaal is: Hoogvliet heeft al in 1903 laten zien dat je gemakkelijk zes partikels achter elkaar kunt zetten:
- Leg de boeken dan nu toch maar eens even neer
Zinnen als (15) vind je nooit ‘in het wild’, hoewel, tegenwoordig vindt Google ze wel, omdat taalkundige literatuur ook op het web te vinden is.
Indien gewenst kunnen we trouwens ook nog een partikel zoals weer toevoegen, maar dat kan dan alleen tussen nog en eens staan (over deze volgordevoorkeuren is mij geen literatuur bekend):
- Laten we het nog weer eens over data hebben
- *weer nog eens, *weer eens nog, *eens nog weer, *eens weer nog, ?nog eens weer
Kortom. De gereedschapskist van de taalkundige is de laatste 50 jaar aanzienlijk uitgebreid. Met grote corpora en intelligente algoritmen (zoals die door Antal en anderen ontwikkeld zijn) kunnen we veel meer dan we vroeger konden: zelfs automatisch vertalen levert soms bijna een bruikbaar resultaat op. Maar de bijdrage van partikels aan de betekenis van zinnen – een vraag die ook voor taalkundigen moeilijk is – kan de computer voor ons nog niet berekenen. Misschien is dit wel het zoveelste bewijs voor de bekende wet van de computerlinguïstiek van Hugo Brandt Corstius
- Wat je ook doet, de betekenis strooit roet.
Beknopte bibliografie
H. Brandt Corstius. Computer-taalkunde Coutinho. Coutinho 1978
H. Broekhuis. Why I will not become a corpus linguist. Nederlandse Taalkunde 2020
S. De Vriendt, W. Vandeweghe, en P. Van de Craen. Combinatorial Aspects of Modal Particles in Dutch. Multilingua 10, 1991
E. Hoekstra. Frequentie en luie-stoeltaalkunde: Een Friese taalkundige blikt terug op Nederlandse Taalkunde en op zichzelf. Nederlandse Taalkunde 2020
J.M. Hoogvliet. Lingua. Een beknopt leer- en handboek van algemeene en Nederlandsche taalkennis meer bepaaldelijk bestemd voor leeraren en onderwijzenden in moderne en oude talen. S.L. van Looy1903
T. van der Wouden. Smeermiddelen van de taal. Partikels in het Nederlands. Onze Taal 68, 1999
T. van der Wouden. Gewoonweg verschillend. In N. van der Sijs, L. Fonteyn en M. van der Meulen (red.): Wat gebeurt er in het Nederlands? Over taal, frequentie en variatie. Sterck en De Vreese 2021
Jos Houtsma zegt
Je moet je natuurlijk wel afvragen waarom de leunstoeltaalkunde steeds als scheidsrechter moet optreden!
(Persoonlijk denk ik dat iedere moedertaalspreker (en zelfs iedere tweedetaalspreker met een beetje ervaring) gebruik kan maken van een taalgeheugen met duizenden en duizenden zinnetje in context.)
Berthold van Maris zegt
Leuk stuk!