We worden bijna altijd omringd door taal. Het kan dus ook bijna niet anders dat we goed weten hoe taal klinkt bij de mensen waarmee we vaak spreken, en hoe dat verschilt bij anderen. Je hebt vast wel eens iemand iets horen zeggen als “Tegenwoordig gebruiken Nederlanders hun in plaats van zij” of “Vlamingen gebruiken meestal -ke als ze iets willen verkleinen (manneke), waar Nederlanders bijna altijd -je gebruiken (mannetje)” – en zodra iemand je daarop wijst dan ga je dat ook meteen horen zodra je met iemand spreekt. Maar kloppen zulke uitspraken eigenlijk wel?
Voor bovenstaande uitspraken heb ik ontnuchterend nieuws: onderzoek liet zien dat Nederlanders nog steeds vaker zij als onderwerp gebruiken dan hun. Ook bleek dat Vlamingen steeds vaker -je (en dus minder vaak -ke) gaan gebruiken. Er lijkt dus verwarring te zijn tussen de werkelijkheid van taalgebruik en wat ons opvalt aan taalgebruik – en het is voor elke taalliefhebber interessant om die twee concepten van elkaar te ontwarren.
Vaak, opvallend of productief?
Uitspraken op basis van onze intuïtie lijken dus soms niet te kloppen omdat we te erg toegespitst zijn op wat ons opvalt. In de taalwetenschap wordt ‘opvallendheid’ ook wel ‘saillantie’ genoemd. In het geval van hun versus zij, verwachten de meeste sprekers van het Nederlands zij te horen als onderwerp, omdat ze dat op school zo geleerd hebben. Zij op die plek valt daarom niet op, maar het onverwachte (of ‘saillante’) hun wel – daarom lijkt het alsof hun veel vaker wordt gebruikt, terwijl dat eigenlijk niet zo is. Door het verschil in saillantie kunnen mensen de frequentie van hun sterk overschatten.
De vraag is dan of het voor ons ook mogelijk is om te weten te komen hoe vaak iets echt gezegd wordt. En gelukkig is het antwoord op die vraag: “jazeker!”. Om te meten hoe vaak een taalfenomeen voorkomt, kan je bijvoorbeeld gebruik maken van een corpus, wat een collectie van (gesproken of geschreven) teksten is. Nu is dat voor individuele woorden vrij eenvoudig, aangezien je gewoon kunt tellen hoe vaak ze voorkomen in een corpus. Zo zal voor hun en zij snel blijken dat hun inderdaad wordt gebruikt als onderwerp, maar zij nog steeds de overhand heeft.
Voor achtervoegsels zoals -je is dat tellen iets moeilijker. Anders dan bij woorden gaat het er niet alleen maar om hoe vaak ze voorkomen, maar ook om hoe productief ze zijn. Productief betekent hoe vaak je een achtervoegsel aan een nieuw woord kan vastplakken. Stel je eens voor dat er een fabrieksmachine is die een rood vlaggetje op spullen plakt. Als het rode vlaggetje op alle spullen die op de lopende band van de machine komen kan worden geplakt, is de machine erg productief. Maar als de machine er bijvoorbeeld enkel in slaagt om de rode vlaggetje op emmertjes te plakken (en dus niet op alle spullen die op de band liggen), dan is de rodevlaggetjesmachine al een stuk minder productief. En als we na verloop van tijd de toevoer van rode vlaggetjes laten afnemen en de machine blauwe vlaggetjes geven, dan worden de rode vlaggetjes geleidelijk aan nergens meer opgeplakt. Dan bestaan er natuurlijk nog emmertjes met rode vlaggetjes, maar er worden er geen nieuwe meer geproduceerd.
Met achtervoegsels werkt dat ongeveer hetzelfde. Elk achtervoegsel (lees: vlaggetje) hoort bij bepaalde woorden (lees: bepaalde spullen, waaronder emmers). -je gebruik je in Nederland om zelfstandig naamwoorden te verkleinen. Vaak is er wél een beperking. Het achtervoegsel -trice wordt bijvoorbeeld alleen gebruikt worden als het woord eindigt op -teur: Een vrouwelijke boer is geen boertrice. Als we dan tellen hoeveel verschillende woorden -je, en hoeveel verschillende woorden -trice toelaten, dan zien we dat -je een stuk productiever is – of, in de metafoor van de machine, op een stuk meer spullen past. Productiviteit heeft dus iets te maken met frequentie, of op hoeveel woorden een achtervoegsel geplakt kan worden.
We weten dus dat vaak voorkomen (‘frequentie’) en opvallen (‘saillantie’) niet hetzelfde zijn. Een moeilijkere vraag is hoe de productiviteit van achtervoegsels zich verhoudt tot saillantie. Het zou bijvoorbeeld kunnen dat mensen geloven dat een bepaald achtervoegsel in grote getalen aan allerlei woorden wordt gevoegd, zonder dat dat echt zo is. Maar wat nog vaker gebeurt is dat mensen niet echt een idee lijken te hebben van welke achtervoegsels er eigenlijk het meest ‘opplakbaar’ zijn. Laten we even doorgaan met manieren waarop je zelfstandig naamwoorden expliciet vrouwelijk maakt: -in (vriend – vriendin) en –ster (tennisser – tennisster). Blijkbaar (ik wist het niet) is -in niet meer productief: het hangt nog steeds wel aan heel frequente woorden, maar het zou niet gebruikt worden bij nieuwe woorden. -ster is anders: dat nog wel aan nieuwe woorden worden geplakt. Productiviteit is dus niet alleen iets anders dan saillantie, het is ook iets anders dan pure frequentie.
Meten is weten
Productiviteit van achtervoegsels zou je ook kunnen meten door aan mensen te vragen hoe vaak zij een achtervoegsel gebruiken, maar door verschil in saillantie zijn de intuïties van mensen mogelijk onbetrouwbaar. Daarom kan je productiviteit beter meten met corpusdata. Maar hoe doe je dat?
Toen taalwetenschappers begonnen met het meten van productiviteit, was het idee dat je naar de hoeveelheid ‘mogelijke woorden’ moest kijken. Maar het tellen van mogelijke woorden is, ironischerwijs, bijna onmogelijk: als je voor een achtervoegsel alle mogelijke basiswoorden (alle mogelijke spullen waar het vlaggetje op kan) al kunt identificeren (en dat blijkt in de praktijk al erg moeilijk), dan nog weten we nog niet welke mogelijk woorden er in onbruik zijn geraakt. Theoretisch gezien kunnen die achtervoegsels dan wel aan verschillende woorden worden geplakt, maar praktisch gezien gebeurt het niet.
Werken met ‘mogelijke woorden’ is dus uitgesloten. Een maat die wel veel gebruikt wordt is Baayens P. Dit is een waarde die je krijgt door – hou je vast – het aantal hapax legomena te delen door het aantal tokens in een corpus. Dit klinkt lastig, maar dat valt alleszins mee. Hapax legomena zijn woorden die in een hele collectie van teksten maar één keer voor komen. Je kunt je voorstellen dat, naarmate je meer teksten (en dus meer woorden) hebt, er minder hapaxen zijn. Het idee is dat, als een achtervoegsel superproductief is, er ook meer hapaxen mee worden gevormd: mensen die een achtervoegsel willen plakken aan een nieuw woord – of een woord dat maar weinig gebruikt wordt – zullen eerder een productief achtervoegsel gebruiken. Het andere begrip dat van belang is voor Baayens P, tokens, betekent eigenlijk gewoon dat je telt hoe vaak het achtervoegsel waarvan jij de productiviteit wilt meten voorkomt in een tekst. Dus eigenlijk is Baayens P de kans dat je een hapax met het beoogde achtervoegsel tegenkomt in je corpus.
Nu is P niet het enige meetinstrument dat Baayen in het leven heeft geroepen: ook P* komt uit zijn koker. Om P* uit te rekenen neem je opnieuw het aantal hapaxen van een bepaald achtervoegsel, en deel je dat door het aantal hapaxen in de corpus als geheel. In plaats van het aantal hapaxen met het beoogde achtervoegsels te relateren aan het totale aantal van dat achtervoegsel, bekijk je het in relatie tot het aantal hapaxen in het algemeen. Wat je eigenlijk vraagt is: welke rol speelt dit achtervoegsel bij het vormen van hapaxen (en, bij gevolg, in de groei van de woordenschat)? Er zijn nog andere meetmethodes, maar P en P* zijn het populairst, en redelijk makkelijk te gebruiken.
Als je de twee maten zelf uitprobeert, zul je zien dat P en P* fundamenteel andere uitkomsten kunnen geven. Neem bijvoorbeeld met -je en -ke in het Nederlands en het Vlaams. Als je kijkt in het Corpus Gesproken Nederlands, zul je zien dat de P lager is voor het Nederlands dan het Vlaams – wat vreemd is aangezien het Vlaams meerdere opties heeft – maar dat de P* wel hoger is in het Nederlands.
En nu?
Als je niet staat te springen om van alle achtervoegsels in het Nederlands P en de P* uit te rekenen, dan is er nog steeds een les te trekken: uitspraken over taal kan je baseren op je gevoel, of op metingen – en aan die metingen wordt al decennialang gesleuteld om ze zo goed mogelijk de talige werkelijk in kaart te laten brengen. Als er dus weer eens iemand een uitspraak doet van het type “Nederlanders/Vlamingen/Amerikanen/etc. zeggen veel vaker X”, dan heb je alvast de kennis in je zak zitten dat dat een interessante intuïtie is. Maar of het ook werkelijk zo is, dat moet toch echt nog even gemeten worden.
Jaleesa de Regt volgt de research master Taalwetenschappen aan de Universiteit Leiden
Laat een reactie achter