Zelf lexicale diversiteit berekenen

Een aantal van mijn eerstejaarsstudenten vergeleek afgelopen semester teksten in termen van ‘lexicale diversiteit’ – de woordenschat die in een tekst tot uitdrukking komt. Zo schreef Luca Lenstra schreef eerder op Jong Neerlandistiek over een vergelijking tussen klassieke en recente jeugdliteratuur en deed Hannah de Wildt iets vergelijkbaars met de oudste en nieuwste jaargang van de Donald Duck. Daaruit bleek dat er qua woordgebruik weinig reden tot zorg is wat betreft het aanbod voor kinderen: de lexicale diversiteit lijkt door de jaren heen niet af te nemen. Het gaat hierbij nadrukkelijk om aantallen: hoeveel verschillende woorden bevat een tekst? Of een woord makkelijk of moeilijk, bekend of onbekend is, wordt niet meegewogen. Met andere woorden (…): een zitmeubel bank, sofa of canapé noemen, maakt voor de mate van lexicale diversiteit niet uit, al zal zeker de laatste term door velen als moeilijker worden ervaren. Nog een disclaimer: woordaantal is natuurlijk geen directe maat voor kwaliteit, maar de woordenschat van kinderen houdt wel degelijk verband met bredere taalontwikkeling en andere taal- en leesvaardigheden.
Als je zelf wilt weten of een tekst een rijk woordgebruik kent, dan kun je dat gemakkelijk berekenen met de ‘Lexical Diversity Calculator’, een vrij toegankelijke tool die bedoeld is voor studenten en die inmiddels ook door allerlei (inter)nationale onderzoekers wordt gebruikt (o.a. Patnaik, 2023; Fujita & Shintani, 2025). Op de website kun je legio maten van lexicale diversiteit berekenen, maar we kijken er hier naar twee: de Type-Token-Ratio of TTR en de Measure of Textual Lexical Diversity of MTLD. De eerste is verreweg de bekendste maat en is gemakkelijk te berekenen: je deelt het aantal verschillende woorden (types) door het totaalaantal woorden (tokens). Helaas is de maat niet zo betrouwbaar; alleen al tekstlengte heeft een enorme invloed. De tweede maat, MTLD, deelt een tekst op in kleine tekstfragmentjes en berekent daar steeds de TTR van. De maat is niet perfect, maar wel beter bestand tegen verschillen in tekstlengte en bepaalde vormen van herhaling. In Sanskriet op de Beat vind je oveirgens een wat uitgebreidere uitleg van MTLD.
Terug naar de tool: laten we twee mooie jeugdklassiekers op Lezen voor de lijst vergelijken: Tonke Dragts De brief voor de koning (leesniveau 1) en Thea Beckmans Kinderen van moeder aarde (leesniveau 3). Het eerste boek zou, in principe, minder verschillende woorden moeten bevatten dan het tweede, aangezien in de leesniveaus ook woordenschat wordt meegewogen. Als we de eerste 10.000 woorden uit beide boeken copy-pasten naar het tekstvak en op ‘Analyze’ klikken, dan blijkt daaruit dat de TTR in het fragment uit Tonke Dragts boek 0,17 is en de MTLD 84,95. Zulke getallen zeggen in absolute zin weinig, dus we berekenen ze ook voor Thea Beckmans roman. Dat levert een TTR van 0,25 op en een MTLD van 116,71. We zien daaraan dat Kinderen van moeder aarde op niveau 3 een groter beroep doet op de woordenschat van de lezer dan De brief voor de koning op niveau 1. We zien dus dat de lexicale diversiteit de indeling in niveaus reflecteert.
Uiteraard is zo’n conclusie vrij kort door de bocht, want je zou, voor een statistische vergelijking, meerdere steekproeven kunnen nemen en bijvoorbeeld ook naar woord- en zinslengte in beide boeken kunnen kijken, want die berekent de tool ook (in Dragts boek 4,31 letters per woord en 11,18 woorden per zin; voor Beckmans boek respectievelijk 4,89 letters en 13,54 woorden; zie ook deze vergelijking van het NOS Journaal en het Jeugdjournaal), maar ik hoop dat dit voorbeeldje inzicht geeft in het begrip ‘lexicale diversiteit’ en dat het neerlandici laat zien dat je, ook zonder veel technische of statistische kennis, de woordenschat kunt meten die in teksten tot uitdrukking komt. Wil je het zelf ook eens proberen, maar heb je even geen inspiratie? Klik simpelweg op ‘Sample Couperus’ om metingen op een deel van Couperus’ Noodlot (1891) uit te voeren, of kijk zelfs eens op DBNL, dat vol staat met zulke mooie, vrij te copy-pasten werken.
Laat een reactie achter