40 jaar tandeloos (7)
In De gevarendriehoek staat een scene waarin het jongetje Albert in de keuken karnemelksepap met suiker zit te eten, als zijn vader binnenkomt en in de gootsteen zijn kater eruit begint te kotsen. Als hij klaar is, maakt hij de gootsteen schoon, en dan schrijft Van der Heijden:
Hoewel nog altijd wat grauw, begon hij alweer het heertje te worden. Albert roerde in zijn pap. Hij zat nu pas echt te pitsen.
Dat woord pitsen behoort niet tot mijn actieve woordenschat. Het staat wel in Van Dale. en heet daar zelfs drie betekenissen, waarvan de derde (‘met lange tanden eten’) me hier de relevante lijkt.
In pedagogischer tijden zouden jonge mensen De tandeloze tijd lezen om hun woordenschat te verrijken. Ik heb een script geschreven om alle woorden op te sommen die in de hele cyclus (minus de bibliofiele delen) precies één keer voorkomen, de zogeheten hapaxen, voorkomen. Dat is een lijst van ruim 38.000 woorden (hier)! Daar zitten weliswaar ook zetfouten bij (bukkenl), namen (Bresler) en bijzondere verbuigingen en vervoegingen (befte komt regelmatig voor, maar het meervoud beften in heel de cyclus slechts één keer).
Uit de analyse blijken de verschillende delen van De tandeloze tijd elkaar ook niet veel te ontlopen. Gemiddeld hebben ze ongeveer in 2% van de woorden een hapax, een woord dat verder niet voorkomt (in dit geval bereken ik hapaxen per roman en niet over de hele cyclus). De slag om de Blauwbrug is het rijkst, en 2,64% van de woorden een hapax, De helleveeg het minst rijk, met 1,67%.
Die gelijkmatigheid aan lexicale rijkdom in de cyclus blijkt ook uit een andere maat. We kunnen binnen iedere roman bekijken hoe lang het duurt voor er een nieuw woord voorkomt – een woord dat je nog niet eerder bent tegengekomen. Die maat kun je de type/token ratio tegenkomen: de type is een woord (‘man’), de tokens zijn alle voorkomens van een type in een roman. De vraag is nu hoeveel tokens je tot je moet nemen tot je een nieuw type tegenkomt. Ik heb de methode hier uitvoeriger uitgelegd toen ik hem toepaste op de toenmalige kandidaten voor de Libris-prijs. Deze ratio neemt natuurlijk af naarmate de roman vordert: de eerste tien woorden van het boek zullen over het algemeen allemaal nieuw zijn, de laatste honderd zijn vast bijna allemaal al eens eerder voorbij gekomen.
De verschillende romans van Van der Heijden geven allemaal een opvallend gelijke curve. Je kunt een deel van de Tandeloze Tijd herkennen aan het percentage nieuwe woorden op iedere bladzijde:
De boeken liggen dicht bij elkaar, maar ook hier ligt De slag om de Blauwbrug bovenop (de grootste lexicale rijkdom) en De helleveeg onderaan. Alle lijnen vlakken naar mate je verder naar rechts komt wat af, al blijft zelfs de allerlangste roman, Kwaadschiks, tot aan het eind nog steeds groeien. Ook daar kom je dus naar het einde toe nog steeds woorden tegen die je niet eerder hebt gelezen.
Om te laten zien dat heus niet alle boeken op elkaar lijken, maar dat dit een kenmerk is van iemands stijl, is hier de grafiek van indertijd. Manon Uphoff stak er toen in rijkdom duidelijk bovenuit, en Wessel te Gussinklo was onder de shortlistkandidaten de hekkensluiter:
Als we die extremen toevoegen aan de grafiek van De tandeloze tijd blijkt dat oeuvre betrekkelijk in het midden te liggen:
Iets soortgelijks vinden we als we naar hapaxen kijken: Uphoff komt dan maar liefst op 6,5% en Te Gussinklo op 1,36%.
Variatie in woordenschat is natuurlijk niet het enige karakteristiek in iemands stijl. Je zou op een zelfde manier kunnen kijken naar bijvoorbeeld variatie in zinsbouw, maar ik weet niet zo goed hoe die te coderen.
Als bonus is hier een volledige lijst van alle woorden en woordvormen in de (niet-bibliofiele) delen van De Tandeloze Tijd – ruim 72.000 verschillende vormen.
Laat een reactie achter