Dagboek van een amateur-programmeur
De jury van de Libris Literatuurprijs is dit jaar erg antikwantitatief. “Er bestaan”, schrijft zij in haar juryrapport, “geen objectieve criteria om de kwaliteit van een roman te bepalen.” In plaats daarvan kan men volgens deze jury slechts lezen.
Dat vraagt natuurlijk om flink meten.
Een tijdje geleden schreef ik al over de kwestie in hoeverre je literaire kwaliteit kunt meten door in een boek het aantal unieke woorden (types, als in een roman vijfhonderd keer het woord ‘mooi’ staat, is er één type ‘mooi’) af te zetten tegen tokens (als er in een roman vijfhonderd keer het woord ‘mooi’ staat, zijn er vijfhonderd tokens ‘mooi’). Als je types deelt door tokens krijg je een maat van hoe rijk de woordenschat van een auteur is.
Dat valt dus gemakkelijk te meten. Net als de manier waarop zich dat ontwikkelt: in het begin van een dik boek zal iemand noodgedwongen meer nieuwe types introduceren (het eerste woord is per definitie nieuw) dan aan het eind (als bijna alle woorden al een keer gebruikt zijn), dus het aantal nieuwe woorden neemt gaandeweg af.
De vorige keer liet ik dat zien aan het nogal heterogene corpus ‘streekromans’ dat de taalhistoricus Ewoud Sanders aan het begin van de quarantaine ter beschikking stelde. Ik heb inmiddels elektronische versies verzameld van alle zes kandidaten van de Librisprijs. Hier zijn types afgezet tegenover tokens voor alle zes de boeken. Dat levert de bovenstaande figuur op. Dat de lijn van Oek de Jong zo lang is, komt doordat zijn boek verreweg het dikste is: dat levert de meeste tokens op (x-as), en op den duur ook de meeste types (y-as). De lijn is alleen betrekkelijk vlak, wat betekent dat er voortdurend relatief weinig types zijn in verhouding tot de tokens. Marijke Schermer en Wessel te Gussinklo zitten daar nog onder.
Manon Uphoff schreef een veel korter boek, maar wel met een verhoudingsgewijs enorm aantal types. In die zin is haar taalgebruik dus het rijkst. Die rijkdom is bovendien constant: haar pagina 10 is rijker dan de pagina 10 van willekeurig welk ander boek op de shortlist, haar pagina 100 rijker dan willekeurig welke andere pagina 100.
Een natuurkundige op Twitter gaf me de tip om ook te kijken naar de afgeleide functies (weet je nog, differentiëren; je ontkomt er in deze tijd waarin iedereen epidemioloog is niet aan), Je krijgt dan een inzicht van hoe snel de groei aan types is; dat maakt de unieke rijkdom van Uphoffs taalgebruik nog duidelijker
De groei van het aantal nieuwe woorden neemt bij iedere schrijver (bijna noodzakelijkerwijs) af, Opvallend is dat er vooral bij Schermer en Te Gussinklo nog een knik omhoog zit, alsof naar het einde toe nog net even een nieuwe spurt wordt ingezet.
Ook opvallend zijn de grafieken van Kollaard en Schermer die beide beginnen met een relatief sprankelende woordenschat, die daarna in de loop van het boek instort: een groot deel van de woordenschat wordt in het begin geïntroduceerd en daarna komt er niet veel meer bij.
Maar Uphoff verkeert hier dus vrij letterlijk op eenzame hoogten.
Hierbij moet wel een beetje verdisconteerd worden dat schrijvers in lange boeken hun woordenschat wat meer verdelen. Het is niet helemaal toevallig dat de twee langste boeken, dat van De Jong en dat van Te Gussinklo, helemaal onderaan eindigen. Het feit dat De Jong een vrij rechte lijn laat zien kun je zien als een indicatie dat zijn werk goed is doorgecomponeerd: het boek is overal ongeveer even sprankelend van nieuwe woorden.
Voor de duidelijkheid: een droge alfabetische woordenlijst zou nog veel beter scoren dan Uphoff, want daarin worden op een voortdurend hoog tempo nieuwe woorden geïntroduceerd (ieder woord is nieuw). Deze bevindingen moeten wel in dat licht worden gezien.
Gerrit Bloothooft zegt
Ik moest even goed nadenken wat je gedaan hebt, Marc. Dat er boven de eerste grafiek type/token staat suggereert die ratio, maar dat is alleen maar indirect het geval. Je hebt de ontwikkeling van het aantal types (verticaal) en het aantal tokens (horizontaal) in de loop van een boek uitgezet. Het boek van De Jong is uiteindelijk ca 155.000 woorden (tokens) groot en hij heeft dan ca 22.000 verschillende woorden (types) gebruikt. De type/token ratio is dan 22.000/155.000 = 0,14.
In de tweede grafiek zie je hoeveel nieuwe woorden (types) erbij komen als het boek een woord (een token) vordert. Bij De Jong begint dat op 2,3 nieuwe woorden per 10 geschreven woorden, en eindigt met iets meer dan 1 nieuw woord per 10 geschreven woorden.
Dat zijn er eigenlijk nog best veel, maar elke woordvorm wordt geteld neem ik aan.De verdeling van de woorden zal wel Zipfiaans zijn.
DirkJan zegt
Vandaar dat nieuwe edities van de Dikke van Dale – die zich laten lezen als geweldig rijke romans – nooit mogen meedingen met literaire prijzen, zoals met de Libris Literatuurprijs. Ze zouden altijd winnen! 🙂