Als een voordeel van boeken lezen wordt wel genoemd dat je er je woordenschat mee uitbreidt, en ook wordt (geloof ik) weleens beweerd dat je beter literaire boeken kunt lezen dan bijvoorbeeld streekromans.
Maar klopt dat wel? Dat bestudeerde ik aan de hand van de collectie van 1100 streekromans die Ewoud Sanders onlangs in het kader van de algehele coronasolidariteit in het publieke domein ter beschikking stelde.
Een kenmerk van de verzameling is dat hij bij nadere beschouwing helemaal niet exclusief uit streekromans blijkt te bestaan: er zit wel degelijk af en toe een literaire tekst tussen. En die blijk je er inderdaad uit te kunnen vissen door te tellen hoeveel nieuwe woorden je leert, of eigenlijk beter: hoe snel je die nieuwe woorden leert.
In de grafiek hierboven illustreer ik dat aan de hand van vier boeken: een Streekromanomnibus die duidelijk alleen onvervalste streekromans bevat; twee boeken van Godfried Bomans die verweten is in de loop der tijd zijn literaire normen te hebben laten wapperen; en een boek van Jeroen Brouwers, die volgens ieder criterium dat ik kan verzinnen een literaire schrijver is.
Op de x-as staan de zogeheten tokens uitgeschreven: ieder woord telt. In deze zin staan 22 woorden en dus ook 22 tokens – zelfs al komt het woord 22 er drie keer in voor. De groene lijn loopt veel verder door naar rechts omdat zo’n omnibus nu eenmaal dikker is dan een pamflet van Jeroen Brouwers.
Op de y-as staan zogeheten types, nieuwe woorden die je nog niet eerder in de tekst bent tegengekomen. In de bovenstaande zin kwam het token 22 drie keer voor, maar het type maar een keer.
Wat je nu kunt zien is dat je door die hele streektaalomnibus te lezen dus wel meer verschillende woorden tegenkomt dan door Bomans of Brouwers te lezen, maar dat het tempo waarin die nieuwe woorden worden aangeboden wel een stuk trager ligt. Als dat de maat is geldt: hoe sneller omhoog de grafiek, des te literairder het werk.
(Er zitten in de curve voor de streekromans twee knikjes, op punten waar een nieuw boek begint, met een andere auteur en andere personages en een ander onderwerp.)
Alle curves gaan in het begin natuurlijk sneller omhoog en vlakken gaandeweg af. Het eerste woord is per definitie een nieuw woord – terwijl tegen het eind van een beetje een lang boek zo’n beetje alle woorden wel al een keer gebruikt zijn. Maar bij Brouwers is er nauwelijks neiging van afvlakken, en in iets meer dan 50.000 woorden gebruikt hij bijna evenveel verschillende woorden als die streekromans in meer dan 200.000 woorden.
Op Language Log stond onlangs ook een stukje van Mark Liberman waarin boeken werden vergeleken op type-tokenratio.
johanna5577 zegt
Interessant, ook voor docenten die een tweede taal onderwijzen.
“… hoe snel je die nieuwe woorden leert.” Zou het niet precieser zijn om te zeggen: hoe snel je die nieuwe woorden tegenkomt, of: hoe dichter op elkaar ze staan. Want leren heeft met opnemen te maken, en dat houdt weer verband met motivatie.
Wouter van der Land zegt
Literatuur heeft deels te maken met het elitaire sfeertje dat tijdens het lezen opdampt. Als lezer deel je met de schrijver het lidmaatschap van de club van mensen met goede smaak en intellectuele bagage. Het gebruik van moeilijkere woorden zal daar in grote mate toe bijdragen. Vandaar ook de woede over de hertaling van Couperus. Is deze al door dit script beoordeeld?
Aan de andere kant wil je als lezer bevestigd worden in de eenvoud van het leven, ondanks alle stormen die op je afkomen. Moeilijke woorden geven een tegengesteld signaal. Als Anja na haar scheiding terugkeert van Amsterdam naar Aalten en daar ook weer met allerlei over-educated elitevolk gaat discussiëren en moelijke Russische pianoconcerten gaat becommentariëren met duur muziekjargon, is het streekgevoel weg en heb je literatuur.
Ano Niem zegt
Hoe zou een woordenboek scoren, als het in zon grafiekje werd gezet?