Door Marc van Oostendorp
Kun je uitrekenen of een boek in een literaire stijl geschreven is? En kun je dat rekenen vervolgens door een computer laten doen? Dat is een van de vragen die Andreas van Cranenburgh probeert te beantwoorden in zijn onlangs verdedigde proefschrift Rich statistical parsing and literary language.
Om dat te doen, moet je natuurlijk eerst een maat hebben van hoe literair een boek eigenlijk is. Van Cranenburgh haalt deze uit het project The Riddle of Literary Language, waarin een groot aantal internetgebruikers over een groot aantal relatief recente, vertaalde en oorspronkelijke, boeken een oordeel hebben gegeven. Die oordelen zijn bij elkaar opgeteld, en dat levert de uiteindelijk maat van literariteit op. (Vijftig tinten grijs kwam daar als allerlaagste uit, als je dat wil weten.)Hoe meer clichés, hoe minder literair
Vervolgens probeert Van Cranenburgh een aantal eigenschappen van het proza te relateren aan dit punt. Hij heeft een programma geschreven dat de zinnen in de romans automatisch kan ontleden, maar er wordt ook op wat simpeler eigenschappen getoetst. Zo komt de computer er zelf achter dat de tweewoordcombinaties de oorlog en het bos relatief karakteristiek zijn voor literaire romans, terwijl de moeder en keek op signalen zijn dat we juist met minder literair proza te maken hebben. Ook geldt, weinig verrassend: hoe meer clichés een schrijver gebruikt, des te minder literair vindt de lezer zijn boek.
Dat is allemaal interessant, en het werk is ook heel competent uitgevoerd. Ik mis bij al het rekenwerk wel een beetje de pogingen om een en ander te relateren aan al bestaande kennis over stijl en over literatuur (een relatie die wat mij betreft het recente boek waarin Archer en Jockers probeerde uit te rekenen of boeken bestsellers zijn zo geslaagd maakte). Het wekt daarmee een beetje de suggestie dat het werk van eerdere geleerden zonder computers niet zo belangrijk is.
Een literaire stijl
Je vindt dat ook terug in de conclusie. In de Nederlandstalige samenvatting schrijft Van Cranenburgh:
Uiteindelijk is de conclusie dat de literaire oordelen in grote mate voorspelbaar zijn op basis van tekstkenmerken. Hoewel het niet mogelijk is om een direct oorzakelijk verband aan te wijzen tussen de tekstkenmerken en de oordelen van proefpersonen, is toch duidelijk aangetoond dat de waardeoordelen over literariteit geenszins arbitrair zijn, noch in meerderheid bepaald door factoren buiten de tekst.
Maar de laatste conclusie volgt geloof ik niet. Er is een correlatie tussen de tekstkenmerken en de oordelen, maar omdat we in een theoretisch luchtledige werken – we hebben geen duidelijk idee van wat ‘literatuur’ is of wat een ‘literaire stijl’ is – weten we niet wat die relatie is.
Houthakkers
Terecht zegt de schrijver dan ook dat het niet mogelijk is om een oorzakelijk verband vast te stellen: misschien gaan mensen inderdaad een tekst literairder vinden als ze vaak lezen over het bos, maar misschien zijn er andere factoren die voor het verband zorgen. Stel, om even een absurd voorbeeld te gebruiken, dat literatuur vooral wordt geassocieerd met houthakkers: wanneer lezers een schrijver zien opduiken met een hoedje met een veertje en een een bijl in zijn handen, dan denken ze dat deze schrijver wel heel literair zal zijn.
In zo’n wereld ligt het voor de hand dat literaire schrijvers relatief vaak het bos schrijven zonder dat dit taalgebruik zelf het literaire oordeel bepaalt. Er is wel degelijk een factor buiten de tekst (het idee dat houthakkers goede schrijvers zijn) die de relatie tussen de twee factoren verklaart.
Literair gehalte
Dat lijkt me het probleem van dit type onderzoek. Zonder inbedding in de wetenschappelijke literatuur wordt er een verband gevonden tussen twee soorten gegevens waarvan het niet duidelijk is wat die met elkaar te maken zouden hebben. Om de invloed van stijlkenmerken op het literaire oordeel écht te achterhalen, moet je waarschijnlijk experimenteel onderzoek doen waarin twee lezers teksten krijgen voorgelegd die subtiel herschreven zijn.
En je moet het proberen in te bedden in een grootser theoretisch verhaal over wat het verband zou kunnen zijn. Want die conclusie kun je denk ik wel trekken: oordelen over het literaire gehalte van boeken zijn niet arbitrair. Ze zijn ergens op gebaseerd, al weten we nog niet precies waarop.
Wouter van der Land zegt
Het lijkt me een vooringenomenheid om van literaire teksten te zeggen dat ze minder clichématig zijn, al bevatten ze misschien minder standaardformuleringen en -scènes. De romanvorm is op zichzelf al een cliché. En je verkoopt geen 50K+ boeken zonder je publiek iets vertrouwds te voeren, met veel associaties (leesplankwoordjes als ‘bos’, ‘rivier’ en ‘oorlog’ dus). Zelfs Finnegan’s Wake bevat in de eerste tien regels woorden als ‘river’ en ‘war’. Ook Leonard Cohen gebruikte zulke woorden op klemtoonposities om zijn teksten te verliteraturen.
Marc van Oostendorp zegt
Misschien is het wel een vooringenomenheid, maar het is in dit geval ook een empirische bevinding. Met ‘clichés’ worden in dit geval staande uitdrukkingen bedoeld, veel voorkomende zinswendingen. Die kun je precies tellen en dat is hier dus gebeurd.