President Tsaar doorgemeten

President Tsaar op Obama Beach op de voet gevolgd (46/60)

Deze zomer publiceren nrc.next en NRC Handelsblad fragmenten uit de roman President Tsaar op Obama Beach van A.F.Th. van der Heijden als feuilleton. De afleveringen verschijnen ’s ochtends <op de website van de krant>. In de loop van de dag blog ik een bespreking. Vandaag: aflevering 46. <blendle>

Ik was de afgelopen paar dagen in een wetenschappelijke bui, en we hebben nu zo’n 40.000 woorden van President Tsaar gelezen. Dat is weliswaar niet écht big data, maar het zijn er in ieder geval genoeg om de computer eens wat te laten tellen.

Met behulp van het pakket Pattern van de Universiteit Antwerpen ben ik, kortom, de roman eens te lijf gegaan om na al mijn subjectieve gepeuter nu eens de objectieve waarheid naar boven te halen, door te tellen.

Dat Pattern is een vreugde voor de liefhebber van het goed getelde woord. Het bevat bijvoorbeeld een module voor sentimentanalyse, die aan de hand van het woordgebruik vaststelt hoe subjectief de tekst is die we onder handen nemen, en vervolgens ook nog eens of het uitgedrukte gevoel ‘positief’ of ‘negatief’ is. “The accuracy is around 82% (P 0.79, R 0.86) for book reviews,” zegt de documentatie van het pakket. Hoe zit het dan met boeken?

Boekrecensies

President Tsaar biedt allesbehalve een positieve recensie van het leven, maar de sentimentanalyse van Pattern haalt dat er niet echt uit. De tekst wordt weliswaar als enigszins subjectief ervaren, maar dat houdt al niet echt over (ongeveer 30 op een schaal van 100). Bovendien ligt de gemiddelde waarde op de schaal van positief (+1) en negatief (-1) ongeveer op 0,00. Hij schommelt in de afleveringen een beetje (vandaag ligt hij een klein beetje boven 0, op 0,07), maar er zijn geen echte uitschieters. Mijn volledige rapport staat hier het gebruikte script staat hier.

Het komt denk ik doordat de tekst inderdaad op het niveau van woorden weinig subjectief is. Het beschrijft in vrij neutrale woorden een wereld, zonder daarover mede te delen dat deze klote of zelfs maar een beetje naar is. Die sentimentanalyse heeft naar mijn indruk vooral succes bij inderdaad inherent subjectieve teksten zoals Twitterberichten en recensies van boeken. Het treurige gevoel ligt net teveel onder de oppervlakte. Je moet wel iets meer begrijpen van een tekst dan alleen welke woorden erin staan om het depressieve wereldbeeld eruit te halen. Ik weet eigenlijk niet zeker of dat op dit moment wel lukt met ‘objectieve’ methodes.

Krachtig taalgevoel

Maar we laten ons natuurlijk niet uit het veld slaan in onze zoektocht naar de objectieve waarheid. Jan Stroop schreef me dit weekeinde over het gebruik van de rode (”dat het feuilleton werd gelezen”) versus de groene (“dat het feuilleton gelezen werd”) woordvolgorde. Onder andere op zijn Twitteraccount wijst hij regelmatig op het in zijn ogen kunstmatige gebruik van de rode volgorde bij allerlei schrijvers en sprekers. Hij had de indruk dat Van der Heijden vaker de groene volgorde gebruikte, en dat hij waar hij dat niet deed, de cadans een rol speelde.

Stroop heeft een krachtig taalgevoel en ik denk dat hij gelijk heeft, maar ik heb het nog niet kunnen bevestigen. Alweer heb ik een script geschreven met behulp van Pattern, maar daar kwam uit dat 60% van de zinnen die ertoe doen een rode volgorde hebben en 40 % een groene. <script|verslag>

Objectieve buien

Er ontbreken mij alleen gegevens om hier een zinnige conclusie uit te trekken: met name zou ik moderne romans van andere schrijvers willen hebben, maar ik weet niet hoe je elektronische boeken daarvoor kunt kraken zodat ik ze aan mijn scripts kan voeren. (Ik heb wel wat 19e-eeuwse romans van DBNL gehaald en daardoor weet ik dat Een liefde een feest is voor de liefhebber van de groene volgorde: de rode is daar vrijwel geheel uitgebannen.) Ik weet dus niet of 60% veel of weinig is. Er komt bij dat de rode volgorde óók de volgorde van hoofdzinnen is (‘ik heb gelezen’) en ik kan niet garanderen dat ik Pattern heb kunnen dwingen om hoofd- en bijzinnen goed te scheiden.

In de aflevering van vandaag is de verhouding toevallig fifty-fifty en gebruikt de schrijver één keer een rode volgorde (‘dat ik door mevrouw Grenouille zelf werd uitgenodigd‘) en één keer een groene (‘maakte ik op dat eindexamenkandidaat Patrick Haandrikman vooral bezorgd was geweest‘). Eén keer gebruikt de schrijver ze zelfs naast elkaar (’tot deze ruimte geheel is doorzocht en het sein veilig gegeven wordt‘). (Grappig genoeg word is gezocht door mijn script niet gevonden.) Ik kan geen verklaring bedenken voor deze variatie, maar misschien moet iemand eens kritisch naar alle voorbeelden kijken.

Enorme successen hebben mijn objectieve buien dus niet opgeleverd. Het geldt natuurlijk ook voor de A-index die ik nu al maandenlang trouwhartig iedere dag uitreken <script|verslag>. Die A-index zal uiteindelijk wel rond de 8 uitkomen, hij schommelt daar al geruime tijd omheen. Dat is bovengemiddeld, maar niet idioot hoog: Een liefde doet het wederom beter en van alle door mij doorgemeten romans het beste (een score van 8,36 – in mijn tellingen beschouw ik dat als ‘hoog’).

De A-index van vandaag is 7,35 (bovengemiddeld).
De algehele A-index is 8,02 (stabiel)
Tot nu toe hebben we 13.311 a’s gelezen
(Opmerking: bij het uitvoeren van de berekeningen van vandaag ontdekte ik dat er wat herhalingen zaten in de teksten van eerdere afleveringen. Die zijn nu gecorrigeerd.)

Gerelateerd

Reacties

Wim zegt

17 augustus 2016 om 14:04

‘Was geweest’ is toch ook rood?

Beantwoorden
René Appel zegt

17 augustus 2016 om 14:10

Beste Marc
Op het Huygensinstituut wordt onderzoek gedaan naar o.a. verschillen tussen literaire thrillers en literaire romans middels analyse met de computer. Ze hebben dus computerbestanden van verschillende romans voorhanden! Misschien mag jij die ook gebruiken.
Groeten
René

Beantwoorden
Wouter van der Land zegt

17 augustus 2016 om 14:48

Marc van Oostendorp schreef: ” Ik weet eigenlijk niet zeker of [het] op dit moment wel lukt met ‘objectieve’ methodes [om het depressieve wereldbeeld eruit te halen].”

Ik weet niet precies hoe dat stemmingsscripts werkt, maar ik neem aan (deels) op basis van woordkeuze. Een methode is misschien om naar de meest frequente woorden te kijken, minus algemeen hoogfrequente woorden. Bij een negatief wereldbeeld zouden daar relatief weinig warme en relatief veel negatieve en afstandelijke woorden tussen moeten staan. Verder bevat de tekst mogelijk relatief weinig kleuraanduidingen en natuurbeschrijvingen? Ergens moet AFTh het wereldbeeld in de stijl hebben verwerkt.

Beantwoorden