Door Marc van Oostendorp
De mensheid is wanhopig op zoek naar een leugendetector. Mensen gebruiken taal om elkaar diepe inzichten in de werkelijkheid toe te werpen én om elkaar maar wat op de mouw te spelden. Wat zou het fijn zijn als er apparaten waren die de ene situatie van de andere konden onderscheiden.
Bij mijn weten hebben we nog steeds geen betrouwbare leugendetectors: je kunt iemands hartslag, zweetafscheiding en ademhaling tot in de fijnste nauwkeurigheid meten, maar het lukt je daarbij nauwelijks om fabeltje van hard feit te onderscheiden. Zou het dan wel lukken door alleen woorden te tellen?
Dat is wel wat de Amerikaanse communicatieonderzoekers David Markowitz en Jeffrey Hancock denken. In een artikel dat gisteren verscheen in het wetenschappelijk tijdschrift PLOS One beschrijven ze een onderzoek dat ze hebben uitgevoerd op 49 artikelen van Diederik Stapel: van 24 is komen vast te staan dat er fraude in is gepleegd; 25 anderen zijn vermoedelijk wel gebaseerd op reële data. Volgens Markowitz en Hancock toont zich dat verschil al in de taal. Door woorden te tellen komt de waarheid aan de oppervlakte.
Ik heb Markowitz en Hancocks eigen woorden niet nageteld, maar ik geloof er maar weinig van.
Sensorische herinneringen
Het onderzoek roept op een aantal punten grote vragen op. In de eerste plaats blijken de onderzoekers slechts enkele van de volgens hen verwachte indicatoren voor leugenachtigheid te vinden. Zo werden er bijvoorbeeld in de frauduleuze artikelen wel meer woorden beschreven die de gebruikte methodologie beschreven, en minder bijvoeglijk naamwoorden, en juist weer meer versterkende woorden als extremely, maar vonden Markowitz en Hancock geen verschil als ze ontkennende woorden als not of hulpwerkwoorden als should en would zochten.
Erger is nog dat er geen goede uitleg is waarom sommige dingen wel werken en andere niet. De geboden verklaringen spreken elkaar tegen. De methodologie wordt bij fraude in meer detail beschreven omdat leugenaars behoefte hebben te suggereren dat ze erbij waren. Er worden anderzijds minder adjectieven gebruikt omdat leugenaars geen duidelijke sensorische herinneringen hebben. (Volgens mij bestonden de meeste data van Stapel, ook de echte, uit door mensen ingevulde vragenlijsten; wat voor sensorische herinneringen iemand zou moeten opdoen bij het verzamelen daarvan, is mij een raadsel.)
Coauteurs
Voor de factoren die níét uitkomen, zeggen de onderzoekers: ja, maar wetenschappelijke artikelen worden altijd volgens strakke richtlijnen geschreven, en streng geredigeerd. Dat heeft de verschillen eruit gehaald. Waarom dat voor het ene verschil wel geldt en het andere niet, leggen ze niet uit: er is geen enkel inzichtelijk idee over hoe zo’n redactie dan de leugen gedeeltelijk maar niet geheel verdoezelt.
Maar het ernstigste bezwaar is wel dat Markowitz en Hancocks eigen methodologie niet erg sterk is. Dat blijkt wanneer je het Excel-bestand met de bestudeerde artikelen bekijkt. De twee groepen artikelen verschillen op allerlei manieren met elkaar die los staan van de vraag of er wel of niet in gelogen wordt. Zo zijn de frauduleuze artikelen gemiddeld later geschreven (namelijk in 2003) en korter (7083 woorden) dan de ‘goede’ (gemiddeld verschenen in 1999, lengte 7588 woorden). Zoals Markowitz en Hancock zelf opmerken hebben de echte artikelen gemiddeld iets meer coauteurs dan de valse.
Mooie verhalen
Alle drie die factoren zouden op zichzelf de waargenomen variatie kunnen verklaren: een schrijver kan in de loop van de jaren zijn stijl veranderen, een onderzoeker kan meer aandacht krijgen voor methodologie. Kortere artikelen bevatten misschien wel minder ‘overbodige’ voegwoorden. Een coauteur erbij maakt de kans dat hijgerige adjectieven als extremely geschrapt worden, wat groter. Geen van de zo vlijtig getelde verschillen hangt noodzakelijkerwijs met fraude samen; de onderzoekers hadden er makkelijk op kunnen testen, maar hebben dat niet gedaan.
Deze (of andere) alternatieve verklaringen worden nergens genoemd. De auteurs lijken ervan uit te gaan dat het ondenkbaar is dat schrijvers om andere redenen van stijl variëren dan omdat ze onwaarheid spreken. Markowitz en Hancock wisten van te voren waar ze naar op zoek waren – een waslijst met indicatoren – en juichen over iedere kleine aanwijzing die ze vinden. Wat niet zo goed uitkomt, wordt niet nader uitgediept.
De mensheid heeft behoefte aan een leugendetector, maar minstens evenveel aan mooie verhalen.
Jan Vanhove zegt
Ik heb snel eens zelf een classificatiealgoritme met een soort ingebouwd kruisvalidatie-systeem ('random forests') losgelaten op die tabel. Met enkel (a) aantal coauteurs, (b) jaar en (c) tijdschrift als predictoren zit ik al aan 73,5% juist geclassificeerde artikels.
Marc van Oostendorp zegt
Juist! 'Wetenschappelijk onderzoek toont aan: hoe ouder de onderzoeker, des te waarschijnlijker dat hij fraudeert.'
wildplasser zegt
OTOH: ze hebben de analyse beperkt gehouden tot een stelletje descriptive statistics, en maken niet al te wilde speculaties over de toepasbaarheid in fraude-detectie. (de fraudeur zou dit zelf ook kunnen doen alvorens zijn tekst te submitten en dan wat adjectieven "naar smaak" kunnen toevoegen of weghalen)