Door Lucas Seuren
In een eerdere editie in deze serie besprak ik al wat methodologische reacties op het voorstel van Jansen (€€€) om praktische vraagstukken centraal te stellen in de taalbeheersing. Ik wil daar deze week op terugkomen aan de hand van de artikelen van Mulder (€€€) en Pol (€€€). Ze bespreken de methoden waarop we kennis vergaren in Taalbeheersingsonderzoek op een vrij hoog niveau: kwalitatief vis-a-vis kwantitatief (met name experimenteel) onderzoek.
Pol, die een vergelijkt met de sociaal-wetenschappelijke benaderingen van communicatie maakt, merkt op dat experimenteel psychologische methoden de dominante onderzoeksmethode zijn geworden in de Taalbeheersing. Kwalitatief en interpretatief onderzoek worden minder gewaardeerd. Dat ziet hij als een positieve ontwikkeling, met name op professioneel niveau. Daar is natuurlijk wat voor te zeggen: wie wil laten zien of een communicatieve interventie nut heeft, doet er goed aan om experimenteel te testen of die interventie een effect heeft en hoe groot dat effect is. Maar ik word verder vrij ongelukkig als ik zijn bespreking lees, om twee redenen.
Huis van wetenschap
De eerste is praktisch en wordt door Mulder uitgebreid besproken: onderzoekers zijn slecht in het doen van uitspraken over de relevantie van hun resultaten. Veelal gaan ze uit van de p-waarde, de statistische significantie van het resultaat, en Cohen’s d, de effectgrootte. Maar uit de literatuur blijkt keer op keer dat veel onderzoekers die concepten niet (goed) begrijpen, met alle gevolgen van dien. Het onbegrip van statistische significantie is nota bene een van de meest fundamentele problemen in sociaal-wetenschappelijk, geesteswetenschappelijk, en medisch onderzoek. Daarmee is niet gezegd dat we niet experimenteel onze hypotheses moeten toetsen, maar de pre-occuptatie met experimenteel onderzoek heeft niet geleid tot hogere kwaliteit van dat onderzoek.
Het tweede probleem heb ik enkele weken terug ook aangestipt aan de hand van het artikel van Hoeken (€€€). Pol bespreekt een serie resultaten zonder enige theoretische coherentie. We plaatsen een bord bij een afvalcontainer en zien dat er minder zakken naast de container staan. Als taalbeheersers kunnen we nu gaan onderzoeken wat er gebeurt als je de tekst verandert. Dat is leuk, maar het biedt geen enkel inzicht in communicatie: “Wie de praktijk de onderzoeksagenda laat bepalen, loopt het risico op een losse verzameling, op zich interessante maar onsamenhangende studies,” zoals Hoeken opmerkt. We moeten een overkoepelend theoretisch framework hebben om te begrijpen waarom we bepaalde resultaten vinden, of ze zullen repliceren, en zo ja naar welke groepen. En dat krijg je niet door een reeks experimenten gedreven door praktische vraagstukken. In de woorden van Poincaré:
Science is built up of facts, as a house is built up of stones; but a collection of facts is no more a science than a heap of stones is a house.
Duiden
Kwalitatief onderzoek helpt, onder andere, met het duiden van de resultaten van kwantitatief onderzoek, een van de punten waar het volgens Mulder het nogal aan schort. Daarbij zijn er twee uitdagingen: de eerste is begrijpen wat kwantatieve resultaten betekenen, en de tweede is begrijpen wat die resultaten impliceren.
Mulder legt zich toe op de eerste uitdaging. Het probleem met huidig onderzoek is volgens hem dat we gebruik maken van Cohen’s d die effectgrootte uitdrukt in standaardafwijkingen om de relevantie van onze bevindingen te duiden. Stel we verdelen alle mensen in een grote balzaal in twee groepen, mannen en vrouwen, en me meten vervolgens hoe lang iedereen is. Dat levert ons voor beide groepen een gemiddelde lengte op; zeg mannen zijn 1.80m en vrouwen 1,69. Maar in elke groep zit natuurlijk een zekere variatie, en dat geven we weer met de standaardafwijking. Als het verschil tussen beide groepen een halve standaardafwijking is, dan is Cohens d 0,5. Maar dat is niet bepaald helder: is dat nu een groot effect of een klein effect? De enige manier om het te begrijpen is wiskundig inzicht.
Mulder stelt voor om de Common Language Effect Size (CLE) te gebruiken. Deze maat geeft aan hoe groot de kans is dat als ik een willekeurig waarde uit populatie A neem deze hoger is dan een willekeurige waarde uit populatie B. Dus om terug te gaan naar ons mannen-vrouwen-voorbeeld: hoe groot is de kans dat een willekeurige man langer is dan een willekeurige vrouw? Bij een CLE van 0,5 is die kans 50%; wat betekent dat de vrouw even goed langer kan zijn. Met andere woorden; een CLE van 0,5 zou in dit geval betekenen dat mannen en vrouwen gemiddeld even lang zijn. Maar een CLE van 0,6 betekent dat de kans dat een willekeurige man langer is dan een willekeurige vrouw 60% is.
Over die manier van meten kunnen we volgens Mulder wel intuïtief redeneren. Hij heeft wat rondgevraagd en merkte dat een CLE van 0,65 (wat correspondeert met een Cohen’s d van 0,56) als een groot effect wordt gezien. Ideaal als we mensen statistiek willen bijbrengen; als we intuïtief snappen waarom iets werkt, dan kunnen we het beter toepassen.
Intuïtie
Toch zou ik tegen dit voorstel pleiten; juist vanwege de intuïtiveit van de CLE. Ga eens vragen aan willekeurige voorbijgangers of ze een CLE van 0,5—dus 50%—een groot effect zouden vinden? Het zou me niet verbazen als veel mensen dat een fors effect vinden: 50% kans, dat is best veel. Daarentegen zouden ze 25% kans misschien een klein effect vinden, maar 25% is juist groot. Onze intuïtie zit ons in de weg. Het hele probleem met p-waardes is dat ze intuïtief zo gemakkelijk zijn: de kans dat ons resultaat op toeval berust is kleiner dan 5%. En daaruit leidt je af dat hoe kleiner de p-waarde, hoe zekerder je bent en hoe groter het effect. Maar, zoals Mulder zelf ook benadrukt, dat is volstrekt niet wat de p-waarde betekent.
De wiskunde geeft je de juiste antwoorden, je intuïtie bedriegt je. Voor wie benieuwd is naar hoe onze intuïtie ons in de weg zit met wiskundige problemen kan ik de Aardappelparadox en het Monty Hall-probleem aanbevelen. (Die laatste kostte me heel wat pogingen om uit te leggen aan mijn moeder, en ik geloof niet dat ze hem ooit begrepen heeft.)
Als we overschakelen van Cohen’s d naar de CLE, verleggen we het probleem. We moeten dan nog steeds gaan uitleggen hoe mensen hun intuïtie moeten begrijpen. Dat voelt als een truukje en de ervaring leert dat truukjes alleen maar tot onbegrip en ontevredenheid leiden, niet tot begrip. Een betere oplossing is denk ik om kwalitatief te duiden wat de implicaties zijn van Cohen’s d in elke situatie. Ik sluit me aan bij Mulders voorstel om normen te ontwikkelen die helpen bij het interpreteren van effectgrootte, maar dan kwalitatief gemotiveerd. Daar ligt natuurlijk een uitdaging omdat, zoals Mulder opmerkt, we daarin niet zijn getraind. Maar een kennisleemte is voor een goed wetenschapper natuurlijk fantastisch: dat betekent dat er iets te leren is.
Integratie
Het moge duidelijk zijn dat ik als kwalitatief onderzoeker een sterke voorkeur heb voor kwalitatief onderzoek. En dat is in deze tijd niet altijd gemakkelijk. Praktische vraagstukken vragen om simpele, concrete antwoorden, liefst in cijfers die voor iedereen te begrijpen zijn. Maar die manier van werken is wetenschappelijk zeer onbevredigend. Kwantitatief en kwalitatief onderzoek zijn complementair en dienen geïntegreerd te zijn. Dat wil niet zeggen dat iedere Taalbeheerser beide moet doen, maar dat we samen moeten werken en beide manieren van werken op waarde moeten schatten. Pol pleit voor integratie van sociaal-wetenschappelijke en geesteswetenschappelijke benaderingen van communicatie. Graag, maar dan wel zonder een obsessie met losse experimentjes, omdat kwantificeren intuïtief helder is.
Laat een reactie achter