Het probleem, zo laten Roberts en Winters overtuigend zien, is dat je als je maar genoeg gegevens hebt, je vanzelf altijd wel correlaties vindt die statistisch significant zijn en toch moeten worden toegeschreven aan het toeval. Dat heeft te maken met de definitie ‘statistisch significant’: die zegt vooral dat de kans op een bepaald verband is. Maar als je ‘heel klein’ stelt op ‘een op een miljoen’, en je een database maakt met tien miljoen correlaties, vindt je dus al snel zo’n tien statistisch significante correlaties die toch niets betekenen.
De relatie tussen taaldiversiteit en verkeersongelukken is daar mogelijk een van, al kan het ook nog een andere verklaring hebben – dat in een land met veel taaldiversiteit er grotere kans is op etnische tegenstellingen (zo’n land is immers per definitie niet homogeen), en dus op een zwakkere regering, en daarmee op die ongelukken.
Tegelijkertijd is het natuurlijk heel verleidelijk om meteen een persbericht uit te sturen met de kop ‘Onderzoek bewijst: taaldiversiteit zorgt voor verkeersongelukken’. In hun artikel laten Roberts en Winters zien hoe we ons kunnen wapenen tegen dit soort verleidingen, zonder al die prachtige statistische middelen meteen overboord te gooien. Zij leggen er daarbij de nadruk op dat je op deze manier op ideeën kunt komen: wat zou het zijn dat acacia’s en taaltonen gemeenschappelijk hebben. Ik zou zeggen dat het vooral ook precies andersom moet: je zou eigenlijk alleen geïnteresseerd moeten zijn in correlaties zijn die iets vertellen over een bepaalde theorie – zodat de correlaties kunnen worden ingebed in een groter bouwwerk van kennis.
Laat een reactie achter