Door Marc van Oostendorp
Van verschillende kanten kreeg ik dit artikel aangeraden van de beroemde statisticus en blogger Andrew Gelman en een Australische biostatisticus John Carlin. Het artikel is deels een reactie op een artikel van nog weer andere statistici, Blakeley McShane en David Gal: never a dull moment in de wereld van de multiple regressie!
Er is in sommige sociale en medische wetenschappen dan ook al een paar jaar een crisis gaande, waarin allerlei resultaten die lang voor waar aangenomen waren, toch een stuk minder hard blijken te zijn. Door sommige deskundigen wordt dit toegeschreven aan onoordeelkundig gebruik van de p-waarde, de maat voor ‘statistische significantie’. Wanneer die p-waarde onder een bepaalde grens ligt, zou je ervan uit mogen gaan dat een correlatie die je in je data vindt, niet op toeval berust.
Binaire conclusie
Een van de problemen is dat die ‘bepaalde grens’ echt volkomen willekeurig is gekozen, maar sindsdien lang als een heilige grens is beschouwd. Maar McShane en Gal laten zien dat het probleem nog groter is: deskundigen die je een verzameling gegevens geeft met een bijbehorende hypothese en een bepaalde p-waarde, raakten er veel te gemakkelijk van overtuigd dat de hypothese klopte, ook al zegt de p-waarde in feite niet veel anders iets over de kans dat het effect toevallig is.
Met andere woorden, zeggen Gelman en Carlin: je komt er niet door alleen maar van p-waarden naar geavanceerdere statistische maten over te gaan. Het probleem zit dieper, het zit in het grenzeloze vertrouwen dat veel onderzoekers hebben in die statistiek – het idee dat een statistische berekening je doorslaggevend bewijs kan geven of een bepaalde hypothese nu wel of niet klopt. Terwijl er eigenlijk vrijwel nooit met zekerheid een conclusie getrokken kan worden uit de rommelige gegevens waarop je statistiek bedrijft – en zekere geen binaire conclusie (‘er is een effect’ of juist niet).
Gelman en Carlin vinden statistiek natuurlijk geen onzin – het is hun vak. Je moet er alleen geen illusie van absolute zekerheden aan ontlenen. Een onzinnige hypothese wordt niet ineens de waarheid omdat de statistiek dat zegt. En daarmee is statistiek eigenlijk zoals iedere vorm van evidentie voor een willekeurige stelling. We tasten altijd in het duister, we kunnen alleen hypothesen opstellen over hoe de werkelijkheid in elkaar zit, en ook SPSS en R bevatten geen gegarandeerd lichtknopje dat ineens een schijnwerper doet ontbranden.
Ik schreef al eerder over Andrew Gelman.
DirkJan zegt
Ja, statistieken, ik weet er weinig van, maar van de week bracht Google een bericht naar buiten dat het de vertaalfunctie aanzienlijk had verbeterd. Het aantal vertaalfouten ging hierdoor 55 tot 85 procent omlaag. De gestegen kwaliteit zal dan ook zijn gemeten op basis van statistiek denk ik, en dan vraag ik me af hoe ik die range van 55 tot 85 procent moet interpreteren, maar het klinkt in ieder geval heel veel. Google wast nu nog witter dan wit.
[ En dan is er een nieuw en slim zelflerend algoritme geïmplanteerd. Mogelijk heeft die technologie ook met statistieken te maken, maar ik heb nooit zo’n algoritme concreet gezien of er iets over gelezen. Magie. En als het zelflerend is denk ik dan, laat zo’n computer dag en nacht aan staan, geef het continu webpagina-tekstinvoer en dan wordt zo’n vertaalcomputer dus vanzelf perfect. Maar dat schijn ik niet goed te begrijpen. Wel is in veel berichten hierover weggevallen dat Google tegelijk een vertaalcommunity heeft opgericht om vertalingen handmatig te laten corrigeren door gebruikers. Kijk, dan snap ik wel dat de vertalingen beter worden, daar heb je weinig kunstmatige intelligentie bij nodig. ]