De correlatiemachine draaide deze week weer op volle toeren. In het tijdschrift PLOS ONE verscheen een artikel van een groep Amerikaanse psychologen die 700 miljoen ‘woorden en zinnen’ hadden onderzocht van Facebook-berichten.
700 miljoen! De onderzoekers waren er zelf enorm van onder de indruk. In hun abstract en in het artikel zelf trompetteren ze het aantal een paar keer rond – het is hun belangrijkste prestatie. Nog nooit heeft iemand naar zoveel woorden gekeken.
Dus menen ze ook dat ieder van hun bevindingen voor het eerst pas echt wetenschappelijk licht op de zaak werpt. En dus verwijzen ze geen enkele keer naar de decennia van gedetailleerd (socio)linguïstisch onderzoek die gedaan zijn naar het soort relaties als zij onderzoeken, zoals dat tussen taal en sekse of tussen taal en leeftijd.
In mijn ogen slaan die onderzoekers met hun 700 miljoen ‘woorden en zinnen’ (hoeveel van die 700 miljoen waren woorden en hoeveel zinnen?) daardoor regelmatig de plank mis.
Een van de problemen is dat er van alles en nog wat samen wordt genomen in dit soort ’taalonderzoek’: leeftijdgebonden woordgebruik (mieters tegenover kapot), verschillen in wat je wel of niet over jezelf prijsgeeft op de sociale media, verschillen in waar je mee bezig bent en waar je dus over bericht. Dat wordt allemaal op één grote soep gegooid, een soep van 700 miljoen woorden en zinnen.
Neem de correlatie tussen taal en leeftijd. Volgens de onderzoekers kun je aan de hand van iemands Facebook-berichten diens leeftijd vrij nauwkeurig schatten, in veel gevallen met een nauwkeurigheid van een jaar of drie.
Taalkundig gezien is dat een raadsel. Het is wel bekend dat bijvoorbeeld uitspraak zich heel langzaam, jaar na jaar, in een bepaalde richting kan ontwikkelen. We weten ook dat jongeren andere woorden kunnen gebruiken dan ouderen, vooral om zich als groep te onderscheiden. Maar dat je zulke verfijnde onderscheidingen zou kunnen maken op basis van alleen woordgebruik, valt niet goed te rijmen. Er is geen reden om te denken dat 12-jarigen overal in Amerika expres systematisch anders willen praten dan 13-jarigen in hetzelfde land.
Wanneer je het artikel leest, blijkt het in dit geval waarschijnlijk ook niet over taalkundige factoren te gaan. Het effect bestaat er vooral in dat mensen naarmate ze ouder worden minder over school praten en minder over het werk; dat ze als ze meerderjarig worden een tijdje vaak het woord dronken gebruiken, enzovoort. Het is dus vooral een verslag van wat ze doen. En feitelijk volkomen triviaal: kinderen gebruiken vaker het woord ouders, mensen van middelbare leeftijd vaker het woord kinderen.
Sowieso valt dit soort onderzoek op door volkomen gebrek aan enige theorievorming. De onderzoekers zijn zo enthousiast over hun 700 miljoen woorden (en zinnen), dat ze tevreden zijn met de feitelijk zeer oppervlakkige bevindingen die deze gigantische dataverzameling oplevert.
Laat een reactie achter