Ik heb in Neerlandistiek wel eens iets van mijn verbazing laten merken over het feit dat een niet gering deel van de literatuurwetenschap, de zusterdiscipline van mijn eigen vak (taalkunde), een enorme interesse heeft ontwikkeld voor genderkwesties. Ik heb dat toen een “obsessie” genoemd, en in een adem gezegd dat ik me stoorde aan de moraliserende toon. Dat klonk onaardig. En dat was misschien ook wel niet zo aardig.
Ik ben twee dingen gaan doen. Ten eerste ben ik zelf ook naar gender gaan kijken, want het benieuwde me wel wat er nu zo interessant aan is. En ja, er valt wel een en ander over te zeggen. Op dit moment ben ik met collega’s data aan het verzamelen, en ik hoop daar op een later moment ook nog wel eens verslag van te kunnen doen. Ten tweede – en daar wil ik het vandaag over hebben – ben ik gaan nadenken of de taalkunde, en dan vooral de hoek waarin ik zelf aanrommel, ook niet haar obsessies heeft, die op bijvoorbeeld literatuurwetenschappers de beuzelachtige indruk maken dat we ons met het trimmen van steeds dezelfde bonsaiboompjes bezighouden.
Ogenschijnlijke chaos
Daar is misschien wel iets van waar. De variatietaalkunde heeft een dwangmatige interesse in wat met een technische term ‘alternanties’ heet. Denk aan: dat hij het boek gelezen heeft vs. dat hij het boek heeft gelezen (de zgn. rode vs. groene volgorde), groter als vs. groter dan, hij geeft z’n moeder bloemen vs. hij geeft bloemen aan zijn moeder (de datiefalternantie), hij zoekt de kat vs. hij zoekt naar de kat, vergeet niet te komen vs. vergeet niet om te komen, iets interessants vs. iets interessant, laten we gaan zwemmen vs. laat ons gaan zwemmen, waaide vs. woei, als hij ziek was vs. was hij ziek, het beste dat vs. het beste wat, in de asbak lagen twee peuken vs. in de asbak lagen er twee peuken, een soort bloempot vs. een soort van bloempot en nog veel meer. Meestal zijn het twee varianten die min of meer hetzelfde betekenen. Wat de variatietaalkunde dan doet, is nagaan of je een statistisch model kunt bouwen dat met een zekere mate van vertrouwen kan voorspellen welke variant gebruikt wordt, gegeven allerlei factoren, zowel ‘taalinterne’ als ‘taalexterne’ (dat wil zeggen ‘sociale’) factoren. Neem nu de fameuze ‘rode’ vs. ‘groene’ volgorde. Kun je voorspellen of iemand gedronken heeft of heeft gedronken zegt (of schrijft) als je weet welk hoofdwerkwoord (drinken, werken, zwemmen…) en welk hulpwerkwoord (hebben, zijn, worden…) er gebruikt is, hoeveel andere zinsdelen er nog in de zin staan, of het een krantenartikel is of een telefoongesprek, of de spreker/schrijver een man is of een vrouw, hoe oud die is, of het een Belg is of een Nederlander enz.?
Waar komt die, je zou kunnen zeggen, ziekelijke interesse vandaan? Allereerst is er natuurlijk de grote interesse van taalkundigen in variatie tout court: hoe meer talen, hoe meer vreugd. En dan gaat het niet alleen om wereldwijde taaldiversiteit, maar ook om dialecten, etnolecten, en registers binnen de eigen taal. Het komt erop aan patronen te vinden in de ogenschijnlijke chaos in taal. “Orderly heterogeneity”, in de woorden van de grondleggers van de discipline. Dat ga je stap voor stap doen: je probeert voor allerlei kleine alternanties de verklarende variabelen in de klem te krijgen.
Verknechting
Maar er is nog een andere factor: de methodologie. Het werkpaard van de variatietaalkunde is regressieanalyse. Die neemt meestal de vorm aan van een logistische regressie, die de kans voorspelt dat je kiest voor een binaire uitkomst, A of B, – een alternantie dus. Het grote voordeel van deze techniek is dat die veel variabelen tegelijk aan kan, en het specifieke verschil van elk van die variabele kan nagaan, terwijl de andere vastgezet worden. Zo kun je vermijden dat je bijvoorbeeld een leeftijdsverschil onterecht als een verschil in geslacht interpreteert omdat je toevallig meer oudere mannen hebt en jongere vrouwen in je steekproef. Je kunt er ook ‘interactie-effecten’ mee meten: de impact van leeftijd is misschien niet hetzelfde in beide geslachten, bijvoorbeeld geen verschil tussen jongens en meisjes, maar wel tussen oma’s en opa’s. Nog een voordeel: je kunt zowel numerieke variabelen invoeren, bijvoorbeeld leeftijd, als categorische variabelen, die geen specifieke rangorde hebben, zoals bijvoorbeeld België vs. Nederland. De techniek is verder ook geschikt om diachroon verloop na te gaan.
Zelf vind ik het allemaal prachtig onderzoek, waar veel knowhow bij komt kijken, en waar ook diepe theoretische vragen mee aangeboord kunnen worden. De omwenteling is wat mij betreft vergelijkbaar met wat Antoni van Leeuwenhoek teweegbracht toen hij de microscoop optimaliseerde. Je ziet plots veel scherper, en het heeft iets magisch om taalinterne verschijnselen in verband te kunnen brengen met de buitenwereld. Of om een historisch verloop te zien dat beantwoordt aan wiskundige regelmaat.
Maar in momenten van zelftwijfel denk ik dat de interesse in binaire alternanties (A vs. B) ook gewoon te maken heeft met de populariteit van deze methode. Het voordeel is evident: je krijgt zorgvuldig opgezette, falsifieerbare onderzoeken, die een hoge mate van objectiviteit hebben, en zo gemakkelijker het stempel van ‘echte wetenschap’ krijgen. Er is ook een schaduwzijde: hoe meer de taalkunde inzet op statistiek, hoe groter de kans dat fenomenen die zich minder gemakkelijk laten beschrijven met de statistische apparatuur, in de marge terechtkomen. Voor het Oudnederlands is het materiaal zo schaars dat regressie niet altijd goed werkt. De statistische technieken lijken vaak een beetje op Koekiemonster van Sesamstraat: heel hongerig, en er gaan bij het eten kostbare kruimels verloren. Die verspillende luxe is er soms niet. En zelfs als je veel data hebt, zijn er ook fenomenen die zich niet zo eenvoudig laten beschrijven in termen van óf A óf B. Het dictaat van de methodologie is een angstaanjagende gedachte: we zijn als menselijke onderzoeker nog niet uitgerangeerd door kunstmatige intelligentie, maar hier zien we toch iets wat je met enige bezorgdheid zou kunnen zien als de verknechting van de onderzoeker door zijn eigen werktuigen.
WebredMiet zegt
Kleine opmerking bij deze zin: ‘Wat de variatietaalkunde dan doet, is nagaan of je een statistisch model kunt bouwen dat met een zekere mate van vertrouwen kan voorspellen welke variant gebruikt wordt’.
Dat doet de variatietaalkunde ongetwijfeld ook, maar niet alleen. Ik ben al meer dan twintig jaar variatielinguïst, en ben dat acht jaar in een academische context geweest, maar ik hou me absoluut niet bezig met statistische modellen. En zeker niet met voorspellende modellen. De variatie die er is achterhalen en beschrijven is al intensief genoeg :-). Daarbij bots ik overigens net heel vaak op nuances in de verschillen die volgens mij heel lastig zijn voor die statistisch modellen. Ik kom soms niet eens verder dan ‘hier zit iets, maar ik kan er de vinger niet precies op leggen.’
Lauren Fonteyn zegt
Ik heb hetzelfde gevoel: die modellen zijn een beetje as een broek die ons gaan dragen is. Zelfs bij de datiefalternantie gaat het eigenlijk bijlange niet altijd om maar twee vormen. Daarnaast laat zo’n regressie ook niet zien hoe onverschillend de varianten zijn (daar heb ik al eerder eens over zitten miepen: die vraag wordt niet echt gesteld, omdat de onderzoeksvraag en -scope door de beoogde modellen bepaald wordt, en niet vice versa), en ik begin de indruk te krijgen dat er weer type 2 fouten beginnen op te duiken in de discussies rond de resultaten…
Michiel de Vaan zegt
Ik ben het met Miet eens. Maar het is ook een terminologische kwestie. Het lijkt also het -ist uit het Engelse ‘variationist linguistics’ hier in ‘variatietaalkunde’ wordt weggelaten, wat de beperking tot statistiek of synchrone variaite nog wranger doet klinken. Voor mij is ‘variatietaalkunde’ een pleonasme: welke taalkundige vraag gaat er nou niet over variatie (los van de vraag, wat je met die variatie aan wilt)?
Dominiek Sandra zegt
Je wijst terecht op een groot gevaar, Freek. Onderzoekers die op een mechanische of dwangmatige manier een statistische methode toepassen omdat het ‘the new kid in town’ is, lopen het grote gevaar hun onderzoek te kiezen in functie van wat de statistische methode kan. Wetenschappers gedragen zich zoals elke andere groep in de maatschappij: ze volgen (vaak impliciete) sociale conventies. Lees: de leden van de groep imiteren elkaar. Bijgevolg bestaan er in de wetenschap ook modeverschijnselen, net als in onze manier van kleden. Ik zie zelfs geen verschil op fundamenteel niveau. Jij wijst op één gevaar van zulke modeverschijnselen in de wetenschap. Zelf zou ik daar een tweede gevaar aan toevoegen: veel onderzoekers volgen de nieuwe mode maar zonder te weten waarom. Omdat de uitkomst van statistische analyses het fundament is van elke publicatie waarin statistiek gebruikt wordt, hangt nochtans alles af van het inzicht in die analyses (door de onderzoeker, een medewerker, …). Wie dat inzicht mist, al was het maar op conceptueel niveau, loopt het gevaar om interpretatiefouten te maken. Elk softwarepakket geeft je uiteraard de analyse cadeau – waardoor je nog minder moet nadenken over de vraag: wat heeft die analyse nu eigenlijk gedaan en wat mag ik er wel en niet uit afleiden? Geregeld merk je bij reviews dat onderzoekers de output van hun eigen analyse fout interpreteren. Je merkt het ook in het méér dan dwangmatige gebruik van p-waarden. Die zijn wellicht de grootste afgod in de experimentele vakliteratuur geworden, terwijl het begrip in de statistiek zelf al lang ter discussie staat (betrouwbaarheidsintervallen zijn beter). Zelfs al was de p-waarde nooit zo stringent bedoeld door Ronald Fischer zelf, die de ANOVA uitvond. Je zedenles is heel terecht: let op met het gebruik van statistiek. Nochtans ben ik ervan overtuigd dat inzichten gebaseerd moeten zijn op voldoende data, een correcte analyse van die data en een verdedigbare interpretatie. Onderzoekers die statistiek gebruiken, moeten echter inderdaad heel goed weten waar ze mee bezig zijn.