In Taal & Tongval 74, 1 (2022) verscheen een artikel van de hand van Hans Schmeets en Leonie Cornips (S&C) dat met ongeveer dezelfde strekking onder een andere titel al eerder gepubliceerd was in Statistische Trends, een online medium van het Centraal Bureau voor de Statistiek (CBS). In beide stukken presenteren de auteurs een onderzoek naar de plaats van de dialecten en erkende regionale talen in het brede palet van de talige diversiteit van Nederland anno 2019. Het eigenlijke onderzoek is uitgevoerd op basis van gegevens die verzameld zijn door het CBS, de broodheer van de eerste auteur: “Gebruik wordt gemaakt van het CBS onderzoek Sociale samenhang en Welzijn (SSW) met daarin drie taalvragen ontwikkeld door beide auteurs dat in 2019 onder 7652 personen van 15 jaar en ouder in Nederland is uitgevoerd” (S&C 2022:76). S&C konden dus meeliften met een CBS-onderzoek.
Voorts nemen de auteurs uitgebreid stelling tegen verwant onderzoek, in het bijzonder het Staat van het Nederlands (‘StaatNed’) project. Laatstgenoemd project berust op dataverzamelingen die om de twee jaar plaats vinden. De data zijn afkomstig uit enerzijds online vragenlijsten en anderzijds publiek toegankelijke bronnen en het onderzoek bestrijkt het hele taalgebied, dus Nederland, Vlaanderen/Brussel en Suriname. De vragenlijsten zijn voor de derde en laatste editie van het onderzoek ingevuld door 8646 mensen (waarvan 3195 in Nederland).
In tegenstelling tot het onderzoek van S&C, dat een momentopname biedt, omvat StaatNed drie landen en het onderzoek is longitudinaal met (volledige of gedeeltelijke) replicatie om de 2 jaar, “waardoor ook eventuele verschuivingen in de taalkeuzes in diverse domeinen opgespoord kunnen worden” (StaatNed 3, 2021:13). Het gebruik van dialecten en regionale talen is slechts één aspect van het StaatNed onderzoek, dat zich richt op “de plaats van het Nederlands (zowel standaardtaal als alle andere variëteiten) in verhouding tot erkende regionale talen en de vele andere talen die in Nederland, Vlaanderen en Suriname gesproken worden” (StaatNed 3, 2021:14).
Vrijwilligheid, stratificatie, proportionele vertegenwoordiging en toeval
In het artikel van S&C wordt met veel aplomb geclaimd dat alleen toevalssteekproeven aanspraak kunnen maken op representativiteit. Impliciet is dat steekproeven die op een andere manier tot stand komen, zoals door “vrijwillige aanmeldingen” (p. 77), niet deugen omdat de bevindingen niet gegeneraliseerd kunnen worden. Op p. 76 betogen S&C dat “[…] bestaande onderzoeken naar taaldiversiteit in Nederland doorgaans niet gebaseerd zijn op toevalsteekproeven (zie bijvoorbeeld Staat van het Nederlands 2017, 2019, 2021) en het is derhalve discutabel of ze een goede afspiegeling vormen van de gehele Nederlandse samenleving” (vgl. p. 80).
Nu gebeurt deelname aan het StaatNed onderzoek inderdaad “op vrijwillige basis. Dat betekent dat het plausibel is dat sommige groepen uit de samenleving in eerste instantie oververtegenwoordigd en andere ondervertegenwoordigd zijn in de respons. Om de invloed van die oververtegenwoordigde groepen op de resultaten te neutraliseren, is het nodig om de data te ‘stratificeren’. Eenvoudig gezegd betekent dit dat er gesnoeid wordt in het aantal deelnemers uit oververtegenwoordigde groepen, zodat uiteindelijk alle groepen uit de Nederlandse, Friese, Vlaamse, Brusselse en Surinaamse samenleving gelijkmatig [beter gezegd proportioneel] vertegenwoordigd worden.” (2021:7) Er is gestratificeerd voor geslacht, leeftijdsgroep, provincie of district en geboorteland (wegens ontbrekende populatiegegevens deze laatste niet voor Suriname). Een nauwkeurige verantwoording van de stratificatieprocedure is te vinden in de bijlage bij het rapport (StaatNed 3, 2021:413-415).
Hoe zit dat met de steekproef die door S&C bevraagd is? Voor het onderzoek van S&C “wordt gebruik gemaakt van het CBS onderzoek Sociale Samenhang en Welzijn (SSW) dat in 2019 onder 7652 personen van 15 jaar en ouder in Nederland is uitgevoerd. Het onderzoek SSW is gebaseerd op toevalsteekproeven onder de Nederlandse bevolking, die maandelijks getrokken worden. De respons bedraagt 54 procent.” (p. 81). Die ‘toevalssteekproeven onder de Nederlandse bevolking’ worden getrokken uit het bestand aan Nederlanders van 15 jaar en ouder telt 7500 personen. 54% van de in 2019 voor SSW benaderden was kennelijk bereid mee te doen; deze mensen doen met andere woorden desgevraagd mee en wel uit vrije wil, een proces van zelf-selectie. Dat doet wel wat af aan het toeval. De auteurs vervolgen: “Personen zijn in het Nederlands online gevraagd om een vragenlijst in te vullen. Indien dit bij een geselecteerde persoon, ook na het versturen van twee reminders, geen respons opleverde, werd deze telefonisch of thuis bevraagd.” (p. 81). Er worden verder geen mededelingen gedaan over de vraag of en zo ja hoe sterk hiermee de respons groeide en dat geeft te denken. Voor zover de aanpak wel succesvol is, kan men zich bovendien afvragen welk effect deze wijze van benadering heeft op de antwoorden.
Weging en stratificatie
Ondanks de zelf-selectie van de deelnemers redden S&C hun aanspraak op het werken met een a-selecte steekproef van SSW respondenten door een volgende stap: “Om voor de selectiviteit te corrigeren is een weging toegepast op basis van de kenmerken geslacht, leeftijd, migratieachtergrond, burgerlijke staat, stedelijkheid, provincie, landsdeel, huishoudgrootte, inkomen en enquêtemaand” (S&C 2022:81).
Voor de kenmerken geslacht, leeftijd, migratieachtergrond (geboorteland), provincie, en huishoudgrootte (“Heeft u een of meerdere kinderen die naar de dagopvang of school gaan?”) zijn voor StaatNed ook gegevens verzameld. En voor geslacht, leeftijd, geboorteland en provincie (voor Suriname: district) zijn de StaatNed steekproeven gestratificeerd en door weging proportioneel in hoge mate vergelijkbaar gemaakt met de populaties.
‘Stratified random sampling’
Om bijvoorbeeld de Vlaamse steekproef voor de kenmerken geslacht, leeftijdsgroep en provincie proportioneel vergelijkbaar te maken met de populatie wordt uitgegaan van twee waardes (man en vrouw – zie hieronder) voor geslacht, drie voor leeftijdsgroep (15-39, 40-64, 65+), en vijf provincies. Dat brengt met zich mee dat er in dit denkbeeldige voorbeeld 2 x 3 x 5 = 30 subgroepen onderscheiden worden en voor elk van die subgroepen moet er vastgesteld worden hoe ze numeriek vertegenwoordigd zijn in de populatie (om bij Vlaanderen te blijven: gegeven de data van Statistics Belgium). Vervolgens moet ervoor gezorgd worden dat de proporties in de populatie weerspiegeld worden in de steekproef.
Voor elk van de subgroepen die gedefinieerd worden door de combinatie van de stratificatiekenmerken geslacht, leeftijd, geboorteland en provincie of district is in StaatNed (op basis van gegevens van de nationale statistiekbureaus) allereerst het vereiste aantal deelnemers bepaald; die deelnemers zijn vervolgens via random (‘toevals’) steekproeftrekking gekozen. De gang van zaken in StaatNed verschilt daarmee niet van die in het onderzoek van S&C, waaraan ook een proces van zelf-selectie te pas is gekomen. De procedure staat bekend als ‘stratified random sampling’. “Random or probability sampling draws from particular categories (or ‘strata’) of the population being studied.” (Vogt 1993:223). “Speakers falling into the stratum are sampled at random […] It is an easy matter to correct for unevenness in sampling probabilities” (Sankoff 2005:1001).
Na stratificatie voor de combinatie van de kenmerken geslacht, leeftijd, geboorteland en provincie of district resp. random steekproeftrekking per StaatNed subgroep zijn proporties in de steekproeven goed vergelijkbaar met die in de populaties, getuige het feit dat de correlaties met de populatiegegevens variëren tussen .851 voor Nederland tot .908 voor Vlaanderen (zie pp. 405-416 van het eindverslag over StaatNed 3). Vgl. “Stratified random sampling can be proportionate, so that the size of the strata correspond to the size of the groups in the population.” (Vogt 1993:223).
Van de StaatNed steekproeven kan op goede gronden beweerd worden dat ze tot stand zijn gekomen door toevalstrekking en dat ze voor de vier genoemde kenmerken behoorlijk representatief zijn. Met de populatiegegevens die beschikbaar gesteld worden door CBS, StatBel (Statistics Belgium) en ABS (Algemeen Bureau voor de Statistiek in Suriname) kan het nauwelijks beter.
Voor elk van de vijf (Nederland, Friesland, Vlaanderen, Brussel en Suriname) steekproeven is bovendien in samenhang met de omvang via een procedure waarvoor de R code is opgenomen de foutenmarge berekend en gepresenteerd. Die ligt voor Nederland, Vlaanderen en Suriname ruimschoots onder de 5%; voor Nederland, bijvoorbeeld, bedraagt de foutenmarge 1.7% (StaatNed 3, 2021:405-416).
Ja of nee representatief?
Opmerkelijkerwijs wordt representativiteit door S&C voorgesteld als een ja/nee eigenschap van een steekproef, terwijl het uiteraard een kwestie van meer of minder is. Een steekproef kan voor bepaalde kenmerken meer of minder representatief zijn voor de populatie. Daarbij speelt de wijze van trekking een rol, maar ook de vraag of de populatie-eigenschappen voor de relevante kenmerken proportioneel weerspiegeld zijn in de steekproef.
De steekproeven hadden voor meer verschillende kenmerken (bijv. onderwijsachtergrond en ‘stedelijkheid’) geproportioneerd kunnen worden naar de populaties, maar hiertoe zijn bij de nationale statistiekbureaus de populatiegegevens niet beschikbaar. Meer kenmerken betekent meer subgroepen – en meer werk om de verhoudingen in de steekproef in overeenstemming te brengen met die in de populatie. Maar als de hoeveelheid deelnemers voldoende groot is, kan het. Mits de populatiegegevens beschikbaar zijn en dat laatste is niet vanzelfsprekend het geval – dat is ook in verband met StaatNed vastgesteld. De maximaal mogelijke combinatie die bij het CBS voorhanden is is geslacht x leeftijd x geboorteland x provincie (StaatNed 3, 2021:7). Ook voor één van deze kenmerken zijn er beperkingen aan de gegevens van de nationale statistiekbureaus; voor de vraag naar het geslacht bleek de antwoordcategorie ‘anders’ onder de StaatNed-respondenten betrekkelijk zeldzaam. Maar zowel het CBS en StatBel als het ABS kennen slechts twee mogelijkheden: ‘man’ en ‘vrouw’. Daardoor is het niet mogelijk om te straticiferen over ‘ik omschrijf mezelf anders’ (StaatNed 3, 2021:405).
Vrijwillige deelname, checks and balances
De normen en regels omtrent de ethiek van onderzoek, wetenschappelijk of door nationale statistiekbureaus, garanderen onder meer dat elke respondent uit vrije wil deelneemt. Hoe men ook benaderd en in het onderzoek betrokken is, men werkt vrijwillig mee. Er is dus altijd een bias.
Behalve door stratificatie op de vier kenmerken waardoor de steekproeven proportioneel overeenkomen met de respectieve populaties en random selectie, is de bias in StaatNed tot nog toe ondervangen doordat er ook met flankerende onafhankelijke data gewerkt wordt, “om de enquêteresultaten hier en daar aan af toetsen” (StaatNed 3, 2021:5). Het gaat daarbij om openbaar beschikbare data. Deze data betreffen enerzijds bestaande, betrouwbare en periodiek herhaalde dataverzamelingen van marktonderzoeksbureaus of overheden (zoals bijv. kijk- en luistercijfers voor radio en TV) en anderzijds cijfers die handmatig werden verzameld door de onderzoekers zelf.
Zo zijn er (vanaf 2018 ook voor Suriname) voor de domeinen werk, hoger onderwijs en wetenschap flankerende (of ‘extra’) gegevens verzameld op basis van jaarverslagen en vacatures, websites en studiegidsen. Specifiek voor een beter inzicht in het talengebruik in het hogere onderwijs werden er flankerende data gewonnen uit o.a. vergaderstukken, deliberaties, communicatie tussen collega’s in de wandelgangen, in e-mail of op een personeelsuitje. Specifiek voor wetenschap richtte StaatNed2 zich op het taalgebruik in artikelen en proefschriften.
Selectief selecteren op representativiteit
Bedenkingen bij de representativiteit van dataverzamelingen zoals bijv. die uit de Meertens Vragenlijsten weerhouden sommige onderzoekers er niet van, er kwantitatieve patronen in te zoeken en daar conclusies aan te verbinden.
Veel recent onderzoek van de waarneming (perceptie) en waardering (evaluatie) van taalvariatie blinkt uit in geavanceerde experimentele methoden voor het stelselmatig ontlokken van vergelijkbare mentale voorstellingen en beoordelingen van taalvariëteiten en varianten of van hun gebruikers; de interne validiteit van het onderzoek is dus meestal gegarandeerd. Typischerwijs zijn de proefpersonen in veel van dit onderzoek echter studenten, meestal studenten aan de universiteit waar de onderzoeker werkzaam is. Ondanks hun uiteenlopende achtergronden, is er ook veel dat studenten gemeen hebben en dat hen onderscheidt van andere groepen in de samenleving. Ze zijn in veel opzichten dan ook niet representatief voor de taalgemeenschap in zijn geheel, waardoor het lastig is om de bevindingen van de betreffende experimentele studies te generaliseren. Over de representatitiviteit van de onderzochte proefpersonen en daarmee de externe validiteit wordt in deze studies meestal niet gerept.
Verzamelde gegevens
“Behalve naar welke voertaal iemand thuis het meest spreekt, is voor de regionale talen, het dialect en de andere talen zoals Engels, Berber, Vietnamees onderzocht op welke plekken deze taal of dialect nog meer wordt gesproken” (S&C 2022: 82). De auteurs hebben hiertoe voor hun studie “bepaalde domeinen samengevoegd”. Dit samenvoegen gebeurde tijdens de totstandkoming van de vragenlijst. Dat heeft geleid tot vragen als “Waar spreekt u deze taal of dit dialect nog meer?
- Op het werk of op school
- Bij officiële instanties, zoals het gemeentehuis of in het ziekenhuis
- In winkels of de horeca
- In het dorp of de stad waar u woont
- Met buren of vrienden”
(S&C 2022:82). Hier kunnen twee opmerkingen bij gemaakt worden. Ten eerste wordt door deze wijze van bevraging een variëiteit of taal die wel elders maar niet thuis gesproken wordt uitgesloten. Ten tweede: de gemiddelde dialectspreker zal uit ervaring weten dat de taalkeuze in, pakweg, winkels en horeca niet perse dezelfde hoeft te zijn. En dat geldt bijv. ook voor buren en vrienden. De terzake Staat van het Nederlands bevindingen 2020 voor het gerapporteerde dialectgebruik (pp. 60-73) in Nederland resp. Nederlands Limburgs illustreren één en ander:
In het door S&C opgezette onderzoek wordt, kortom, al voorafgaand aan de dataverzameling datareductie uitgevoerd. Post hoc datareductie kan verdedigbaar zijn indien de patronen in de data dit toestaan en er geen statistisch beduidende verschillen zijn tussen de betreffende categorieën, maar pre hoc reductie is hoogstens op conceptuele gronden verdedigbaar.
S&C hebben in hun studie in totaal zeven (paren van) domeinen onderzocht – naast de bovengenoemde ook ‘thuis’ en ‘op sociale media’. In de volledige versie van StaatNed (edities 1 en 4, dataverzameling in resp. 2016 en 2022) wordt de taalkeuze in zes verschillende domeinen bestudeerd (naaste omgeving – familie, vrienden en bekenden; naaste omgeving – met onbekenden of in formele contexten; godsdienst; werk; cultuur en media; onderwijs). Dit gebeurt via de antwoorden op in totaal 29 vragen over de taalkeuze in deeldomeinen (‘met de buren’ is een van de deeldomeinen onder ‘naaste omgeving – familie, vrienden en bekenden’; ‘in het ziekenhuis’ en ‘in de supermarkt’ zijn deeldomeinen onder ‘naaste omgeving – met onbekenden of in formele contexten’). Daarnaast zijn er in verband met de laatste vier genoemde domeinen in totaal 27 vragen gesteld over de taal waarin met leest, kijkt, luistert en waarin de kinderen van de respondent onderwijs genieten, alsmede vijf vragen over de talen die men in evenzoveel deeldomeinen om zich heen hoort. Bovendien zijn er acht attitudevragen opgenomen, waarvan drie in verband met het onderwijs.
All animals are equal, but…
Volgens S&C (2022:83) “verschillen onderzoekers van respondenten in het definiëren van labels omdat zij onder een label als bijvoorbeeld Nederlands zowel informele als formele vormen van standaardnederlands, tussentalige vormen, regiolecten, sociolecten als dialecten rekenen en zelfs regionale talen onder Nederlands kunnen rekenen (Staat van het Nederlands 2017, 9[…])”.
Voor zover dit laatste waar is, geldt het voor de eerste editie van het project, zij het dat daarvoor ‘vormen’ als tussentaal, regiolect en sociolect nergens aan de orde waren, ook niet met minder vakspecifieke labels. In latere edities van het project is de benadering op dit punt sterk genuanceerd. Het is dan ook opmerkelijk en niet bepaald fair dat S&C juist op dit punt alleen naar de eerste editie verwijzen.
Ofschoon de auteurs niet willen “suggereren dat provincies vanzelfsprekende talige eenheden zijn en/of dat provinciegrenzen talige grenzen representeren” (pp. 83-84), bespreken S&C hun bevindingen voor het gerapporteerde dialectgebruik opvallend genoeg in de sectie 3.1, getiteld ‘Detaillering naar provincie: Nederlands, andere taal, regionale taal en dialect’. De opzet van het onderzoek, waarin geen dialectgroepen zijn onderscheiden, dwingt hiertoe.
De Nedersaksische dialecten (die gesproken worden in de noordoostelijke provincies) zijn in 1996 in het kader van het ‘Europees Handvest voor regionale talen of talen van minderheden’ erkend als regionale taal. Hetzelfde geldt sinds 1997 voor het Limburgs in Nederland. In België vormen de Limburgse dialecten geen erkende regionale taal, met alle gevolgen van dien voor de vergelijkbaarheid van de bevindingen voor het Nederlandse en het Vlaamse Limburgs. Maar doordat S&C zich beperken tot de Nederlandse situatie hoeven ze daar geen aandacht aan te besteden.
Kortom
Vanuit het nationale statistiekbureau is het gemakkelijk om af te geven op onderzoek dat niet kan putten uit respondentenbestanden (meer in het bijzonder adressenbestanden) en populatiedata die collega’s al opgezet en verzameld hadden.
Maar bij nadere beschouwing is de kwaliteit van de CBS steekproef niet erg superieur omdat ook bij de totstandkoming daarvan, anders dan geclaimd wordt, vrijwilligheid een niet te verwaarlozen rol speelt. Daarnaast blijken de via het CBS in deze steekproef ingewonnen gegevens, allereerst door de vraagstelling en de niet-gewettigde pre hoc datareductie, in wezenlijke opzichten armer dan die uit het StaatNed onderzoek. En, last but not least, zowel in de tijd als in de West-Europese en Transatlantische ruimte van het taalgebied verbleekt het CBS onderzoek in vergelijking met StaatNed.
Veel dank aan Wilbert Heeringa voor zijn nuttige opmerkingen bij een eerdere versie van dit stuk.
Bibliografie
Sankoff, David (2005), Problems of representativeness. In: Ulrich Ammon, Norbert Dittmar en Klaus J. Mattheier (eds), Sociolinguistics : an international handbook of the science of language and society. 2nd completely rebvised and extended edition. Vol. 2. Berlin: De Gruyter, 998-1002.
Schmeets, Hans en Leonie Cornips (2021), Welke talen en dialecten spreken we thuis en gebruiken we op sociale media? Statistische Trends, 5(23), 1-19.
Schmeets, Hans en Leonie Cornips (2022), Taaldiversiteit in Nederland.Taal en Tongval 74, 1, 75-106.
StaatNed 1 = Rys, Kathy, Marten van der Meulen, Frans Hinskens, Fieke Van der Gucht, Johan De Caluwe en Wilbert Heeringa (2017), Onderzoeksrapport Staat van het Nederlands. Over de taalkeuzes van Nederlanders en Vlamingen in het dagelijks leven. Den Haag: NTU. https://www.meertens.knaw.nl/cms/nl/onderzoek/2017-05-15-14-09-07 http://staatvanhetnederlands.nl/cms/?page_id=113
StaatNed 2 = Rys, Kathy, Usha Balesar, Johan De Caluwe, Wilbert Heeringa, Frans Hinskens, Sita Doerga Misier, Maarten van der Peet & Margareth Rozenblad (2019), Onderzoeksrapport Staat van het Nederlands 2. Over de taalkeuzes van Surinamers in het dagelijks leven en meer over die van Nederlanders en Vlamingen. Amsterdam: Taalunie / Meertens Instituut. http://staatvanhetnederlands.nl/cms/wp-content/uploads/2019/09/Onderzoeksrapport-StaatNed2019-DEF.pdf
StaatNed 3 = Rys, Kathy, Wilbert Heeringa, Frans Hinskens, Usha Balesar, Johan De Caluwe, Sita Doerga Misier en Janneke Sif Rutten (2021), Staat van het Nederlands. Over de verschuivende taalkeuzes van Surinamers, Vlamingen en Nederlanders in het dagelijks leven. Amsterdam: Taalunie / Meertens Instituut. https://taalunie.org/publicaties/206/staat-van-het-nederlands-onderzoeksrapport-2021
Vogt, W. Paul (1993), Dictionary of statistics and methodology. Newbury Part etc.: Sage.
Laat een reactie achter