Onnatuurlijketaalgewenning

“Kurt Schwitters – Merz Blauer Vogel (Blue Bird) (1922)” by Playing Futures: Applied Nomadology licensed under CC BY 2.0

Gedegen onderzoek gaat altijd gepaard met een fikse dosis verwachtingsmanagement. Als onderzoeker wil je vaak een ambitieuze onderzoeksvraag beantwoorden, maar je komt er meestal snel genoeg achter dat het antwoord op de vraag afhankelijk is van te veel variabelen. De vraag moet worden bijgesteld, de ambitie afgeschroefd. Ook bij mij waart er de laatste jaren steevast een onderzoeksvraag door mijn hoofd, een vraag die zelfs met de inzet van alle beschikbare onderzoeksmiddelen te ambitieus zal blijken en waarop ik het antwoord schuldig zal moeten blijven. De vraag luidt: welke invloed heeft taaltechnologie op ons (moeder)talig vermogen?

In de theorie staat duidelijk beschreven dat nieuwe media en technologieën ook nieuwe taalvormen in het leven roepen. Een goed voorbeeld is de chat- en sms-taal die rond de millenniumwisseling in zwang raakte. Bij deze technologieën zagen we dat de nieuwvormingen die ontstonden te maken hadden met een beperkt aantal factoren. Snelheid (gecombineerd met gemakzucht) vormt ‘van oudsher’ een verklaring voor neologismen en afkortingen. Bij sms-taal speelde ook zuinigheid een belangrijke rol: voluit geschreven woorden konden je al snel een extra sms kosten. Een factor die in sociolinguïstische kringen ook vaak wordt benoemd, is onderscheid: met nieuwe en eigenzinnige taal kan je je als individu of als subgroep onderscheiden. Denk maar aan de recente discussies over het Kinderwoord van het jaar. Toch hangen de taalontwikkelingen die onder invloed van die media en technologieën in gang zijn getrokken vaak nog samen met min of meer (bewust) menselijk handelen en met min of meer natuurlijke taalacquisitievormen.

De laatste jaren zien we echter dat de technologie zelf steeds prominenter als ‘actor’ optreedt, steeds sneller handelend vermogen krijgt toegedicht. Dat heeft natuurlijk alles te maken met de ontwikkeling van taaltechnologie. De wijze waarop we tegenwoordig communiceren en informatie verwerken, lijkt in ijltempo te veranderen door de alomtegenwoordigheid van een keur aan taaltechnologische toepassingen in onze hedendaagse maatschappij.

Synthetische teksten

Hoewel de noemer ‘NLP’ (Natural Language Processing of natuurlijketaalverwerking) doet vermoeden dat de output van deze technologie ‘natuurlijk’ is, wijst onderzoek uit dat veel tekst die met behulp van taaltechnologie wordt geproduceerd eigenaardig en daardoor misschien een tikkeltje ‘onnatuurlijk’ is. Dat is in het verleden al opgemerkt in onderzoek naar machinevertaling, waar interferentie van de brontaal een van de grote boosdoeners is. Recent is de aandacht verschoven op de ‘onnatuurlijke’ taalkenmerken van output van generatieve AI.

Wat AI-output zoal van ‘menselijke’ output (sic!) onderscheidt? AI-output kent minder lexicale variatie en is doorgaans minder complex in formulering en opbouw: AI heeft een relatief lage perplexiteit. Ook de zogenaamde ‘burstiness’ is iets wat mens en machine onderscheidt: synthetische teksten worden gekenmerkt door monotone of uniforme zinnen, terwijl door mensen geproduceerde teksten vaak een melange vormen van korte(re) en lange(re) zinnen. Wat woordkeus en uitdrukkingen betreft, scoren mensen doorgaans hoger op creativiteit. Synthetische teksten maken dan weer minder redactiefouten. Uit cognitief onderzoek blijkt immers dat dat soort ‘happy little accidents’ (net als dt-fouten) vaak in menselijke output wordt aangetroffen, omdat we onze aandacht slecht kunnen verdelen over meerdere taalaspecten. Interessanter wordt het in mijn vertaalkundige ogen echter als we kijken naar interferentie in AI-output. Door de architectuur en voeding van de taalmodellen (meer dan 60 procent Engelstalige tekst), komt het ‘Engelse’ karakter in AI-output prominent naar voren. Dat zien we in de specifieke woordkeus, in collocatievormingen, in de toonzetting en zelfs in metaforisch taalgebruik.

Dus ook in onderzoek naar generatieve AI zien we dat er specifieke taalpatronen in de teksten sluipen. Dat hoeft natuurlijk geen echte invloed op natuurlijk taalgebruik te hebben, zolang de output onbruikbaar wordt geacht. We zien echter dat deze synthetische teksten in toenemende mate bruikbaar worden geacht.

Rode vlaggen

Dat de technologie een rol als (talige) ‘actor’ vervult, blijkt ook uit de toekomstperspectieven die ons worden voorgeschoteld. Volgens de experts zal het internet binnen tien jaar vergeven zijn van synthetische tekst. Bovendien gaan we, als het aan de tech powers that be ligt, het tijdperk van ‘AI-agents’ tegemoet: assistenten of zelfs volwaardige werknemers die bepaalde taken afhandig maken. Agenda’s beheren, reminders rondsturen, persberichten voorbereiden: you name it. De recenste Task-functie in ChatGPT wijst erop dat de techies er fiducie in hebben. Door die ontwikkelingen zullen we steeds meer blootgesteld raken aan onnatuurlijke taal. En blootstelling aan taalpatronen, zo leert de taalverwervingstheorie, leidt tot gewenning aan en internalisering van taalpatronen. Het is daarom aannemelijk dat de taalontwikkeling steeds sterker wordt beïnvloed door wat ik ‘onnatuurlijketaalgewenning’ pleeg te noemen.

Maar hoe kan die invloed op ons (moeder)talig vermogen nu ‘objectief’ worden gemeten? We kunnen een keur aan experimenten ontwerpen om een glimp op te vangen van onze gewenning aan en internalisering van onnatuurlijke taal. Zelf heb ik mijn studenten al een aantal keer gevraagd om de kwaliteit van zowel een ‘menselijke’ vertaling als machinevertalingen (met vreemde wendingen) te beoordelen en moest ik vaststellen dat er op zijn zachtst gezegd een verhoogde tolerantie is ten overstaan van onnatuurlijk taalgebruik. Ook is er al wat corpusonderzoek in gang getrokken om de ‘contaminatie’ van taaluitingen door taalmodellen te kwantificeren. Toch kennen de onderzoeken hun beperkingen, alleen al omdat de technologische ontwikkelingen (vanuit maatschappelijk oogpunt) erg recent zijn. Maar zelfs als er veel synthetisch materiaal voorradig is, zullen we worstelen met de meetbaarheid van die invloed, doordat de taalbeweging en ons talige vermogen door zoveel meer wordt beïnvloed. Om maar een gemakzuchtig voorbeeld te geven: een toename aan ‘Engelse’ constructies in de Nederlandse taal (‘beslissingen nemen’, ‘rode vlaggen’) kan worden toegeschreven aan de woekering van synthetische taal, maar is net zo goed aan andere factoren toe te schrijven die aan de verengelsing van de Nederlandse taal en cultuur ten grondslag liggen (denk aan: de invloed van media en socials of het sociolinguïstische kapitaal van de Engelse taal). De invloed van taaltechnologie op onze taalbeweging zou enkel ‘in vitro’ kunnen worden onderzocht.

Kritisch denkvermogen

Is het nu een groot probleem dat we die invloed nauwelijks in kaart kunnen brengen? Neen, zou je kunnen zeggen, als descriptivist: de taal is altijd onverschillig geweest en waait toch wel met alle winden mee. Vanuit taalcognitief (of zelfs -normatief) standpunt is de onmeetbaarheid van die invloed mogelijk wel een probleem. Het is bekend dat er een verband is tussen talig vermogen en kritisch denken: een goede taalvaardigheid stelt ons in staat om complexe gedachten onder woorden te brengen, informatie treffend te analyseren en uitspraken kritisch te evalueren. Hoezeer ons talig vermogen een sta-in-de-weg kan vormen, merken we als we in een vreemde taal de nuance proberen te treffen: de essentie kunnen we meegeven, maar de nuance ontbreekt vaak. Als taaltechnologie leidt tot taalverschraling en als zij ons talig vermogen inperkt, dan betekent dat dus ook dat ons kritisch denkvermogen onder druk komt te staan. Wie wil waarschuwen voor de invloed van technologie op ons taalgebruik en onze taalvermogen staat echter vrij machteloos. Hard bewijs kan, door de complexiteit van het verschijnsel ‘taal’, niet worden geleverd