
Lang leve de woorden die je zelden tegenkomt. Kwispelstaarten. Obex. Ziften. Alikruik. Zerp. Ze vormen de periferie van de woordenschat, de ‘lange staarten’ van de frequentieverdeling zoals statistici ze noemen. Een groot deel van iedere Nederlandse tekst bestaat uit een klein aantal woorden (de, een, op, man, ik, enz.). Dat is het dikke lichaam van de taal. Daarnaast liggen vele tienduizenden woorden die ieder maar heel weinig worden gebruikt. Dat zijn de lange staarten. En juist die staarten worden bedreigd door taalmodellen.
Dat stelt in ieder geval Eva Vanmassenhove, een taalkundige aan de Universiteit van Tilburg, in een artikel over die staarten, en hoe we die misschien verliezen. De metafoor van de verloren staart is darwinistisch: miljoenen jaren geleden verloren wij homines sapientes als soort onze staart, een anatomisch rudiment dat overbodig was geworden. Vanmassenhove vraagt zich af of de statistische staarten van taal hetzelfde lot beschoren is. En of dat even onschuldig is als het verliezen van onze fysieke staarten.
Napraten
Grote taalmodellen zijn meesterlijke voorspellers van het volgende woord: ze kiezen tijdens het schrijven steeds het woord dat statistisch het meest waarschijnlijk is gegeven het voorafgaande. Dat levert vloeiende en plausibele tekst op, maar ook een systematische voorkeur voor het gangbare en het gemiddelde. Woorden als présidentes (de meervoudsvorm van het Franse président) raken volgens onderzoek in de verdrukking omdat président nu eenmaal vaker voorkomt.
We weten dat iedere taal zo werkt, met een klein aantal woorden die heel veel voorkomt en een groot aantal woorden die juist heel zeldzaam zijn. Het hele vocabulaire van de rariteiten — bargoens, dialectvormen, neologismen, hypergeleerde woorden — vormt de humus waaruit talige vernieuwing opbloeit. Ieder nieuw woord is ooit in dat humus ontstaan. Hoe zal de taal zich nog ontwikkelen als de humus er niet meer is?
Als modellen steeds meer trainen op tekst die door henzelf of door andere modellen is gegenereerd, geraken ze bovendien in een lus. De zeldzame woorden en de ongebruikelijke constructies, de cultureel specifieke uitdrukkingen verschrompelen generatie na generatie. Op die manier neemt de diversiteit af, vooral als mensen op hun beurt die modellen ook weer napraten (en er zijn, zij het héél voorzichtige, aanwijzingen dat dit gebeurt.)
Ophouden
Wij mensen leren onze moedertaal onder erbarmelijke omstandigheden: met weinig input, veel ruis, een beperkt geheugen, en dat alles in de eerste paar jaar van ons leven waarin we nog zoveel andere dingen moeten leren. Maar juist die beperkingen, schrijft Vanmassenhove, dwingen ons tot structuur en compositionaliteit. We convergeren, maar naar een systeem van voor- en achtervoegsels en samenstellingen en allerlei andere middelen die ons in staat stellen nieuwe woorden te maken die onmiddellijk begrepen worden (Hormuz-paniek, Hormuziaans, pre-Hormuz-tijdperk).
Taalmodellen doen iets anders. Ze convergeren naar het waarschijnlijke, niet naar het productieve. Ze hebben een vrijwel onbeperkt geheugen, maar hun vocabulaire is paradoxaal genoeg armer. Ze kunnen stilistisch imiteren, maar generatie na generatie wordt die imitatie eentoniger. Mensen hebben allemaal hun eigen, net iets andere vertekeningen. Modellen hebben één gedeelde, dominante vertekening.
Je zou er Evameijeriaans ongerust over kunnen zijn: woorden verdwijnen! Wie woorden verliest, verliest manieren van denken! Maar ik ben geneigd wat meer vertrouwen te hebben in de mens die, misschien niet de taalgebruiker is met de grootste output, maar uiteindelijk wel de taalgebruiker waar het allemaal om gaat. Wij doen het vermoedelijk al tienduizenden jaren met talen met staarten. Waarom zouden we daar nu mee ophouden?
Laat een reactie achter