
Het onderzoeken van de taalvermogens van grote taalmodellen is inmiddels een heuse eigen industrie. Kunnen we teksten van chatbots herkennen? En zo ja, waar ligt dat dan aan?
We stuiten hier meteen op een pikant onderwerp: onderzoekers kunnen inderdaad verschillen vaststellen, maar tegelijkertijd lijkt het alsof menselijke lezers ongevoelig voor die verschillen zijn. Met andere woorden: computers lijken beter in het ontmaskeren van door computers geschreven teksten dan mensen. Hier zijn bijvoorbeeld twee recente artikelen (hier en hier) die min of meer dezelfde conclusies trekken. Chatbots schrijven over het algemeen wat formeler en daarnaast zijn ze geneigd wat meer informatie per vierkante centimeter te verwerken. Dat betekent dat ze bijvoorbeeld meer zelfstandig naamwoorden gebruiken – heel veel informatie zit in de zelfstandig naamwoorden – terwijl mensen percentueel wat meer lidwoorden, voorzetsels en andere betrekkelijk inhoudsloze woorden gebruiken. (Hier schreef ik over nóg een onderzoek meteen vergelijkbare conclusie.)
De verschillen zijn meetbaar, al zijn ze ook statistisch (niet iedere door een chatbot of door een mens gemaakte tekst is op deze manier te herkennen). Maar met het blote oog op te merken zijn ze nauwelijks.
Keurmerk
Desalniettemin hebben met name ervaren redacteuren wel het gevoel dat ze de verschillen kunnen ontdekken. Chatbottekst voelt gladder aan, en cliché-matiger. Gek zou dat ook niet zijn: chatbots zijn als het ware gemaakt om gladde en cliché-matige teksten te maken. In essentie doen ze niet anders dan steeds het meest voor de hand liggende woord te gebruiken, dat wil zeggen het woord dat in het corpus het vaakst voorkomt in deze context. Als veel mensen ‘op een mooie pinksterdag’ geschreven hebben, zal de computer na ‘op een mooie…’ geneigd zijn pinksterdag te schrijven.
Maar in de wetenschappelijke literatuur kan ik niet veel bewijs vinden dat mensen inderdaad verschil kunnen maken. In plaats daarvan zijn er veel studies waaruit blijkt dat de resultaten van experimenten waarbij mensen moesten kiezen niet veel anders zijn dan als die mensen zouden gokken (hier en hier bijvoorbeeld). Er blijkt vooral dat ze een voorkeur voor teksten hebben als ze denken dat die door mensen. In dit onderzoek van vorig jaar kregen Engelse lezers bijvoorbeeld echte gedichten van bekende dichters te lezen én gedichten die chatbots hadden gegenereerd ‘in de stijl van’ die dichters. Ze konden de verschillen niet echt ontdekken, ze hadden over het algemeen een lichte voorkeur voor de chatbottekst, behalve als ze wisten dat deze door chatbots gemaakt was. Want als de onderzoekers over willekeurige tekst vertelde dat ze van een computer kwam, duikelde de waardering.
Het geldt niet alleen voor gedichten: dit onderzoek laat zien dat het ook geldt voor marketingteksten. De auteurs noemen het ’t ‘AI-auteurschapseffect’ – mensen hebben een afkeer van tekst waarvan ze weten dat deze door computers is gegenereerd.
Dat lijkt mij de redding voor de menselijke schrijver. Uiteindelijk lezen we teksten en geen tabellen of lijstjes ruwe feiten omdat we in contact willen staan met andere mensen. Het wordt dus zaak die garantie te bieden. Ik weet weliswaar ook niet hoe dat precies moet – misschien moet er een keurmerk komen. Authenticiteit wordt, zo vermoed ik, voor schrijvers van alle soorten een garantie. De auteur staat op van de doden.
Ik geloof evenmin dat we bang hoeven zijn dat robots mensen worden (de wal zal het schip keren, zegt Maxim Februari heel mooi en afdoend), maar – inderdaad – veeleer dat mensen robots worden. De robot zal de mens scheppen naar zijn evenbeeld.
Sloterdijkiaans: de mens als product van robot technologie, technische oefeningen, zelfconditionering. Er gloort een nieuwe post-humanisme aan wal¿ Dat is het nieuwe keurmerk!
Ik las vorig jaar dit artikel over gen-AI-detectie, met name in de context van assessment in het hoger onderwijs: https://onlinelibrary.wiley.com/doi/full/10.1002/tl.20624.
Er worden enkele principiële problemen geïdentificeerd, met name dat gen-AI-detectie ook een soort wapenwedloop uitlokt. Aangezien een van de doelen van gen-AI is om steeds meer te lijken op menselijke communicatie (althans in dit stadium nog, lijkt me) wordt gen-AI-detectie automatisch tegengewerkt door nieuwe ontwikkelingen. Daarnaast worden er instrumenten en strategieën ontwikkeld om detectie te ontduiken.
Een andere, ethische overweging die ik tegenkwam is een soort ‘doping-effect’: als bepaalde studenten op een gegeven moment door gen-AI met minder inspanning betere resultaten behalen worden degenen die het niet gebruiken benadeeld (althans in de beloning, ik ga even voorbij aan de waardevolle ontwikkeling die je doormaakt als je alles op eigen kracht doet). Dus zullen steeds meer studenten dit gaan gebruiken, waardoor het op een gegeven moment een (gemaskeerde) norm wordt.
Ik ken studenten die AI bewust ‘NIET’ gebruiken. Misschien nu nog niet zichtbaar, maar er staat voor hen, een grote beloning klaar. Het natuurlijk talent, biologisch, evolutionair ontwikkelde kennis maakt AI dankbaar gebruik van. Focus de studenten op de mogelijkheden van evolutionaire biologie van het brein en niet van een machine. Laat ze Sloterdijk lezen. AI stuurt aan op een dichotomie. Niet op een versmelting. Haalt AI de evolutie in¿ Neen…… .
We kennen ook sporters die bewust geen doping gebruiken
Precies. Die zijn beter dan…
Mensen zien volgens mij moeilijk het verschil omdat om taal te begrijpen, er een zekere tolerantie voor afwijkingen bestaat. Iedereen spreekt immers een beetje anders en taal is uiteindelijk een construct dat ontstaat door onderlinge consensus over hoe taal moet worden opgebouwd en toegepast. Dus zelfs een klungelige chatbot zou moeilijk door de mand vallen.
Wat hier ook meespeelt zijn de maximen van Grice: als communicatiedeelnemer ben je sterk geneigd om de taal van de ander als compleet, waarheidsgetrouw, to the point en relevant te beschouwen. Het succes van generatieve AI lijkt me voor een belangrijk deel hieraan te danken. Je denkt dat hij iets bedoelt, maar dat is niet zo.
Dat chatbotteksten “gladder en cliché-matiger” aanvoelen, is ook onvermijdelijk.
Ten eerste zijn ze gemaakt vanuit het idee dat ze geen fouten mogen maken. Het zijn LLM’s: large language models, systemen om perfect taal te produceren. Fouten maken is uit den boze. Vandaar dat ze gladjes aanvoelen.
En natuurlijk is het clichématiger, want in de grond doen ze niets anders dan herhalen wat al is geproduceerd. Alleen gooien ze het al geproduceerde soms op een rare manier door elkaar.
Ik denk niet dat ‘fouten’ een rol spelen. Het is gewoon statistiek, en aangezien wat wij fout noemen minder voorkomt zal het ook minder gegenereerd worden.
“Chatbots schrijven over het algemeen wat formeler en daarnaast zijn ze geneigd wat meer informatie per vierkante centimeter te verwerken”
-> formaler, zelfde redenering als hierboven: ze willen fouten vermijden
-> meer info/cm²: volgens mij klopt dat niet. Teksten van echte mensen komen over het algemeen over alsof ze juist meer info/cm² hebben. Volgens mij wordt het gebruik van veel zn’s hier verward met veel info. In theorie klopt dat misschien wel, maar in werkelijkheid niet.
” mensen hebben een afkeer van tekst waarvan ze weten dat deze door computers is gegenereerd.” -> net zoals mensen een afkeer hebben van menukeuzes waar ze doorheen moeten als ze telefoneren. Zelfde oorzaak: geen mens aan de lijn.
Is er eigenlijk onderzoek gedaan naar de omgekeerde ontwikkeling, namelijk dat mensen gaan schrijven zoals chatbots? Ik kan hier geen foto opladen, maar afgelopen zaterdag las ik in een museum een tekst die evident door AI was geschreven, althans dat dacht ik, maar die toch was van de hand van de conservator.
Kun je hier van niveau spreken, de conservator was geslaagd voor zijn AI-handarbeid.
Dat is scherp opgemerkt, Jona! Het is zeker mogelijk om het taalgebruik van chatbots te imiteren, dat is zelfs niet zo heel moeilijk. Het is ook bekend dat mensen zich in elke communicatie aanpassen aan de ander, dus dat zal in communicatie met chatbots ook gebeuren. Wil je dat ik het verder voor je uitzoek, door bijvoorbeeld een overzicht te geven van de stand van de literatuur, of een voorbeeld te geven van de effecten die dit zou kunnen hebben? Ik denk graag met je mee!
Ik gaf AI vanochtend de opdracht mijn onderschrift bij de tekening te beoordelen en af te kraken. Vervolgens krijg je een vraag op vraag op vraag. Als stijlfiguur¿ Eindeloos en geen natuurlijk antwoord: ik pas, ik ook, ja ik ook en daarna worden de kaarten opnieuw geschud.
Inderdaad een schoolvoorbeeld van een ChatGPT-reactie Peter-Arno!