
In de afgelopen jaren heeft het woord hallucineren een nieuwe betekenis gekregen. Van Dale heeft nu alleen nog de oude betekenis, ‘hallucinaties hebben’, waarbij ‘hallucinaties’ betekent ‘waarneming (m.n. met het gezicht of gehoor) van in werkelijkheid niet voorhanden verschijnselen’. Maar inmiddels is er een vorm van hallucineren waaraan geen hallucinaties te pas komen: het hallucineren dat grote taalmodellen doen.
Iedereen die weleens met die apparaten heeft gespeeld, weet dat ze soms met grote stelligheid de grootst mogelijke onzin kunnen beweren. “Pino is de huidige gouverneur van Limburg, nadat hij in 2023 voor die baan werd uitgekozen”, dat soort werk. Dat is geen hallucinatie van dat taalmodel – dat heeft geen gezicht, geen gehoor en in het algemeen geen enkele manier om waar te nemen wat er in werkelijkheid voorhanden is. Ze hebben helemaal geen relatie met de werkelijkheid, maar zijn meesters in het produceren van waarschijnlijke zinnen als vervolg op wat er eerder is gezegd. Als ze zo getraind zijn dat op een vraag altijd een antwoord komt, geven ze dus een plausibel antwoord. Of dat antwoord fout (‘gehallucineerd’) of goed is, interesseert ze helemaal niet.
Dezelfde noemer
Er bestaat een andere, betere, technische term voor dit gedrag: bullshit, praten zonder aandacht voor de vraag of wat je zegt, wel of niet waar is, maar alleen met de bedoeling om een bepaald beeld op te roepen. In die zin is het wat anders dan liegen, dat nog wel een zekere aandacht voor de waarheid oproept, zij het dat je die waarheid verdraait. Menselijke bullshitters zijn gewoon helemaal niet geïnteresseerd in de waarheid. Net zo min als grotetaalmodellen. (Al hebben die grote taalmodellen ook niet de bedoeling om wat voor beeld van zichzelf op te roepen – ze zijn alleen maar getraind om het zo te doen.)
Interessant genoeg lijkt er langzamerhand een wetenschapje te ontstaan dat hallucination research heet, en dat gaat over het hallucineren van grote taalmodellen. Ik las er een recent artikel over in het vakblad Computational Linguistics. De auteurs maken verschil tussen drie soorten hallucinaties. De eerste is de hallucinatie over feiten, zoals dat over Pino: het klopt niet met de werkelijkheid. Een tweede soort is hallucinatie over de input: je vraagt een lunchrecept, maar het systeem antwoordt ‘Pizza is heel lekker om ’s avonds klaar te maken’. De derde is hallucinatie over de context: als je je chatbot lang genoeg aan de praat houdt, weet het op een bepaald moment niet meer wat het eerder heeft gezegd en begint over iets anders.
Met andere woorden: in deze nieuwe hallucinatiewetenschap geldt ieder fout of ongepast antwoord als een hallucinatie. Ik ben natuurlijk geen expert op dit gebied, maar vraag me dan wel af of het zin heeft die verschillende vormen van gedrag allemaal onder dezelfde noemer te vangen.
Introspectie
De auteurs noemen ook verschillende oorzaken voor hallucinaties. Het is natuurlijk mogelijk dat het juiste antwoord op de vraag niet in de teksten zat waarop de chatbot is getraind, of dat er veel vaker een verkeerd antwoord in zat dan een goed antwoord. Het kan er ook aan liggen dat na die training op teksten er ook nog een training is waarbij (vaak zwaar onderbetaalde) mensen antwoorden moeten beoordelen en de machine daarvan leert wat wenselijke antwoorden zijn; mogelijk speelt waarheidsgetrouwheid daarbij vaak een minder grote rol dan of de menselijke beoordelaar blij wordt van het antwoord. En dan is er nog de kwestie dat de chatbots waarmee we werken nu eenmaal niet alles onthouden.
Is een niet-hallucinerend model mogelijk? De auteurs zijn heel optimistisch: als we de machines bijvoorbeeld leren om vaker ‘ik weet het niet’ te zeggen, is er al heel wat opgelost. Ik vraag me daarbij dan wel af wat zo’n stap dan betekent: ‘ik weet het niet’ suggereert een vorm van introspectie die zo’n taalmodel helemaal niet heeft. Het simuleert dan introspectie – want het blijft uiteindelijk een bullshit-machine.
Laat een reactie achter