Waarheid voor chatbots

Wat is onwaar? De komst van chatbots heeft weer een nieuwe draai gegeven aan die vraag. Het is inmiddels vermoedelijk algemeen bekend dat chatbots niet altijd de waarheid zeggen. Maar wat is dat dan voor onwaarheid? Het is bijvoorbeeld geen leugen, aangezien een leugen altijd een intentie tot misleiden vereist, iets wat (vermoedelijk) afwezig is bij chatbots. We noemen het daarom vaak hallucinatie, al is ook dat een niet helemaal geschikte term, bijvoorbeeld omdat hij veronderstelt dat er voor de chatbot een verschil is tussen wakend en dromend denken, maar voor die chatbots is het (vermoedelijk) allemaal hetzelfde.

Voor zover we chatbots begrijpen, hebben ze helemaal geen notie van waarheid – of iets waar is of onwaar, speelt geen rol in hun overwegingen om iets te zeggen, andere criteria (hoevaak komen woorden in elkaars omgeving voor) zijn daarin veel belangrijker. Vandaar dat bots moeite hebben met het woord niet: de zin hij komt niet heeft ongeveer dezelfde plausibiliteit als hij komt.

Waterdruppels

Alleen willen menselijke gebruikers wel iets anders. ChatGPT is inmiddels bijna anderhalf jaar beschikbaar, en nog steeds vind je op sociale media mensen die geamuseerd of verontwaardigd voorbeelden geven van onzinnige chatbotantwoorden op zinnige vragen.

Een begrip van waarheid inbouwen in die chatbots staat daarom waarschijnlijk hoog op het lijstje van ontwikkelaars. Daarvoor is dan weer een goed criterium nodig om hallucinaties te classificeren. In het tijdschrift Computational linguistics komt Kees van Deemter met een oplossing: de klassieke logica. Dat is een vak dat al duizenden jaren nadenkt over wat een bewering wel of niet waar maakt, en Van Deemter zegt dat die hier ook al iets over kan zeggen.

Een belangrijk begrip in de logica is ‘volgen uit’. Uit de bewering dat Marie zingt volgt dat Marie geluid maakt, maar het omgekeerde is niet waar: uit de bewering dat Marie geluid maakt volgt niet noodzakelijkerwijs dat ze ook zingt. Soms volgen twee beweringen wel uit elkaar dan zijn ze equivalent: uit de bewering dat het regent volgt dat er waterdruppels uit de hemel vallen, en het omgekeerde is ook waar.

Omissies

Dit begrip ‘volgen uit’ zou je ook kunnen gebruiken voor hallucinaties, zegt Van Deemter. Stel dat je weet dat de volgende drie zaken feiten zijn over Panuozzo:

Panuozzo is Italiaans en
Panuozzo is een restaurant en
de prijzen bij Panuozzo zijn laag

Verschillende chatbots wordt nu gevraagd iets te zeggen over Panuozzo. Dan kunnen zich onder andere de volgende beweringen voordoen:

Panuozzo is een betaalbaar Italiaans restaurant. [waar]
Panuozzo is een betaalbaar restaurant [weglating]
Panuozzo is een betaalbaar veganistisch Italiaans restaurant [toevoeging]

In het laatste geval zouden we zeggen dat de chatbot hallucineert: hij voegt iets toe aan de mededeling dat niet correspondeert met de bekende waarheid. Maar wat nu over de volgende mededeling:

Panuozzo is een betaalbaar Frans restaurant.

Je zou kunnen zeggen dat hier zowel een feit wordt weggelaten (dat het een Italiaans restaurant is) als wordt toegevoegd (dat het een Frans restaurant) zou zijn. Dit soort betrekkelijk eenvoudige bewerkingen maken het mogelijk om de afwijkingen van de waarheid, en dus de mate waarin een systeem hallucineert, te kwantificeren (‘een duur Frans restaurant’ zijn twee afwijkingen en ‘een duur veganistisch Italiaans restaurant’ is er één). In ieder geval in principe, want in werkelijkheid is de verzameling dingen die mogelijk wel of niet waar zijn over Panuozzo natuurlijk veel groter dan drie (het is gevestigd in Utrecht, het heeft zelfs twee vestigingen, er staan allerlei dingen op de menukaart die je kunt opsommen, enzovoort), dus met name het aantal omissies is in een willekeurige mededeling al snel heel groot.

Output

Zoals omgekeerd er natuurlijk feiten zijn die soms volgen uit elkaar. Als we weten dat Panuozzo een Italiaans restaurant is, weten we ook dat het een Mediterraan restaurant is. Dat te beweren is dus geen halucinatie maar met de mededeling ‘Panuozzo is een betaalbaar Mediterraans Italiaans restaurant’ is wel weer iets anders mis: redundantie.

We zijn er nog lang niet uit, maar het is interessant dat ook een van de oudste disciplines ter wereld – die van de logica – nog wat te zeggen heeft bij de beoordeling van de output van chatbots.

Gerelateerd

Reacties

Frits zegt

26 februari 2024 om 11:39

De logica helpt niet bij het vinden van de waarheid, maar is een methode om te bepalen of een conclusie uit een stelling en een constatering geldig is. Zijn de premissen onwaar, dan kan de logica niettemin leiden tot een geldige conclusie, die echter even onwaar is als de premissen.
Een voorbeeld:
Stelling: Als het sneeuwt worden de straten wit.
Constatering: Het sneeuwt.
Conclusie: De straten worden wit.
Die conclusie is geldig, want zij volgt uit de premissen.

Een ander voorbeeld:
Stelling: Als het sneeuwt worden de straten groen.
Constatering: Het sneeuwt.
Conclusie: De straten worden groen.
Ook deze conclusie is geldig, want zij volgt uit de premissen. Ze is niettemin onwaar, omdat de premisse “Als het sneeuwt worden de straten groen” onwaar is. Maar dat laatste vertelt de logica ons niet.

Beantwoorden