Chatbot fraudeert bij het eindexamen Fries

Nadat ik eerder de eindexamens Nederlands (havo en vwo) en vwo-Frans door chatbots heb laten maken – voor beide slaagden de chatbots ruimschoots – leek het me interessant om het ook nog eens met Fries te doen. Voor Fries is er veel minder elektronisch leesbaar materiaal voorhanden, en aangezien kunstmatige intelligentie afhankelijk is van heel veel voorbeelden, is te voorspellen dat dit type examen veel moeilijker zal blijken te zijn.

Dat kwam uit. ChatGPT wist met het examen niets te beginnen, ook na enkele pogingen kreeg ik er niet het begin van een antwoord uit. Ze begreep niet eens dat de vragen die ik stelde gingen over de tekst die ik eerder had gegeven, en klaagde dat ze niet begreep over welke tekst ik het had. Bij Nederlands en Frans was dat allemaal geen probleem geweest. ChatGPT is aldus gezakt met een 1.

Bing, de chatbot van Microsoft (ook gebaseerd op GPT4), deed het op het gezicht ietsjes beter, maar haalde ook duidelijk een onvoldoende (18 van de 48 te behalen punten). Bovendien vertoonde het heel bizar, en frauduleus gedrag. Vragen en correctiemodel voor het eindexamen zijn hier te vinden.

Er waren 39 vragen. Omdat je aan Bing maar 20 vragen per sessie mag stellen en omdat ik de teksten apart invoerde – dat telt ook als vraag – en af en toe tussendoor een extra aanwijzing bleek te moeten geven over in welke taal Bing moest communiceren, waren er 3 verschillende sessies nodig.

In alle drie de sessies bleek Bing een andere taal te gebruiken: in de eerste wilde hij, ondanks mijn extra aanwijzingen, alleen Engels gebruiken omdat hij beweerde dat hij geen Fries kan schrijven. In de tweede deed hij ineens alles wel in het Fries. En in de derde gebruikte hij juist Nederlands. (Overigens heb ik de antwoorden steeds goedgerekend naar de inhoud en niet naar de gebruikte taal; als ik daar wel rekening mee had gehouden was het punt nog veel lager geworden.

Dan de fraude: in het Engelstalige gedeelte gaf hij zelf voortdurend toe dat hij Google Translate gebruikte om het Fries naar het Engels te vertalen en dan zo tot de antwoorden te komen, In dit gedeelte ging overigens, enigszins voorspelbaar, het meeste fout. Toen hij eenmaal in Friestalige modus stond, ging het allemaal een stuk beter, al weet ik niet zeker of hij in dit deel wel een voldoende zou hebben gehaald.

Maar dan het Nederlandse gedeelte! Hier ging van alles mis. In de eerste plaats bleek dat ook hier stiekem gewerkt werd met vertalingen in het Engels. Waar in tekst 2 sprake is van te fjochtsjen, te ferstiivjen of út te naaien blijkt dat in het antwoord ineens te gaan over ‘fight, freeze of flight’.

Maar ernstiger nog is dat Bing – op zich goudeerlijk – haar bronnen noemt, en bij het Nederlandse deel van het examen blijkt een van die bronnen ineens te zijn examenblad.nl. Bovendien zegt ze steeds bij haar antwoorden dat deze gebaseerd zijn op ‘web zoekresultaten’. Maar Examenblad is de site waar het examen op staat – én het correctiemodel! Ja, zo kan ik het examen ook maken (overigens doet Bing het ook ondanks dit afkijken nog steeds niet heel erg goed).

Grappig is dat ook de DBNL als bron wordt genoemd, misschien omdat de eerste tekst ging over Friese literatuur, en daar besteedt de DBNL natuurlijk ook aandacht aan.

Het doet natuurlijk wel de vraag rijzen in hoeverre ook bij eerdere geslaagde examens al gebruik is gemaakt van die antwoordmodellen. ChatGPT schijnt niet op internet te kunnen kijken. In ieder geval beweren de makers dat, maar kunnen we daarop vertrouwen en geldt dat voor Bing ook?

Centraal-eindexamen-Fries-vwo-2023-eerste-termijn Downloaden