ChatGPT kijkt het eindexamen na

Vandaag worden de resultaten van de eindexamens bekend. In dat kader vandaag een special van Neerlandistiek over het corrigeren van de eindexamens, waarin auteurs vanuit verschillende kanten belichten hoe het toegaat tijdens de correctie.

Ik weet niet of er docenten zijn die het als een rijk en waardevol onderdeel van hun vak beschouwen om centrale eindexamens na te kijken. Mij lijkt het typisch een taakje om te automatiseren. De vragen hebben een betrekkelijk duidelijk afgebakende verzameling goede antwoorden, die zijn omschreven in een antwoordmodel. Echt een taakje voor een chatbot.

ChatGPT kan het ook al best goed, blijkt uit mijn woensdagochtendexperimentje. Ik liet de bot het eindexamen beoordelen op ongeveer de manier waarop de mensen dat doen, en de uitkomst daarvan is verrassend hetzelfde. De chatbots zijn een klein beetje strenger, maar gemiddeld is de afwijking van de menselijke beoordelaars maar het scheelt maar zo’n 5%. Heel wetenschappelijk heb ik het niet gedaan, maar volgens mij is dit wel iets om eens naar te kijken – hoe lang duurt het nog voor het correctiewerk voor een belangrijk deel – ik neem aan dat er altijd een mens moet zijn die de verantwoordelijkheid neemt –

Van een bevriende docent kreeg ik alle antwoorden die diens (29) eindexamenkandidaten hadden gegeven op vraag 23 van het vwo-examen van dit jaar. Die vraag ging over een verhaaltje van Niña Weijers over vakantiegangers en luidde:

De gasten van nu worden in alinea 5 vergeleken met de gasten van
vroeger.
Leid uit alinea 5 twee overeenkomsten af tussen de gasten van nu en die
van vroeger.

Voor die vraag kon je 0, 1 of 2 punten halen. Het officiële correctiemodel luidt:

maximumscore 2
De kern van een goed antwoord is:
twee van de volgende:

Beide groepen ervaren hun verblijf als een verplichting.
Beide groepen komen voor hun rust. / voor schone lucht/gezondheid.
Beide groepen nemen hun (persoonlijke) problemen mee.
Beide groepen weten niet hoe ze met hun tijd moeten omgaan.
Beide groepen zijn (relatief) rijk/bevoorrecht.

Niet goed:
Beide groepen komen voor hun vakantie/ontspanning.
Beide groepen verblijven hoog op een berg.
Beide groepen menen bij thuiskomst dat alles even anders was.
per juist element 1
Beoordeel de spelling.

Ik had deze vraag uitgekozen omdat ik had begrepen dat veel leerlingen hem lastig vonden. De eindexamenklas haalde er in totaal 26 punten voor, dus gemiddeld iets minder dan 1 punt.

Hier zijn alle antwoorden (ik heb de twee kandidaten weggelaten die helemaal geen antwoord hadden op deze vraag). In het Nederlandse examensysteem kijkt eerst de ‘eigen’ docent de antwoorden na. Zijn beoordelingen staan in de eerste kolom. Daarna kijkt er een leraar van een andere school ook nog eens naar (de ’tweede corrector’). Vervolgens overleggen de correctoren met elkaar als er onenigheid is. In de kolom ‘2e’ staat het punt dat uit deze onderhandelingen kwam. Dat is dus het punt dat door de menselijke beoordelaars aan het antwoord hebben gegeven.

	Antwoord	1^e	2^e	AI1	AI2	AI3	T
1.	Beide soorten gasten nemen hun mentale dan wel fysieke problemen mee de berg op en beide ontspannen op een manier die averechts lijkt te werken.	2	2	1	1		-1
2.	Ze hebben allebei veel geld Ze willen allebei actief zijn en zich niet vervelen	1	1	1	1		0
3.	De overeenkomsten tussen de gasten van vroeger en de gasten van nu zijn dat ze allebei skiën en dat ze allebei daar ziek worden.	0	0	0	0		0
4.	overeenkomst 1: mensen nemen nog steeds hun eigen ‘ziekte’ mee overeenkomst 2: mensen zijn nog steeds heel erg bezig met de ‘tijd’ die ze hebben	2	2	2	2		0
5.	Beide op vakantie voor ontspanning Iedereen meent bij thuiskomst dat een week lang alles anders was.	0	0	0	0		0
6.	Beide namen tbc mee naar boven Beide hielden ze eigenlijk geen vakantie	1	0	0	0		0
7.	Beide groepen gasten nemen de zwaarte van hun ‘gewone’ leven mee de bergen in. Beide groepen gasten zijn ontevreden met de hoeveelheid tijd die ze er spenderen.	2	2	2	2		0
8.	Beiden nemen iets negatiefs mee. Beiden gaan “haast ten onder” vanwege het tijdsgebruik.	2	2	2	2		0
9.	Ze zijn beide bevoorrecht Beide deden aan veel ontspanning (ze komen er voor de rust)	2	2	2	2		0
10.	Zowel vroeger (door de tbc ziekte) als nu (door aaneenschakeling van wendingen) is er een reden om even aan het dagelijks leven te ontsnappen. De gasten zijn beide welvarend, vroeger verbleven alleen rijke tbc-patiënten in de bergen en nu gasten die zich een ‘dure skipas’ kunnen veroorloven.	1	1	2	1	1	0
11.	Gasten nemen zowel vroeger als nu negatieve dingen mee naar boven. Gasten van zowel vroeger als nu hebben het doel om ontspanning te vinden op vakantie.	1	1	2	1	1	0
12.	Bij thuiskomst zal iedereen menen dat een week lang alles anders was en ontspanning is een plicht.	1	1	0	0		-1
13.	Een overeenkomst is dat de gasten van vroeger iets mee nbaar boven namen en dat nu ook doen en een andere overeenkomst is dat ontspanning voor beide soort gasten belangrijk is.	0	0	2	1	1	+1
14.	Iedereen meens dat een week lang alles anders was bij thuiskomst. Er werd door beide veel ontspannen.	0	0	0	0		0
15.	De gasten die verblijven in de bergen komen daar met een bepaalde ‘negatieve bagage’ en zijn daar (deels) om niks te doen (te ontspannen).	2	1	2	1	1	0
16	De gasten van nu en van vroeger willen allebei genoeg geskied hebben, in de zon zitten en genoeg slapen. Ook verschilt ontspanning niet en hebben beiden daar behoefte aan.	0	0	1	0	0	0
17	De gasten van nu en vroeger nemen beide onderdelen van hun leven mee naar boven. De gasten van vroeger en nu gaan allebei de berg op om uit te rusten.	1	1	1	2	1	0
18	Beiden vinden dat ontspanning op vakantie belangrijk. Beiden vluchten voor de realiteit thuis.	0	0	2	0	0	0
19	De eerste overeenkomst tussen gasten van nu en die van vroeger is het ontsnappen aan de ‘echte wereld’. Ook is de rust voor de gasten van nu en die van vroeger een belangrijk onderdeel van de vakantie.	1	1	2	1	1	0
20	Beide gasten vinden ontspanning of rust en hebben genoeg vermogen om hun reis te bekostigen.	2	2	2	2		0
21	Beide groepen gasten komen naar de berg met een last. Beide groepen gasten zijn bevoorrecht.	2	2	2	2		0
22	De gasten van vroeger en nu zijn allebei bevoorrecht in hun leven. De gasten van vroeger en nu verbleven allebei in de bergen.	1	1	1	1		0
23	de overeenkomsten tussen de gasten zijn dat vroeg en nu iedereen bij thuiskomst meende dat een een week lang alles anders was	0	0	0	0		0
24	Ze willen allebei zich niet vervelen. Allebei menen ze dat een week lang alles anders was.	0	0	0	0		0
25	Voor beide is ontspanning een plicht en beide gaan op vakantie	1	1	0	0		-1
26	Ze nemen allebei iets mee naar boven op de berg. Ze hebben allebei iets om zich druk over te maken.	1	1	1	1		0
27	Beide gasten gingen naar de berg om tot rust te komen.	1	1	1	1		0

De drie kolommen met AI1, AI2 en AI3 betreft de scores van chatbots. Ik heb ChatGPT in twee onafhankelijke sessies de antwoorden na laten kijken (en daarbij inzage gegeven in het verhaal van Weijers en het correctiemodel). Daar kwamen de punten uit die nu onder A1 en A2 staan. Dit waren als het ware de eerste en de tweede corrector. Als die het niet eens waren, heb ik een derde, ook weer onafhankelijke, sessie uitgevoerd. Dat is A3. Ik ging er daarbij vanuit dat de meerderheid beslist (in theorie was het mogelijk dat alle drie de chatbots een ander punt gegeven, dan had ik dat gemiddeld tot een 1, maar het is niet gebeurd).

De kolom T geeft het verschil tussen het zo verkregen punt van de chatbots en het punt van de mensen. Dat punt wijkt dus maar vier keer af (drie keer zijn de chatbots strenger, de mensen zijn dat één keer), en dan gaat het steeds slechts om 1 punt verschil. Gemiddeld over alle leerlingen is dat dus 0,1 punt verschil als je het door een computer laat nakijken. Ik weet niet wat het verschil zou zijn als je het examen ook door een ander tweetal docenten laat nakijken, maar mij lijkt het niet zo’n groot verschil.

Het zijn maar weinig data en het is daarmee nog geen bewijs. Je zou het eigenlijk allemaal moeten doen met een grotere verzameling complete door leerlingen gemaakte examens. Maar het zou mij niet verbazen als er binnen een paar jaar een tool is die op zijn minst de tweede corrector vervangt, al is het maar omdat ChatGPT zijn punt over het algemeen goed beargumenteert. Voor de eerste kandidaat (waar de chatbot iets strenger is dan de mensen) kreeg ik in de eerste sessie bijvoorbeeld:

Beoordeling van het antwoord:

“Beide soorten gasten nemen hun mentale dan wel fysieke problemen mee de berg op.” Dit komt overeen met: “Beide groepen nemen hun (persoonlijke) problemen mee.” = 1 punt.
“Beide ontspannen op een manier die averechts lijkt te werken.” Dit komt niet overeen met een van de correcte elementen in het correctiemodel.

Totaal: 1 punt

En in de tweede sessie was het systeem zelfs nog wat uitgebreider:

Laten we het antwoord van de leerling beoordelen aan de hand van het correctiemodel:

Antwoord van de leerling:

Beide soorten gasten nemen hun mentale dan wel fysieke problemen mee de berg op.
Beide ontspannen op een manier die averechts lijkt te werken.

Beoordeling:

“Beide soorten gasten nemen hun mentale dan wel fysieke problemen mee de berg op.” – Dit komt overeen met het correcte element “Beide groepen nemen hun (persoonlijke) problemen mee.” Dit is dus 1 punt.
“Beide ontspannen op een manier die averechts lijkt te werken.” – Dit komt niet duidelijk overeen met een van de correcte elementen zoals vermeld in het correctiemodel. Het komt dicht in de buurt van het idee dat ze hun verblijf als een verplichting ervaren, maar dit is niet expliciet genoeg geformuleerd om zeker een punt toe te kennen.

Eindscore: 1 punt

Ik kan me voorstellen dat een menselijke beoordelaar dat wel streng vindt (de menselijke corrector gaf aan dat hij ook wel een vraagtekentje bij het tweede puntje had gezet), maar er is voor die strengheid in dit geval ook heus wel wat te zeggen.

Hier zijn pdfs van de 2 sessies met chatbots

AI1 Downloaden

A2:

AI2 Downloaden

A3:

AI3 Downloaden

Met dank aan Lukas Meijsen

Gerelateerd

Reacties

Jelke zegt

12 juni 2024 om 13:22

Leuk idee, maar volgens mij is het niet de bedoeling om geschreven werk van kandidaten zonder hun toestemming aan OpenAI te overhandigen.

Beantwoorden
- Marc van Oostendorp zegt
  
  12 juni 2024 om 15:35
  
  Dat is waarom van iedere kandidaat slechts 1 antwoord gebruikt is.
  
  Beantwoorden
Jona Lendering zegt

12 juni 2024 om 21:59

Wat een leuk idee om dat zo eens te doen!

Beantwoorden
Middelburg zegt

14 juni 2024 om 00:13

Zeker interessant, boeiend geschreven ook. Mooi artikel
Afkomstig van een VWO’er die gisteren te horen heeft gekregen dat hij geslaagd is.

Beantwoorden