• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

ChatGPT kijkt het eindexamen na

12 juni 2024 door Marc van Oostendorp 4 Reacties

NASA robot is blij. Foto: Picryl

Vandaag worden de resultaten van de eindexamens bekend. In dat kader vandaag een special van Neerlandistiek over het corrigeren van de eindexamens, waarin auteurs vanuit verschillende kanten belichten hoe het toegaat tijdens de correctie.

Ik weet niet of er docenten zijn die het als een rijk en waardevol onderdeel van hun vak beschouwen om centrale eindexamens na te kijken. Mij lijkt het typisch een taakje om te automatiseren. De vragen hebben een betrekkelijk duidelijk afgebakende verzameling goede antwoorden, die zijn omschreven in een antwoordmodel. Echt een taakje voor een chatbot.

ChatGPT kan het ook al best goed, blijkt uit mijn woensdagochtendexperimentje. Ik liet de bot het eindexamen beoordelen op ongeveer de manier waarop de mensen dat doen, en de uitkomst daarvan is verrassend hetzelfde. De chatbots zijn een klein beetje strenger, maar gemiddeld is de afwijking van de menselijke beoordelaars maar het scheelt maar zo’n 5%. Heel wetenschappelijk heb ik het niet gedaan, maar volgens mij is dit wel iets om eens naar te kijken – hoe lang duurt het nog voor het correctiewerk voor een belangrijk deel – ik neem aan dat er altijd een mens moet zijn die de verantwoordelijkheid neemt –

Van een bevriende docent kreeg ik alle antwoorden die diens (29) eindexamenkandidaten hadden gegeven op vraag 23 van het vwo-examen van dit jaar. Die vraag ging over een verhaaltje van Niña Weijers over vakantiegangers en luidde:

De gasten van nu worden in alinea 5 vergeleken met de gasten van
vroeger.
Leid uit alinea 5 twee overeenkomsten af tussen de gasten van nu en die
van vroeger.

Voor die vraag kon je 0, 1 of 2 punten halen. Het officiële correctiemodel luidt:

maximumscore 2
De kern van een goed antwoord is:
twee van de volgende:

Beide groepen ervaren hun verblijf als een verplichting.
Beide groepen komen voor hun rust. / voor schone lucht/gezondheid.
Beide groepen nemen hun (persoonlijke) problemen mee.
Beide groepen weten niet hoe ze met hun tijd moeten omgaan.
Beide groepen zijn (relatief) rijk/bevoorrecht.

Niet goed:
Beide groepen komen voor hun vakantie/ontspanning.
Beide groepen verblijven hoog op een berg.
Beide groepen menen bij thuiskomst dat alles even anders was.
per juist element 1
Beoordeel de spelling.


Ik had deze vraag uitgekozen omdat ik had begrepen dat veel leerlingen hem lastig vonden. De eindexamenklas haalde er in totaal 26 punten voor, dus gemiddeld iets minder dan 1 punt.

Hier zijn alle antwoorden (ik heb de twee kandidaten weggelaten die helemaal geen antwoord hadden op deze vraag). In het Nederlandse examensysteem kijkt eerst de ‘eigen’ docent de antwoorden na. Zijn beoordelingen staan in de eerste kolom. Daarna kijkt er een leraar van een andere school ook nog eens naar (de ’tweede corrector’). Vervolgens overleggen de correctoren met elkaar als er onenigheid is. In de kolom ‘2e’ staat het punt dat uit deze onderhandelingen kwam. Dat is dus het punt dat door de menselijke beoordelaars aan het antwoord hebben gegeven.

Antwoord1e2eAI1AI2AI3T
1.Beide soorten gasten nemen hun mentale dan wel fysieke problemen mee de berg op en beide ontspannen op een manier die averechts lijkt te werken.2 211 -1
2.Ze hebben allebei veel geld Ze willen allebei actief zijn en zich niet vervelen1 111 0
3.De overeenkomsten tussen de gasten van vroeger en de gasten van nu zijn dat ze allebei skiën en dat ze allebei daar ziek worden.0 000 0
4.overeenkomst 1: mensen nemen nog steeds hun eigen ‘ziekte’ mee overeenkomst 2: mensen zijn nog steeds heel erg bezig met de ‘tijd’ die ze hebben2 222 0
5.Beide op vakantie voor ontspanning Iedereen meent bij thuiskomst dat een week lang alles anders was.0 000 0
6.Beide namen tbc mee naar boven Beide hielden ze eigenlijk geen vakantie1000 0
7.Beide groepen gasten nemen de zwaarte van hun ‘gewone’ leven mee de bergen in. Beide groepen gasten zijn ontevreden met de hoeveelheid tijd die ze er spenderen.2 222 0
8.Beiden nemen iets negatiefs mee. Beiden gaan “haast ten onder” vanwege het tijdsgebruik.2 222 0
9.Ze zijn beide bevoorrecht Beide deden aan veel ontspanning (ze komen er voor de rust)2 222 0
10.Zowel vroeger (door de tbc ziekte) als nu (door aaneenschakeling van wendingen) is er een reden om even aan het dagelijks leven te ontsnappen. De gasten zijn beide welvarend, vroeger verbleven alleen rijke tbc-patiënten in de bergen en nu gasten die zich een ‘dure skipas’ kunnen veroorloven.1 12110
11.Gasten nemen zowel vroeger als nu negatieve dingen mee naar boven. Gasten van zowel vroeger als nu hebben het doel om ontspanning te vinden op vakantie.1 12110
12.Bij thuiskomst zal iedereen menen dat een week lang alles anders was en ontspanning is een plicht.11 00 -1
13.Een overeenkomst is dat de gasten van vroeger iets mee nbaar boven namen en dat nu ook doen en een andere overeenkomst is dat ontspanning voor beide soort gasten belangrijk is.00 211+1
14.Iedereen meens dat een week lang alles anders was bij thuiskomst. Er werd door beide veel ontspannen.0 000 0
15.De gasten die verblijven in de bergen komen daar met een bepaalde ‘negatieve bagage’ en zijn daar (deels) om niks te doen (te ontspannen).212110
16De gasten van nu en van vroeger willen allebei genoeg geskied hebben, in de zon zitten en genoeg slapen. Ook verschilt ontspanning niet en hebben beiden daar behoefte aan.0 01000
17De gasten van nu en vroeger nemen beide onderdelen van hun leven mee naar boven. De gasten van vroeger en nu gaan allebei de berg op om uit te rusten.1 11210
18Beiden vinden dat ontspanning op vakantie belangrijk. Beiden vluchten voor de realiteit thuis.0 02000
19De eerste overeenkomst tussen gasten van nu en die van vroeger is het ontsnappen aan de ‘echte wereld’. Ook is de rust voor de gasten van nu en die van vroeger een belangrijk onderdeel van de vakantie.1 12110
20Beide gasten vinden ontspanning of rust en hebben genoeg vermogen om hun reis te bekostigen.2 222 0
21Beide groepen gasten komen naar de berg met een last. Beide groepen gasten zijn bevoorrecht.22 22 0
22De gasten van vroeger en nu zijn allebei bevoorrecht in hun leven. De gasten van vroeger en nu verbleven allebei in de bergen.1 111 0
23de overeenkomsten tussen de gasten zijn dat vroeg en nu iedereen bij thuiskomst meende dat een een week lang alles anders was0 000 0
24Ze willen allebei zich niet vervelen. Allebei menen ze dat een week lang alles anders was.00 00 0
25Voor beide is ontspanning een plicht en beide gaan op vakantie11 00 -1
26Ze nemen allebei iets mee naar boven op de berg. Ze hebben allebei iets om zich druk over te maken.11 11 0
27Beide gasten gingen naar de berg om tot rust te komen.1 111 0

De drie kolommen met AI1, AI2 en AI3 betreft de scores van chatbots. Ik heb ChatGPT in twee onafhankelijke sessies de antwoorden na laten kijken (en daarbij inzage gegeven in het verhaal van Weijers en het correctiemodel). Daar kwamen de punten uit die nu onder A1 en A2 staan. Dit waren als het ware de eerste en de tweede corrector. Als die het niet eens waren, heb ik een derde, ook weer onafhankelijke, sessie uitgevoerd. Dat is A3. Ik ging er daarbij vanuit dat de meerderheid beslist (in theorie was het mogelijk dat alle drie de chatbots een ander punt gegeven, dan had ik dat gemiddeld tot een 1, maar het is niet gebeurd).

De kolom T geeft het verschil tussen het zo verkregen punt van de chatbots en het punt van de mensen. Dat punt wijkt dus maar vier keer af (drie keer zijn de chatbots strenger, de mensen zijn dat één keer), en dan gaat het steeds slechts om 1 punt verschil. Gemiddeld over alle leerlingen is dat dus 0,1 punt verschil als je het door een computer laat nakijken. Ik weet niet wat het verschil zou zijn als je het examen ook door een ander tweetal docenten laat nakijken, maar mij lijkt het niet zo’n groot verschil.

Het zijn maar weinig data en het is daarmee nog geen bewijs. Je zou het eigenlijk allemaal moeten doen met een grotere verzameling complete door leerlingen gemaakte examens. Maar het zou mij niet verbazen als er binnen een paar jaar een tool is die op zijn minst de tweede corrector vervangt, al is het maar omdat ChatGPT zijn punt over het algemeen goed beargumenteert. Voor de eerste kandidaat (waar de chatbot iets strenger is dan de mensen) kreeg ik in de eerste sessie bijvoorbeeld:

Beoordeling van het antwoord:

  • “Beide soorten gasten nemen hun mentale dan wel fysieke problemen mee de berg op.” Dit komt overeen met: “Beide groepen nemen hun (persoonlijke) problemen mee.” = 1 punt.
  • “Beide ontspannen op een manier die averechts lijkt te werken.” Dit komt niet overeen met een van de correcte elementen in het correctiemodel.

Totaal: 1 punt

En in de tweede sessie was het systeem zelfs nog wat uitgebreider:

Laten we het antwoord van de leerling beoordelen aan de hand van het correctiemodel:

Antwoord van de leerling:

  1. Beide soorten gasten nemen hun mentale dan wel fysieke problemen mee de berg op.
  2. Beide ontspannen op een manier die averechts lijkt te werken.

Beoordeling:

  1. “Beide soorten gasten nemen hun mentale dan wel fysieke problemen mee de berg op.” – Dit komt overeen met het correcte element “Beide groepen nemen hun (persoonlijke) problemen mee.” Dit is dus 1 punt.
  2. “Beide ontspannen op een manier die averechts lijkt te werken.” – Dit komt niet duidelijk overeen met een van de correcte elementen zoals vermeld in het correctiemodel. Het komt dicht in de buurt van het idee dat ze hun verblijf als een verplichting ervaren, maar dit is niet expliciet genoeg geformuleerd om zeker een punt toe te kennen.

Eindscore: 1 punt

Ik kan me voorstellen dat een menselijke beoordelaar dat wel streng vindt (de menselijke corrector gaf aan dat hij ook wel een vraagtekentje bij het tweede puntje had gezet), maar er is voor die strengheid in dit geval ook heus wel wat te zeggen.

Hier zijn pdfs van de 2 sessies met chatbots

A1

AI1Downloaden

A2:

AI2Downloaden

A3:

AI3Downloaden

Met dank aan Lukas Meijsen

Delen:

  • Klik om af te drukken (Wordt in een nieuw venster geopend) Print
  • Klik om dit te e-mailen naar een vriend (Wordt in een nieuw venster geopend) E-mail
  • Klik om te delen op Facebook (Wordt in een nieuw venster geopend) Facebook
  • Klik om te delen op WhatsApp (Wordt in een nieuw venster geopend) WhatsApp
  • Klik om te delen op Telegram (Wordt in een nieuw venster geopend) Telegram
  • Klik om op LinkedIn te delen (Wordt in een nieuw venster geopend) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel, Neerlandistiek voor de klas, Uitgelicht Tags: eindexamens

Lees Interacties

Reacties

  1. Jelke zegt

    12 juni 2024 om 13:22

    Leuk idee, maar volgens mij is het niet de bedoeling om geschreven werk van kandidaten zonder hun toestemming aan OpenAI te overhandigen.

    Beantwoorden
    • Marc van Oostendorp zegt

      12 juni 2024 om 15:35

      Dat is waarom van iedere kandidaat slechts 1 antwoord gebruikt is.

      Beantwoorden
  2. Jona Lendering zegt

    12 juni 2024 om 21:59

    Wat een leuk idee om dat zo eens te doen!

    Beantwoorden
  3. Middelburg zegt

    14 juni 2024 om 00:13

    Zeker interessant, boeiend geschreven ook. Mooi artikel
    Afkomstig van een VWO’er die gisteren te horen heeft gekregen dat hij geslaagd is.

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Jacob Winkler Prins • Volle maan

Visschermeisjes waden langzaam mee:
Voeten scheemren onder donkere rokken
En weerspieglen in de blanke ree!

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

NON VOYAGE

Het vermoeiende van reizen is het verdringen van het meemaken.

Bron: Barbarber, december 1971

➔ Bekijk hier alle citaten

Agenda

Een rijk leven: afscheidsrede Johan Koppenol, VU Amsterdam

Een rijk leven: afscheidsrede Johan Koppenol, VU Amsterdam

17 juni 2025

➔ Lees meer
3 juli 2025: afscheidssymposium Johan Koppenol

3 juli 2025: afscheidssymposium Johan Koppenol

17 juni 2025

➔ Lees meer
10 oktober 2025: De dag van de biografie 

10 oktober 2025: De dag van de biografie 

17 juni 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

sterfdag
1962 Joseph Endepols
➔ Neerlandicikalender

Media

De internationale positie van het Engels

De internationale positie van het Engels

14 juni 2025 Door Marc van Oostendorp Reageer

➔ Lees meer
Inspiratiesessies in het Universitair Museum Utrecht

Inspiratiesessies in het Universitair Museum Utrecht

11 juni 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
De Inktpodcast 29: Muziek voor tekst deel I

De Inktpodcast 29: Muziek voor tekst deel I

10 juni 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d