Hoe goed is ChatGPT nu echt met taal? De ultieme test, zou je kunnen zeggen, is het centrale vwo-eindexamen Nederlands, zoals dat gisteren bij enkele tienduizenden leerlingen is afgenomen. Dat examen bestaat zoals bekend uit een aantal opiniërende teksten uit kranten en tijdschriften en vragen waarmee het begrip van die teksten wordt getoetst. Ik heb de teksten ingevoerd en de vragen vervolgens aan ChatGPT gesteld. De antwoorden staan onderaan dit artikel, ik heb ze steeds zo goed mogelijk getoetst aan het officiële antwoordmodel. Teksten, vragen en het officiële correctiemodel staan hier.
We weten nog niet wat de zogeheten N-term voor dit examen wordt, zodat ik nog geen punt kan geven. Maar ChatGPT haalde 33 van de 60 punten, wat wil zeggen dat ze waarschijnlijk gezakt is. Maar ook: dat ze maar op het nippertje gezakt is, ze heeft geen vreselijke onvoldoende gehaald.
Bovendien heeft ze een aantal cruciale punten gemist doordat ze de structuur van het examen niet goed begreep. ChatGPT kan nog geen pdf’s lezen, dus heb ik handmatig de te lezen artikelen omgezet naar een voor de computer leesbaar formaat. Daarbij heb ik de regelnummers verwijderd, en die informatie ontbrak. Bovendien worden in het eindexamen de alinea’s genummerd als ‘(1)’, ‘(2)’, enzovoort, en ik heb niet de indruk dat ChatGPT dat heeft opgepikt. Bovendien raakte het in de war met aanduidingen als ‘Tekst 1’ en ‘Tekst 2’, vooral toen er ineens ook sprake was van een ‘Tekstfragment 1’. Op het gebrek aan examenvaardigheid heeft het systeem meer gemist dan aan het gebrek aan leesvaardigheid. Ik zou niet verbaasd zijn dat het systeem, als het getraind zou worden op voldoende oude examens zoals scholieren dat ook zijn, moeiteloos een voldoende had gehaald.
Ik ben in mijn beoordeling ook op een paar details wat toegeeflijk geweest, die ook te maken hadden met taalvaardigheid. Zo vindt ChatGPT het altijd nodig om antwoorden toe te lichten, ook al is dat bij multiple choice-vragen niet de bedoeling. In vraag 25 is de vorm van het antwoord denk ik ook verkeerd, al is het heel duidelijk en het antwoord zelf juist.
Sowieso zijn er best veel antwoorden die verbazingwekkend goed zijn.
Het zou aardig zijn als wat collega’s in het voortgezet onderwijs de onderstaande antwoorden ook zouden kunnen bekijken, want ik ken de correctiepraktijk niet van nabij. Ben ik te streng of te toegeeflijk geweest? Hoe dan ook is het moment misschien niet ver meer dat kunstmatige intelligentie met vlag en wimpel het examen haalt.
Op 19 mei maakte ik ook het havo-examen. Daarvoor slaagde ChatGPT mogelijk wel.
De antwoorden van ChatGPT
- De impliciete kritiek in de vraag is vooral gericht op het gegeven dat toeristen op de paradijselijke Malediven voedsel eten dat niet voorhanden is op de eilanden zelf. Dit wordt geïllustreerd met het voorbeeld van de kogelvis die moet worden ingevlogen, omdat er geen lokale bronnen zijn om deze te bereiden. Hieruit kan worden afgeleid dat het voedselaanbod voor toeristen op de Malediven vaak overdreven luxe en niet lokaal beschikbaar is, wat een vorm van consumptie is die niet in lijn ligt met de realiteit van de eilandbewoners en de ecologische duurzaamheid van de regio. Daarom is het antwoord A: een overdreven luxe.
1 pt
- Ook al voorspelden klimaatsceptici dat de Malediven op den duur zouden verdwijnen, toch zijn er een goede negentig eilanden verdwenen. Hieruit kan worden afgeleid dat de klimaatsceptici ongelijk hebben: het verdwijnen van deze eilanden laat zien dat de dreiging van klimaatverandering reëel is en dat de gevolgen ervan zich al manifesteren.
1 pt
- Het kernprobleem dat wordt aangeduid in de genoemde citaatregels is het dilemma dat de Malediven geconfronteerd worden met de paradoxale situatie waarin ze economisch afhankelijk zijn van toerisme, dat tegelijkertijd bijdraagt aan de bedreiging van hun voortbestaan door klimaatverandering.
2 pt
- Volgens tekst 1 wordt gesuggereerd dat de bedoeling van de Lonely Planet met dergelijke uitspraken is om de aantrekkelijkheid van de Malediven als exotische vakantiebestemming te benadrukken. De beschrijvingen van “de wereld op een eiland” dienen om de unieke schoonheid, rust en exclusiviteit van de Malediven te benadrukken en potentiële toeristen aan te trekken.
1
- Volgens tekst 1 kunnen we ons momenteel alleen het einde van de Malediven voorstellen omdat het huidige kapitalisme als het enige levensvatbare economische model wordt gezien, waardoor er geen alternatieve realiteit lijkt te bestaan buiten het voortzetten van destructieve consumptiepatronen.
1
- Volgens de tekst ligt aan de ene kant van “de grens van onze verbeelding” het einde van de Malediven, waarvan we ons momenteel kunnen voorstellen. Aan de andere kant van deze grens ligt de mogelijkheid van alternatieven en oplossingen voor de problemen waarmee de Malediven worden geconfronteerd, die momenteel buiten ons voorstellingsvermogen vallen.
0
- Het begrip “capitalist realism” (regel 180) verklaart waarom het gebrek aan alternatieven “ogenschijnlijk” is. Volgens dit concept wordt het kapitalisme als het enige levensvatbare economische model gezien, waardoor er geen andere realiteit lijkt te bestaan en alternatieven buiten ons voorstellingsvermogen vallen.
1
- De hoofdgedachte van tekst 1 is: “Hoewel de ondergang van de Malediven door de gevolgen van kapitalistisch toerisme betreurenswaardig is, veranderen we ons toeristische gedrag niet.” Dit komt overeen met antwoordoptie B.
1
- Argument 1: CO2 compenseren kan niet.
Tegenargument uit alinea 2-7: Er wordt gesteld dat er al veel gedaan wordt om de complete CO2-uitstoot van reizen te compenseren door middel van investeringen in duurzame energieprojecten, zoals energiezuinige kooktoestellen en bosbescherming.
Argument 2: Het reizen met vliegtuigen veroorzaakt grote schade.
Tegenargument uit alinea 2-7: Er wordt benadrukt dat de sociale impact van reizen net zo zwaar moet wegen als CO2, aangezien reizen kan bijdragen aan onderling begrip en het voorkomen van oorlogen en culturele kloven.
Argument 3: Er is geen noemenswaardig alternatief.
Tegenargument uit alinea 2-7: Er wordt opgemerkt dat hoewel het beter zou zijn om helemaal niet te vliegen, dit niet als realistische of verstandige optie wordt gezien vanwege de positieve sociale gevolgen van reizen, zoals economische voordelen en onderling begrip tussen culturen. Daarnaast worden suggesties gedaan om de reisindustrie te verduurzamen en te investeren in duurzame innovaties, zoals schonere vliegtuigen en biobrandstof.
3
- De redenering in alinea 4 kan als volgt worden weergegeven:
Standpunt: Het zou beter zijn voor het klimaat om helemaal niet te vliegen.
Argument: Vliegen heeft echter ook positieve sociale gevolgen die net zo belangrijk zijn, zoals economische voordelen en onderling begrip tussen culturen.
De redenering in deze alinea stelt dat hoewel het vermijden van vliegen gunstig zou zijn voor het klimaat, de positieve sociale gevolgen van vliegen ook in overweging moeten worden genomen.
0
- De impliciete redenering in het tekstgedeelte kan als volgt worden weergegeven:
Standpunt: De mogelijkheden voor duurzame innovatie van reizen zijn dichterbij dan we denken.
Hoofdargument: De exponentiële technologische groei van vandaag biedt al veel meer mogelijkheden dan gisteren, zoals elektrisch rijden.
Subargument: Als we twintig jaar geleden niet hadden kunnen voorzien dat er vandaag de dag wereldwijd 1,3 miljoen elektrische auto’s zouden rondrijden, waarom zou hetzelfde niet gelden voor elektrisch vliegen?
De redenering stelt dat door de snelle technologische vooruitgang er mogelijkheden zijn voor duurzame innovatie in de reisindustrie, vergelijkbaar met de opkomst van elektrische auto’s die twintig jaar geleden niet voorspeld konden worden.
2
- Een kanttekening die een kritische lezer zou kunnen maken bij het voorbeeld van de elektrische auto’s is dat het wereldwijde aantal van 1,3 miljoen elektrische auto’s niet volledig representatief is voor de situatie in alle landen. De tabelgegevens laten zien dat het aandeel van elektrische auto’s in de totale nieuwe autoverkoop in de meeste Europese landen relatief laag is, variërend van 0,42% tot 9,90% in 2017. Daarom kan worden betwist of het voorbeeld van de elektrische auto’s een solide basis vormt om te suggereren dat elektrisch vliegen in de nabije toekomst een haalbare en wijdverspreide realiteit zal zijn.
0
- Volgens tekst 2 kunnen we onze betrokkenheid tonen door onze reisgewoonten te veranderen en te kiezen voor duurzamere reisopties. Dit omvat onder andere het ondersteunen van lokale projecten, het kiezen voor kleinschalige en duurzame accommodaties, en het bevorderen van schoon vervoer. Door bewust te reizen en contact te maken met andere culturen op een verantwoorde en betrokken manier, kunnen we bijdragen aan het voorkomen van conflicten, het bevorderen van begrip en het creëren van positieve sociale impact.
1
- Zowel voor- als tegenstanders van verre reizen vinden dat:
1 reizen aanzienlijke negatieve impact heeft, met name wat betreft de uitstoot van CO2 en de schade aan het milieu.
2 er in de reisbranche meer aandacht moet worden besteed aan de bredere discussie over de impact van reizen, inclusief zowel de positieve als negatieve aspecten, en niet alleen beperkt moet blijven tot de CO2-uitstoot.
1
- De twee positieve aspecten van reizen die in overeenstemming zijn met de strekking van tekst 2 zijn:
4 Op een geëngageerde manier reizen heeft positieve sociale gevolgen.
5 Reizen draagt bij aan een oplossing voor mondiale problemen.
0
- De achtergrond van de auteur kan de betrouwbaarheid van de informatie in de tekst beïnvloeden, omdat de auteur mogelijk een persoonlijk belang of vooringenomenheid heeft dat zijn objectiviteit kan beïnvloeden.
0
- De sociale impact van reizen zou in de discussie net zo zwaar moeten wegen als CO2. Als we oorlogen, onbegrip en een kloof tussen culturen willen voorkomen, dan is er een inherente noodzaak voor reizen. Reizen en contact met andere culturen zorgen voor meer onderling begrip.”
Dit citaat benadrukt het belang van reizen voor het bevorderen van begrip tussen culturen, wat in tegenspraak is met de beschrijving van ‘de verbeterlander’ in tekstfragment 1, die juist kritiek heeft en niet openstaat voor het leren van andere culturen.
1
- Het argument uit tekst 1 dat afbreuk doet aan de redenering in tekst 2 is de kritiek op ‘de verbeterlander’ die geen open blik van nieuwsgierigheid heeft en niet leert van de confrontatie tussen het vreemde en het eigene. Dit argument suggereert dat de sociale gevolgen van reizen niet altijd positief zijn, en dus niet altijd opwegen tegen de negatieve impact op het klimaat.
0
- De bovenstaande redenering in tekst 2, waarin wordt gesteld dat reizen positieve sociale gevolgen heeft, kan worden ondersteund door het argument uit tekst 1 dat reizen de mogelijkheid biedt om te leren van de confrontatie tussen het vreemde en het eigene, en geïnspireerd te raken door de fascinerende diversiteit van culturen. Dit argument benadrukt het belang van reizen als een middel om begrip, waardering en verrijking van verschillende culturen te bevorderen.
0
- Tekst 1 (‘De Malediven verdwijnen, maar onze consumptiedrift niet’) geeft geen expliciete mening over ecotoerisme weer.
Tekst 2 stelt dat ecotoerisme een manier kan zijn om reizen op een duurzame manier vorm te geven en benadrukt het belang van verantwoord reizen en positieve sociale gevolgen van reizen.
0
- De uitspraak die het meest in overeenstemming is met de strekking van deel 3 is:
C) leidt tot een beter begrip van een bekend mechanisme.
In deel 3 van tekst 3 wordt beschreven hoe het onderzoek van Galinsky heeft bijgedragen aan het begrijpen van het mechanisme achter de cognitieve flexibiliteit die ontstaat door internationale ervaring. Het onderzoek heeft specifieke inzichten opgeleverd over de psychologische meerwaarde van een buitenlandverblijf en het effect ervan op het probleemoplossend vermogen en loopbaansucces. Dit wijst op een beter begrip van het mechanisme achter het verband tussen internationale ervaring en creativiteit op het werk.
1
- Twee kritische vragen bij de onderbouwing in alinea 4 kunnen zijn:
Is het onderzoek naar grote modehuizen representatief voor andere bedrijfstakken en sectoren, waar de impact van internationale ervaring mogelijk anders is?
In hoeverre kan het succes van een bedrijf daadwerkelijk worden toegeschreven aan internationale ervaring, gezien het feit dat er ook andere factoren zijn die van invloed kunnen zijn op het succes?
2
- De meest passende optie is B: een nuancering bij de onderzoeksresultaten in alinea 4. Alinea 5 biedt een verklaring voor de onderzoeksresultaten en legt uit waarom internationale ervaring bijdraagt aan het vergroten van cognitieve flexibiliteit. Hierdoor wordt er een nuance toegevoegd aan de eerdere conclusie in alinea 4.
0
- In alinea 6 staat de volgende zin die benadrukt dat de conclusies serieus genomen kunnen worden: “Diepte gaat over de tijd die men in het buitenland heeft doorgebracht, of de duur van internationale contacten. Voor het vergroten van de cognitieve flexibiliteit bleek de diepte van de internationale ervaring doorslaggevend.
In alinea 7 staat de volgende zin die ook de serieusheid van de conclusies benadrukt: “Het hebben van meer verschillende ervaringen, door het grotere aantal landen dat men had bezocht of doordat men meer verschillende contacten had opgedaan, had wel negatieve effecten.”
0
- Cognitieve flexibiliteit: 2, 3, 4, 5
Morele flexibiliteit: 1, 6, 7
3
- Werknemers zouden langere tijd in een ander land moeten verblijven en zich verdiepen in een andere manier van denken om creatiever met moeilijke problemen om te gaan.
Werkgevers zouden moeten erkennen dat de diepte van internationale ervaring belangrijker is dan het aantal bezochte landen. Het is waardevoller om werknemers de mogelijkheid te bieden om langdurig in het buitenland te verblijven en zich te verdiepen in andere culturen, in plaats van hen naar veel verschillende landen te laten reizen.
1
- Het onderzoek is van waarde omdat het inzicht geeft in het mechanisme achter het verband tussen internationale ervaring en cognitieve flexibiliteit.
1
- Uit de studies blijkt dat het reizen naar veel verschillende landen, zoals bij een wereldreis, geen positief effect heeft op cognitieve flexibiliteit en creativiteit op het werk.
0
- D waardoor problemen sneller opgelost kunnen worden.
0
- C te informeren over onderzoek naar de relatie tussen internationale ervaring en creativiteit op het werk.
1
- De ik-figuur in tekst 4 ervaart bij zowel haar ontmoetingen met selfie-makers als bij haar ontmoetingen met daklozen in India een gebrek aan echt contact en aandacht. Ze voelt dat er geen diepgaand contact is en dat ze niet werkelijk gezien of opgemerkt wordt.
0
- In de context van de tekst zou “iets breders” kunnen verwijzen naar een diepere betekenis, context of verhaal achter de selfie. Het suggereert dat een selfie op zichzelf staand is en geen verbinding heeft met een groter geheel, zoals een persoonlijke ervaring, een gedeelde context of een verhaal dat erachter schuilgaat. Het ontbreken van deze inbedding maakt de selfie oppervlakkig en beperkt in zijn betekenis.
0
- Dit citaat kan worden geïnterpreteerd als D: het steeds weer aan iets anders denken. Het gebrek aan aanwezigheid verwijst naar het steeds afdwalen van de geest en het ontbreken van volledige focus op het huidige moment. Het impliceert dat de gedachten voortdurend elders zijn en niet volledig gericht zijn op de huidige plek en situatie.
1
- Het verlangen naar aanwezigheid wordt ‘onbeholpen’ genoemd omdat het documenteren van de eigen aanwezigheid via selfies geen vervanging biedt voor daadwerkelijke interactie en verbinding met anderen.
1
- Hier is de beoordeling van elke uitspraak in overeenstemming met de strekking van de tekst:
1 Je zorgen maken over je privacy is voor de meesten van ons niet nodig. – komt niet overeen
2 Privacy bestaat niet meer in de wereld na Nietzsche. – komt overeen
3 Mensen die zich zorgen maken over hun privacy, hebben waarschijnlijk iets te verbergen. – komt niet overeen
4 Je kunt pas over verlies van privacy spreken als je echt bekeken wordt. – komt overeen
5 Als het om onze privacy gaat, hoeven we alleen bang te zijn voor machines. – komt overeen
2
- Het gebruik van ‘helaas’ geeft aan dat het jammer is dat persoonlijke aandacht van machtigen alleen wordt gegeven als ze iemand als een bedreiging beschouwen, wat impliceert dat het niet gebaseerd is op oprechte interesse. ‘Alleen maar’ benadrukt dat dit de enige reden is, zonder andere motieven.
2
- De impliciete kritiek op de samenleving in tekst 4 zou kunnen worden geïnterpreteerd als de observatie dat in onze moderne samenleving persoonlijke aandacht en echte verbinding steeds meer worden vervangen door oppervlakkige interacties, zoals het maken van selfies, en dat er een gebrek aan diepgang en echte aanwezigheid is ontstaan.
2
Renate van Keulen zegt
Interessant, Marc! Wat ik bij vraag 1t/m 9 lees (verder ben ik zelf nog niet gekomen), is behoorlijk indrukwekkend! En zonder taalfouten ook nog eens! Bij de weerlegging van argument 3 van vraag 9 zie ik twee antwoorden, waarvan alleen het tweede goed is. Het eerste (sociale voordelen) hoort bij argument 2.
Mees van weert zegt
Je zou ook een andere vraag kunnen stellen. Hoe goed is het Nederlands examen? Heb deze toets zelf gemaakt en die behoorlijk wat fouten die overeen komen met fouten die ik zelf heb gemaakt. 23 bijvoorbeeld kun je zien als een prima antwoord maar is wel degelijk fout. Maar wie zit er dan fout? De computer of de examen makers?
Dennis de Vink zegt
Heb je versie 3.5 or 4.0 gebruikt?
Martinus Meiborg zegt
PDFs lezen doe je met chatpdf.com. Doe nog maar een keer 😉
Menno zegt
@Mees van Weert
Ik zou nog verder willen gaan: Hoezo heeft tekstbegrip/literatuur/schrijven Nederlands? En waarom dan niet kalligrafie, is dat niet even “waardevol” (kuch, kuch) als bijvoorbeeld literatuur?
Wat maakt Nederland anders dan andere talen? Spelling en grammatica (zonder naamwoordelijk genozel, zeker wanneer niemand het gebruikt), natuurlijk!
En dan is heb je gewoon een dictee als examen, voorgelezen door Philip Freriks, op cassettebandje ofzoiets. Gewoon, omdat het charme heeft.
Helge Bonset zegt
Deze reactie zou ChatGPT zeker beter geven, zowel stilistisch als inhoudelijk. Droevig.
Christiaan zegt
Mooi om te zien dat dit ook geprobeerd wordt!
In chatGPT 4 kun je sinds kort plugins gebruiken die PDFs kunnen lezen. En je zou chatGPT ook specifiek kunnen vragen om de uitleg weg te laten en alleen de letter van het correcte multiple choice antwoord te geven. Dat lukt chatGPT vast wel. 🙂 Je moet in je prompts gewoon heel duidelijk en specifiek zijn met wat je wel of niet wilt.
Ron zegt
AutoGPT er tussen moeten zetten met pdf reader, reflectie en pinecone….
Ben Salemans zegt
Wow, Marc, dank voor dit uiterst ibteressante artikel!
Joost zegt
33 van de 60 punten is gewoon een voldoende met een n-term van 0.5 of hoger. De gemiddelde n-term voor het vwo Nederlands examen is 1.12, dus ChatGPT is hoogstwaarschijnlijk geslaagd!
Marc van Oostendorp zegt
Het examen moet nog wel goed nagekeken worden door een échte corrector, liefst een die ook een stapel examens van échte leerlingen heeft nagekeken.
ChatGPT Nederlands GPTNederlands zegt
In dit tot nadenken stemmende artikel onderwerpt de auteur ChatGPT aan de ultieme taaltest: het Nederlandse VWO-examen. Terwijl ChatGPT 33 van de 60 punten scoorde, wat aangeeft dat het bijna mislukt, werpt het artikel licht op zowel de indrukwekkende als de beperkende aspecten van het AI-model. Opvallend is dat ChatGPT moeite heeft met het begrijpen van examenstructuren en nuances, zoals leesbeperkingen voor PDF’s en specifieke tekstmarkeringen.