De komst van chatbots betekent misschien wel dat het wetenschappelijk bedrijf geautomatiseerd wordt. Zetten chatbots binnenkort zelf het onderzoek op, voeren ze de experimenten uit, analyseren ze de resultaten en sturen ze ze op naar wetenschappelijke tijdschriften? Er wordt hard aan gewerkt. In een artikel in het tijdschrift Scientometrics zet de Chinese onderzoeker Zhuanlan Sun bijvoorbeeld op een rijtje wat we inmiddels weten over het gebruik van chatbots in het proces van de beoordeling van artikelen voor geschiktheid van opname in een tijdschrift, peer review.
Normaliter werkt die beoordeling in een aantal stappen. Als het artikel binnenkomt, kijkt een redacteur ernaar, bijvoorbeeld om te zien of het artikel uberhaupt geschikt is voor het tijdschrift: sluit het inhoudelijk aan? Worden er geen complottheorieën in verkocht of is de inhoud anderszins niet zo buiten de orde dat het zonde zou zijn om het hele proces te doorlopen? Als dit allemaal niet het geval is, gaat het artikel naar beoordelaars: waar de redacteur vaak wel ongeveer op het gevraagde gebied zijn, zijn de beoordelaars echte experts, die hun oordeel geven. Op basis van die oordelen besluit de redacteur of het artikel aangenomen of afgewezen wordt, of dat de auteur gevraagd wordt om aanpassingen, waarna het artikel soms opnieuw beoordeeld wordt.

Sun laat zien dat zo ongeveer iedere stap in dit proces inmiddels wel ergens wordt vervangen. Ze worden gebruikt voor de allereerste controle, maar ook om precies de juiste experts te vinden die een artikel zouden kunnen beoordelen. Maar ze kunnen ook zelf gevraagd worden om een artikel te beoordelen.
Het goed doen
Hoe goed ze daar dan in zijn is een voorlopige vraag. Uit de gigantische stapel onderzoeken die Sun heeft doorgenomen, trekt die de conclusie dat chatbots in ieder geval niet meer macht moeten krijgen dan die van een assistent van de redacteur. Ze maken fouten, en vooral op hooggespecialiseerde gebieden – en veel wetenschap is natuurlijk hooggespecialiseerd – weten ze niet alles. Ze zijn bijvoorbeeld nog heel slecht in controleren of uit een grote verzameling data wel de conclusie getrokken kan worden die de auteur trekt. Bovendien gelden alle bezwaren tegen chatbots die ook elders naar voren worden gebracht, zoals dat het energieslurpende apparaten zijn die getraind zijn door grote bedrijven die hun materiaal overal vandaan hebben geroofd en zelf geen inzicht geven in hoe ze te werk gaan. Willen we de wetenschap in handen leggen van zulke bedrijven?
Een intrigerende kwestie die Sun oproept is: hoe besluiten we wie er het beste is in het beoordelen van wetenschappelijke artikelen? Misschien, zo is de suggestie, moeten we zien hoe goed een tijdschrift het doet wanneer het de beoordeling aan mensen laat of juist aan computers. En ‘het goed doen’ kun je dan bijvoorbeeld meten door te zien hoe vaak artikelen worden geciteerd in andere tijdschriften: hoe beter een artikel is hoe vaker onderzoekers ernaar zullen verwijzen.
Nieuw idee
Bij dit alles rijst wel de vraag hoe zinnig een geautomatiseerde wetenschap eigenlijk zou zijn, en waarom zo’n wetenschap de omweg zou nemen van publicatie in tijdschriften met peer review? Waarom zou een auteur niet zijn eigen peer review door chatbots laten maken, en de eigen artikelen dan zelf mét die beoordelingen publiceren? Waarom heb je een tijdschrift nodig? En trouwens ook: waarom zou alles moeten worden opgeschreven in artikelen met een inleiding en een conclusie en allerlei andere attributen die vooral voor menselijke lezers van belang zijn?
Er zijn van oudsher twee visies op het nut van wetenschap. De eerste is in wezen technologisch: de wetenschap moet modellen opleveren aan de hand waarvan we kunnen rekenen en de toekomst voorspellen. De tweede is gericht op inzicht: de mens wil begrijpen hoe de wereld in elkaar zit. Die twee zijn altijd vervlochten geweest, maar door de nieuwe ontwikkelingen worden ze nu misschien uit elkaar getrokken. Het steeds meer genereren van steeds preciezere en bruikbare rekenmodellen kan misschien voor een belangrijk deel geautomatiseerd worden, en daarvoor kunnen dan andere publicatiemogelijkheden gezocht worden dan het tijdschriftartikel.
De tijdschriften kunnen ondertussen gevuld worden met interessante inzichten, artikelen die de menselijke geest het plezier geven ineens iets te zien, iets te begrijpen dat hij eerder niet gezien, niet begrepen had. Maar de productie daarvan kan bijna niet geautomatiseerd worden. Want zelfs als een chatbot kan beoordelen of een artikel interessante inzichten bevat, dan nog gaat het bij dit soort wetenschap om menselijk contact. Een onderzoeker heeft een interessant nieuw idee, en verbaast de lezers met dat idee.
Dit gebeurt (helaas) al: het AAAI-congres heeft door de overweldigende hoeveelheid inzendingen besloten om een hybride reviewprocedure te hanteren, waarbij er ook LLMs optreden als reviewers. Zie: https://aaai.org/conference/aaai/aaai-26/review-process-update/
Er wordt daar opgemerkt dat “Our AI-assisted reviewing experiment shows promising early results, including tools to detect and counteract collusion among reviewers.” Maar op de sociale media wordt er toch erg negatief op gereageerd.
Chatbots zijn overal een grote ramp. Ze kunnen namelijk niet creatief genoeg denken en leggen dus verbanden op een niveau dat er misschien wel is of ooit eens was, maar niet zo breed toepasbaar is als zij in hun praktijk laten zien. Ze worden nu vooral ingezet om kosten van personeel te besparen en dergelijke, en zo veroorzaken ze wanbegrip, wanprestaties en misverstanden. Het vereist nog heel wat menselijke ingrepen om dit in te zien en ze te vervangen.