Automatisch talen documenteren

We weten dat er veel is waar kunstmatige intelligentie slecht in is, maar er zijn ook dingen waar ze goed in is. De laatste zijn vooral saaie dingen. Het ontdekken van patronen, bijvoorbeeld. En laat het ontdekken van patronen nu net altijd een taak van de wetenschap zijn geweest; niet de meest glorieuze taak, misschien, maar wel een taak. DNA moet worden gesorteerd, archeologische vondsten moeten op grote schaal met elkaar vergeleken, de stromen data die uit een deeltjesversneller komen zo goed mogelijk op een rijtje gezet.

In de taalkunde bestaat zo’n patroonzoektaak ook: wat zijn de verschillen en overeenkomsten tussen talen? Hoeveel klinkers en medeklinkers hebben ze en welke? In welke volgorde staan bijvoeglijk en zelfstandig naamwoord (rode auto of voiture rouge)? Heeft de taal lidwoorden? Kun je aan het werkwoord een verschil zien tussen heden en verleden? En hoe verhouden al die grammaticale kenmerken zich tot elkaar? Er zijn ongeveer zevenduizend talen op de wereld, dus dit allemaal voor iedere taal beschrijven is een gigantisch werk. Grambank, is misschien wel de grootste database waarin de neerslag van dat werk gevonden kan worden, en die dus systematische vergelijking van talen mogelijk maakt.

Grambank heeft er ongeveer 2000. Voor elke taal worden 195 grammaticale vragen beantwoord. Dat antwoord moet als een taal wordt opgenomen telkens worden opgezocht in een grammaticaboek en die grammaticaboeken zijn door verschillende onderzoekers op telkens een andere manier samengesteld. Eén onderzoeker is met een taal soms weken bezig. Er ontbreken momenteel nog bijna 5000 talen. Wanneer dat werk ooit klaar is, is dus niet duidelijk. Taalkundigen hebben niet het soort budgetten dat wordt uitgetrokken voor deeltjesversnellers.

Redenering

De Amerikaanse onderzoekers Jonathan Hus en Antonios Anastasopoulos stellen in een recent artikel voor om dat werk deels te automatiseren. Ze nemen dezelfde grammaticaboeken die de menselijke onderzoekers gebruiken, digitaliseren ze, maken ze zo doorzoekbaar voor een computer, en laten een taalmodel , in hun geval ChatGPT, de vragenlijst doorwerken.

Het werkt beter dan zonder boek. Zonder grammaticaboek beantwoordt het model voor sommige talen nog geen tien procent van de vragen goed; mét boek stijgt dat naar vijftig tot zeventig procent, afhankelijk van de taal. De onderzoekers voerden toetsen uit op vijf heel verschillende talen (Mizo, Jinghpaw, Kalamang, Minangkabau en Natugu), waar weinig digitaal materiaal voor bestaat. Die taal zaten voor het onderzoek al in Grambank zodat de onderzoekers konden zien of de antwoorden ‘correct’ waren.

Vijftig tot zeventig is geen honderd procent. Het model bleek goed in het vaststellen dat een taal iets heeft — een bepaalde klinker, een zekere woordvolgorde — maar begon te haperen als het moest vast te stellen dat iets ontbrak. Dat is op zich begrijpelijk: een grammaticaboek dat niet over lidwoorden rept, kan dat doen omdat de taal ze niet heeft, maar ook omdat de auteur ze niet beschreven heeft. Dat onderscheid maken tussen afwezigheid in het boek en afwezigheid in de taal is lastig, en al helemaal voor chatbots. Het vereist een soort redenering over wat een schrijver kan hebben bewogen om iets wel of niet te zeggen die nog nét buiten het bereik ligt van kunstmatige intelligentie (in ieder geval van ChatGPT 4, dat de onderzoekers gebruikten, inmiddels zijn we al weer een paar modellen verder).

Patronen

Er zit ook een verrassend detail in de analyse. Wanneer de onderzoekers de computer precies vertellen op welke pagina in het grammaticaboek het antwoord staat, doet het systeem het soms slechter dan wanneer zelf in het boek moet gaan zoeken. Het zoeksysteem vindt kennelijk af en toe relevantere passages dan de onderzoeker had gevonden.

Toch is de conclusie die de onderzoekers trekken vooralsnog bescheiden. Een score van vijftig tot zeventig procent is niet genoeg om zonder menselijke controle de database te vullen. Maar als automatische eerste ronde die vervolgens door een expert wordt gecontroleerd, zou het de voltooiing van Grambank aanzienlijk kunnen versnellen.

Dat betekent overigens zeker niet dat Grambank in afzienbare tijd gevuld zal worden, want voor de meeste talen op de wereld bestaat helemaal geen complete beschrijving. Daarvoor moet eerst iemand naar meestal nogal onherbergzame oorden afwijzen om daar menselijk contact te leggen met de sprekers. Dat is geen saai werk, dus chatbots zijn er voorlopig nog niet goed genoeg voor.