• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
    • Chris van Geel
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Automatisch talen documenteren

8 april 2026 door Marc van Oostendorp 2 Reacties

We weten dat er veel is waar kunstmatige intelligentie slecht in is, maar er zijn ook dingen waar ze goed in is. De laatste zijn vooral saaie dingen. Het ontdekken van patronen, bijvoorbeeld. En laat het ontdekken van patronen nu net altijd een taak van de wetenschap zijn geweest; niet de meest glorieuze taak, misschien, maar wel een taak. DNA moet worden gesorteerd, archeologische vondsten moeten op grote schaal met elkaar vergeleken, de stromen data die uit een deeltjesversneller komen zo goed mogelijk op een rijtje gezet.

In de taalkunde bestaat zo’n patroonzoektaak ook: wat zijn de verschillen en overeenkomsten tussen talen? Hoeveel klinkers en medeklinkers hebben ze en welke? In welke volgorde staan bijvoeglijk en zelfstandig naamwoord (rode auto of voiture rouge)? Heeft de taal lidwoorden? Kun je aan het werkwoord een verschil zien tussen heden en verleden? En hoe verhouden al die grammaticale kenmerken zich tot elkaar? Er zijn ongeveer zevenduizend talen op de wereld, dus dit allemaal voor iedere taal beschrijven is een gigantisch werk. Grambank, is misschien wel de grootste database waarin de neerslag van dat werk gevonden kan worden, en die dus systematische vergelijking van talen mogelijk maakt.

Grambank heeft er ongeveer 2000. Voor elke taal worden 195 grammaticale vragen beantwoord. Dat antwoord moet als een taal wordt opgenomen telkens worden opgezocht in een grammaticaboek en die grammaticaboeken zijn door verschillende onderzoekers op telkens een andere manier samengesteld. Eén onderzoeker is met een taal soms weken bezig. Er ontbreken momenteel nog bijna 5000 talen. Wanneer dat werk ooit klaar is, is dus niet duidelijk. Taalkundigen hebben niet het soort budgetten dat wordt uitgetrokken voor deeltjesversnellers.

Redenering

De Amerikaanse onderzoekers Jonathan Hus en Antonios Anastasopoulos stellen in een recent artikel voor om dat werk deels te automatiseren. Ze nemen dezelfde grammaticaboeken die de menselijke onderzoekers gebruiken, digitaliseren ze, maken ze zo doorzoekbaar voor een computer, en laten een taalmodel , in hun geval ChatGPT, de vragenlijst doorwerken.

Het werkt beter dan zonder boek. Zonder grammaticaboek beantwoordt het model voor sommige talen nog geen tien procent van de vragen goed; mét boek stijgt dat naar vijftig tot zeventig procent, afhankelijk van de taal. De onderzoekers voerden toetsen uit op vijf heel verschillende talen (Mizo, Jinghpaw, Kalamang, Minangkabau en Natugu), waar weinig digitaal materiaal voor bestaat. Die taal zaten voor het onderzoek al in Grambank zodat de onderzoekers konden zien of de antwoorden ‘correct’ waren.

Vijftig tot zeventig is geen honderd procent. Het model bleek goed in het vaststellen dat een taal iets heeft — een bepaalde klinker, een zekere woordvolgorde — maar begon te haperen als het moest vast te stellen dat iets ontbrak. Dat is op zich begrijpelijk: een grammaticaboek dat niet over lidwoorden rept, kan dat doen omdat de taal ze niet heeft, maar ook omdat de auteur ze niet beschreven heeft. Dat onderscheid maken tussen afwezigheid in het boek en afwezigheid in de taal is lastig, en al helemaal voor chatbots. Het vereist een soort redenering over wat een schrijver kan hebben bewogen om iets wel of niet te zeggen die nog nét buiten het bereik ligt van kunstmatige intelligentie (in ieder geval van ChatGPT 4, dat de onderzoekers gebruikten, inmiddels zijn we al weer een paar modellen verder).

Patronen

Er zit ook een verrassend detail in de analyse. Wanneer de onderzoekers de computer precies vertellen op welke pagina in het grammaticaboek het antwoord staat, doet het systeem het soms slechter dan wanneer zelf in het boek moet gaan zoeken. Het zoeksysteem vindt kennelijk af en toe relevantere passages dan de onderzoeker had gevonden.

Toch is de conclusie die de onderzoekers trekken vooralsnog bescheiden. Een score van vijftig tot zeventig procent is niet genoeg om zonder menselijke controle de database te vullen. Maar als automatische eerste ronde die vervolgens door een expert wordt gecontroleerd, zou het de voltooiing van Grambank aanzienlijk kunnen versnellen.

Dat betekent overigens zeker niet dat Grambank in afzienbare tijd gevuld zal worden, want voor de meeste talen op de wereld bestaat helemaal geen complete beschrijving. Daarvoor moet eerst iemand naar meestal nogal onherbergzame oorden afwijzen om daar menselijk contact te leggen met de sprekers. Dat is geen saai werk, dus chatbots zijn er voorlopig nog niet goed genoeg voor.

Delen:

  • Afdrukken (Opent in een nieuw venster) Print
  • E-mail een link naar een vriend (Opent in een nieuw venster) E-mail
  • Share op Facebook (Opent in een nieuw venster) Facebook
  • Delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Delen op Telegram (Opent in een nieuw venster) Telegram
  • Delen op LinkedIn (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: grammatica, kunstmatige intelligentie, taalkunde, taalvergelijking

Lees Interacties

Reacties

  1. Peter Motte zegt

    8 april 2026 om 10:01

    Goed zeg. Dan kunnen we nu een boel taalonderzoekers ontslaan.

    Beantwoorden
    • Chris Sijtma zegt

      9 april 2026 om 12:38

      Ik geloof dat Marc juist betoogt dat met de onderzoekers die er zijn, de Grambank sneller gevuld kan worden. Maar ja, iedereen leest wat hij/zij wil lezen.

      Beantwoorden

Laat een reactie achter bij Chris SijtmaReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Piet Gerbrandy • Val

Op straat in de trein in de klas weet jij je gedurig
omringd van gewijde vulva’s geborgen
in diepe bosschages van mirre en muskus

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Vlaggetjes

Een kind is een muis in het nauw
als de machtigen samenspannen

Bron: Ida Gerhardt

➔ Bekijk hier alle citaten

Agenda

11 mei 2026: Promotie Bartie Thuis

11 mei 2026: Promotie Bartie Thuis

28 april 2026

➔ Lees meer
8 mei 2026: Symposium Onsterfelijke dood

8 mei 2026: Symposium Onsterfelijke dood

26 april 2026

➔ Lees meer
30 april 2026: Kampliteratuur van Charlotte Delbo

30 april 2026: Kampliteratuur van Charlotte Delbo

25 april 2026

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1929 Eva Essen-Fruin
➔ Neerlandicikalender

Media

Sanneke van Hassel en Bert Paasman over Elisabeth Maria Post

Sanneke van Hassel en Bert Paasman over Elisabeth Maria Post

26 april 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
In gesprek met literaire duizendpoot Jonathan Van Der Horst

In gesprek met literaire duizendpoot Jonathan Van Der Horst

22 april 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
The perks of literature – with Jeroen Dera

The perks of literature – with Jeroen Dera

22 april 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Gebruiksvoorwaarden
  • Privacy­verklaring
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2026 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d