• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
    • Chris van Geel
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Automatisch talen documenteren

8 april 2026 door Marc van Oostendorp 1 Reactie

We weten dat er veel is waar kunstmatige intelligentie slecht in is, maar er zijn ook dingen waar ze goed in is. De laatste zijn vooral saaie dingen. Het ontdekken van patronen, bijvoorbeeld. En laat het ontdekken van patronen nu net altijd een taak van de wetenschap zijn geweest; niet de meest glorieuze taak, misschien, maar wel een taak. DNA moet worden gesorteerd, archeologische vondsten moeten op grote schaal met elkaar vergeleken, de stromen data die uit een deeltjesversneller komen zo goed mogelijk op een rijtje gezet.

In de taalkunde bestaat zo’n patroonzoektaak ook: wat zijn de verschillen en overeenkomsten tussen talen? Hoeveel klinkers en medeklinkers hebben ze en welke? In welke volgorde staan bijvoeglijk en zelfstandig naamwoord (rode auto of voiture rouge)? Heeft de taal lidwoorden? Kun je aan het werkwoord een verschil zien tussen heden en verleden? En hoe verhouden al die grammaticale kenmerken zich tot elkaar? Er zijn ongeveer zevenduizend talen op de wereld, dus dit allemaal voor iedere taal beschrijven is een gigantisch werk. Grambank, is misschien wel de grootste database waarin de neerslag van dat werk gevonden kan worden, en die dus systematische vergelijking van talen mogelijk maakt.

Grambank heeft er ongeveer 2000. Voor elke taal worden 195 grammaticale vragen beantwoord. Dat antwoord moet als een taal wordt opgenomen telkens worden opgezocht in een grammaticaboek en die grammaticaboeken zijn door verschillende onderzoekers op telkens een andere manier samengesteld. Eén onderzoeker is met een taal soms weken bezig. Er ontbreken momenteel nog bijna 5000 talen. Wanneer dat werk ooit klaar is, is dus niet duidelijk. Taalkundigen hebben niet het soort budgetten dat wordt uitgetrokken voor deeltjesversnellers.

Redenering

De Amerikaanse onderzoekers Jonathan Hus en Antonios Anastasopoulos stellen in een recent artikel voor om dat werk deels te automatiseren. Ze nemen dezelfde grammaticaboeken die de menselijke onderzoekers gebruiken, digitaliseren ze, maken ze zo doorzoekbaar voor een computer, en laten een taalmodel , in hun geval ChatGPT, de vragenlijst doorwerken.

Het werkt beter dan zonder boek. Zonder grammaticaboek beantwoordt het model voor sommige talen nog geen tien procent van de vragen goed; mét boek stijgt dat naar vijftig tot zeventig procent, afhankelijk van de taal. De onderzoekers voerden toetsen uit op vijf heel verschillende talen (Mizo, Jinghpaw, Kalamang, Minangkabau en Natugu), waar weinig digitaal materiaal voor bestaat. Die taal zaten voor het onderzoek al in Grambank zodat de onderzoekers konden zien of de antwoorden ‘correct’ waren.

Vijftig tot zeventig is geen honderd procent. Het model bleek goed in het vaststellen dat een taal iets heeft — een bepaalde klinker, een zekere woordvolgorde — maar begon te haperen als het moest vast te stellen dat iets ontbrak. Dat is op zich begrijpelijk: een grammaticaboek dat niet over lidwoorden rept, kan dat doen omdat de taal ze niet heeft, maar ook omdat de auteur ze niet beschreven heeft. Dat onderscheid maken tussen afwezigheid in het boek en afwezigheid in de taal is lastig, en al helemaal voor chatbots. Het vereist een soort redenering over wat een schrijver kan hebben bewogen om iets wel of niet te zeggen die nog nét buiten het bereik ligt van kunstmatige intelligentie (in ieder geval van ChatGPT 4, dat de onderzoekers gebruikten, inmiddels zijn we al weer een paar modellen verder).

Patronen

Er zit ook een verrassend detail in de analyse. Wanneer de onderzoekers de computer precies vertellen op welke pagina in het grammaticaboek het antwoord staat, doet het systeem het soms slechter dan wanneer zelf in het boek moet gaan zoeken. Het zoeksysteem vindt kennelijk af en toe relevantere passages dan de onderzoeker had gevonden.

Toch is de conclusie die de onderzoekers trekken vooralsnog bescheiden. Een score van vijftig tot zeventig procent is niet genoeg om zonder menselijke controle de database te vullen. Maar als automatische eerste ronde die vervolgens door een expert wordt gecontroleerd, zou het de voltooiing van Grambank aanzienlijk kunnen versnellen.

Dat betekent overigens zeker niet dat Grambank in afzienbare tijd gevuld zal worden, want voor de meeste talen op de wereld bestaat helemaal geen complete beschrijving. Daarvoor moet eerst iemand naar meestal nogal onherbergzame oorden afwijzen om daar menselijk contact te leggen met de sprekers. Dat is geen saai werk, dus chatbots zijn er voorlopig nog niet goed genoeg voor.

Delen:

  • Afdrukken (Opent in een nieuw venster) Print
  • E-mail een link naar een vriend (Opent in een nieuw venster) E-mail
  • Share op Facebook (Opent in een nieuw venster) Facebook
  • Delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Delen op Telegram (Opent in een nieuw venster) Telegram
  • Delen op LinkedIn (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: grammatica, kunstmatige intelligentie, taalkunde, taalvergelijking

Lees Interacties

Reacties

  1. Peter Motte zegt

    8 april 2026 om 10:01

    Goed zeg. Dan kunnen we nu een boel taalonderzoekers ontslaan.

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Pim Cornelussen • Uit de maat

’s Nachts drijven we weg in het donker,
vloeit de dag over in de zee van verdwenen jaren.
Aan de oevers van de tijd wachten mensen op ons.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Vlaggetjes

Met aandacht hebben we onze stoel geplaatst. Twee stoelen. [lees meer]

Bron: Vrouwkje Tuinman

➔ Bekijk hier alle citaten

Agenda

15 mei 2026: Live opname Historische Klassiekers

15 mei 2026: Live opname Historische Klassiekers

8 april 2026

➔ Lees meer
7 mei 2026: Studieavond ‘Taalonderzoek in de klas’

7 mei 2026: Studieavond ‘Taalonderzoek in de klas’

7 april 2026

➔ Lees meer
18 april 2026: Louis Couperus Genootschapsdag 2026

18 april 2026: Louis Couperus Genootschapsdag 2026

6 april 2026

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1881 Jacob Wille
sterfdag
1922 Napoléon de Pauw
2006 Gerard Reve
➔ Neerlandicikalender

Media

De butler, de bieb en De Bruin

De butler, de bieb en De Bruin

8 april 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Hoe snel verandert straattaal?

Hoe snel verandert straattaal?

7 april 2026 Door Redactie Neerlandistiek 1 Reactie

➔ Lees meer
In gesprek met auteur Virginie Platteau

In gesprek met auteur Virginie Platteau

6 april 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Gebruiksvoorwaarden
  • Privacy­verklaring
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2026 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d