Onverwachte taalvragen aan de wetenschapsagenda (16)
Door Marc van Oostendorp
Zestien taalvragen hebben een geheel eigen koepel gekregen in de Nationale Wetenschapsagenda: de vragen over de vraag of we computers beter met taal kunnen laten omgaan, de zogenoemde taaltechnologie. Zestien vragen van de elfduizend die oorspronkelijk door de Nederlandse bevolking zijn ingestuurd is niet zo veel –er zijn maar zo’n 140 koepels, dus gemiddeld tellen die zo’n 80 vragen– , dus er is iemand of iets geweest die of wat deze vragen heel belangrijk heeft gevonden. We zullen het nooit weten: het hele proces waarop is besloten welke vragen écht belangrijk zijn, is niet erg transparant.
Hoe dat ook zij, kennelijk zijn er mensen onder ons die zichzelf dingen afvragen als het volgende:
- Is de structuur van het Nederlands te complex voor computers om te produceren? We hebben allemaal wel gemerkt dat er nog steeds geen computersystemen zijn waarmee we gewoon kunnen praten, en die apps waarbij je een vraag kunt stellen aan je telefoon zijn hooguit goed voor een dosis humor. Het Nederlands is ook wel erg ingewikkeld, onze zinnen kunnen rare afhankelijkheden hebben zoals: “dat wij Piet zijn auto zagen repareren” waarbij ‘zagen’ bij ‘Piet’ hoort, en ‘repareren’ bij ‘zijn auto’. Zijn er bepaalde soorten Nederlandse zinnen, zoals bijvoorbeeld deze, die gewoon echt te moeilijk zijn voor een computer, of zijn ze gewoon nog niet snel genoeg?
Akkertje
De diagnose van deze vragensteller lijkt me juist. Op zijn minst één van de grote obstakels bij het bouwen van ‘Nederlands producerende’ computers zijn momenteel die ‘rare afhankelijkheden’ – dat je alleen kunt begrijpen wat repareren precies doet in die zin als je weet dat zijn auto er als lijdend voorwerp bij hoort, zoals je omgekeerd moet weten dat auto een lijdend voorwerp is, al is het maar als je die zin in het Duits wil vertalen. En dat dit zijn auto heel ver weg kan staan (‘dat wij Piet zijn auto gisteren nog vanuit ons bed tussen half twee en drie uur ’s nachts met allebei zijn blote handen op zijn dooie akkertje zagen repareren’).
Wij mensen ontleden zo’n zin moeiteloos: tijdens het lezen ervan sla je zonder erbij na te denken op de een of andere manier het hele stuk van gisteren tot en met zagen over om het lijdend voorwerp en het werkwoord bij elkaar te zetten. Ook wie vroeger niet goed was met ontleden op school weet als hij de zin gehoord heeft wie hier wat aan het repareren was (dus dat wij bijvoorbeeld niet ons akkertje repareerden). Maar de computer raakt in de war van al die tussenliggende woorden. Dat is een van de problemen van bijvoorbeeld Google Translate en andere vormen van taaltechnologie.
Ook de laatste zin van de vraag lijdt aan dat euvel, met het ‘zoals bijvoorbeeld deze’ dat tussen het onderwerp en het gezegde staat – een ingewikkeld grapje. Bijna verdacht juist is de diagnose – je zou je haast afvragen hoe zo’n vragensteller zo op de hoogte is van de taalkundige details van het probleem. Misschien is hij de zwager van een onderzoekster die het nooit aan zijn schoonzus heeft durven vragen.
Venster
De discussie is nu inderdaad of het probleem kan worden opgelost als we computers ‘sneller’ maken, of in ieder geval meer geheugen geven, zodat ze grote stukken zin kunnen overzien en alle mogelijke woorden in een venster van, zeg, twintig woorden met elkaar in verband zou kunnen brengen en daar dan de meest waarschijnlijke combinaties van werkwoorden met potentiële lijdend voorwerpen in zouden kunnen zoeken.
Mensen die denken dat dit kan, geloven over het algemeen in dommekracht bij het oplossen van taalkundige problemen: de oplossing is in wezen simpel (je brengt alle woorden met alle andere woorden in verband), zij het dat je er steeds beter mee moet kunnen rekenen. Als je een venster van 4 woorden hebt, staan die slechts op 24 manieren met elkaar in verband. Heb je een venster van 10 woorden, dan zijn dat al 3.628.800 manieren. Dan moet je dus héél véél ‘sneller’ die eenvoudige berekeningen kunnen uitvoeren. De computer waarachter ik nu zit is niet eens goed genoeg om alleen maar uit te rekenen hoeveel manieren er zijn bij een venster van 20 woorden, laat staan dat hij die berekeningen dan ook op redelijke termijn kan uitvoeren.
Het merkwaardige is overigens dat de vraagsteller ervan uitgaat dat het enige alternatief tegen die grote computersnelheid is dat we het opgeven. Als we het nu niet lukt dan is het probleem kennelijk ’te moeilijk’. En daar mist hij denk ik het optimisme van de echte onderzoeker. Er is natuurlijk altijd nog een alternatief: dat wij mensen zélf slimmer moeten worden en betere manieren moeten bedenken om het probleem van die ‘rare afhankelijkheden’ door de computer op te laten lossen dan sneller, almaar sneller te rekenen.
ben beenen zegt
tikfoutje: laatste “dat” moet toch “dan” zijn ?
Lucas zegt
Het probleem is volgens mij nog niet eens de structuur van taal, al is die natuurlijk al problematisch genoeg. Maar taalgebruik – gesprekken – functioneert door een ongespecificeerde, maar zeker zeer grote hoeveelheid aannames die sprekers doen over taal, elkaar, en God weet wat nog meer. Het berust op conventies waarvan we zelf niet eens weten dat ze bestaan, en als we het al weten snappen we vaak totaal niet hoe die conventies zo werken.
Nou hoeft een mens natuurlijk niet te weten hoe die conventies werken om er gebruik van te kunnen maken, en in die zin hoeft een computer dat natuurlijk ook niet. Maar de vraag is dan, hoe programmeer je een AI om net als een mens al die conventies op te pikken, zonder dat die AI door hoeft te hebben wat de conventies zijn.
Marc van Oostendorp zegt
Het hangt denk ik een beetje van de aard van de toepassing af. Ik kan me voorstellen dat bij sommige eenvoudige taken (laten we zeggen: tekst naar spraak, of zelfs automatisch vertalen van krantenberichten) die conventies minder belangrijk zijn, terwijl je de zin wel nog steeds moet kunnen ontleden.
Zodra het wat uitdagender wordt, gaan al die conventies natuurlijk wel een rol spelen en ik ben het met je eens dat zij dan een nog groter obstakel zouden vormen, als het obstakel van de zinsstructuur al niet onoverkomelijk was.