Ja, kunstmatige intelligentie is verbazingwekkend goed. Ja, de computer spreekt allerlei talen min of meer vloeiend. Maar er zijn nog duizenden talen op de wereld waar hij totaal geen kaas van gegeten heeft. Wat doen we daaraan?
Het is een vraag waarover een groep informatici en taalkundigen, onder aanvoering van een onderzoeker bij Google, zich onlangs gebogen heeft (hier is hun artikel). De bestaande kunstmatige intelligentie werkt bij gratie van heel veel informatie: het leert een taal alleen als het miljoenen voorbeelden heeft in die taal, en dan in digitale vorm. Maar een groot deel van de pakweg zevenduizend talen op de wereld worden eigenlijk nooit geschreven, en een nog groter deel bestaat niet of nauwelijks in digitale vorm. Die kan de chatbot dus niet leren.
Althans, je zou het kunnen proberen door die chatbots een wetenschappelijke grammatica te laten lezen. Zo’n grammatica is het verslag van een wetenschapper die zelf vaak jarenlang bij de sprekers van de taal heeft gewoond, daar dus honderdduizenden voorbeelden heeft gehoord van hoe je dingen zegt in die taal – en die voorbeelden heeft geordend en gecondenseerd om de belangrijkste bevindingen weer te geven. Gecombineerd met een woordenlijst waarin de woorden in de taal in een al bekende taal zijn vertaald komt een mens vaak een aardig eind. Zou een computer dat ook kunnen?
Gecomprimeerde vorm
Dat was het idee van de groep onderzoekers. Ze namen een recent gepubliceerde, 573 pagina’s tellende grammatica (gratis te raadplegen) die een jonge Nederlandse onderzoekster, Eline Visser, recent maakte van de taal Kalamang. Die taal wordt gesproken door zo’n 130 mensen in Papoea Nieuw Guinea. Het werk van Visser – behalve de grammatica stelde ze ook een woordenlijst ter beschikking en een bescheiden verzameling zinnen met hun vertalingen in het Engels – stellen de onderzoekers nu voor als een nieuw ijkmiddel voor kunstmatige intelligentie: hoe goed kan zo’n systeem de taal leren gebaseerd op deze betrekkelijk kleine hoeveelheid informatie? Daarvoor is dus nu een verzameling zinnen vastgesteld waarop chatbots kunnen worden getoetst.
Voorlopig is het antwoord overigens: nog niet zo heel goed. In ieder geval doet de computer het minder goed dan een mens. Een van de onderzoekers – de man die bij Google werkt – heeft ook zelf geprobeerd de taal te leren op basis van dit materiaal – een indrukwekkende prestatie op zich – en hij was er nog steeds beter in dan de onderzochte chatbots. Toch zat er volgens de onderzoekers wel muziek in: de betere en nieuwere chatbots werden ook steeds beter in het leren van deze nieuwe taal.
Dat geeft misschien hoop voor sprekers van minderheidstalen, in ieder geval voor zover zij willen dat zij hun taal ook met chatbots kunnen gebruiken. Het maakt het in de toekomst misschien ook makkelijker om reeds uitgestorven talen te doen herleven. Het laat tegelijkertijd misschien iets zien over hoe chatbots steeds meer algemene intelligentie krijgen: ze kunnen een taal niet alleen leren van heel veel voorbeelden, maar ook uit de gecomprimeerde vorm van een grammatica.
Reinier Salverda zegt
Opwinded project!
Klein beginnen mischien, maar dan, wie weet wat hieruit kan komen.
Begrijp ik goed, dan gaan de chatbots straks leren vertalen tussen Engels en Kalamang op basis van Eline Vissers linguistische veldwerkgrammatica, in competitie met mensen, hooggeschoolde engelstalige onderzoekers naar het lijkt, die ook geen Kalamang kennen en op zoek zijn naar een ijkmiddel voor kunstmatige intelligentie.
Interessant project, kort en helder neergezet, maar waar wel bizonder veel complexe aannames in mee spelen, voordat je kunt vaststellen dat de betrokken chatbots en die onderzoekers niet alleen redelijke vertaalprestaties hebben geleverd, maar ook of ze nu echt goed Kalamang hebben leren kennen en kunnen gebruiken.
En dan: hoe representatief is Kalamang voor andere talen?
Dus als het werkelijk gaat om het vinden van een ijkpunt, waarom dan Kalamang?
Lees hier David Bellos’ magistrale werk over vertalen en vertaalwetenschap, “Is that a Fish in your Ear? Translation and the meaning of everything” (2011).
Zoals hij ons conundrum formuleert: “The Achilles heel of a linguistic theory that places grammar at its core could be put like this. Since universal grammar remains elusive and no exhaustive grammar of any single form of speech has yet been devised, every speaking subject on this planet knows something that grammar does not.”
Dus: wat kunnen de Kalamangsprekers ons vertellen over wat hun grammatica nog ontbeert?
Waar blijven de native speakers, en hoe worden de Kalamang community en hun intuities ingeschakeld bij dit onderzoek, met name bij het beoordelen van de kwaliteit van die grammatica en hoe goed die is als analyse van hun taal?
Kunnen we de Kalamangsprekers ook leren hoe (en toerusten waarmee) ze zelf hun eigen taal kunnen onderzoeken, en zien tot wat voor resultaten dat leidt?
Je moet natuurlijk ergens beginnen, maar daar hoort dan wel ook een soort Turingtest bij.
En als perspectief voor veel verder weg zou de ultieme onderzoeksuitdaging voor mij dan zijn of er in de toekomst ooit een Chatbot te maken is die de complexe en buitengewoon knappe Sanskrietgrammatica van Panini (5de eeuw BCE) kan repliceren niet alleen, maar ook zo kan leren kennen en gebruiken dat de output en performance van die Chatbot niet meer te onderscheiden valt van wat natuurlijke, menselijke Sanskriet-taalgebruikers en Panini-kenners ermee (gebleken hebben te) kunnen presteren.
Marc van Oostendorp zegt
Voor gedetailleerde antwoorden verwijs ik naar het onderzoeksartikel. In dit geval bestaat de ‘benchmark’ een verzameling door moedertaalsprekers goedgekeurde vertalingen van Engelse zinnen. Dat roept natuurlijk allerlei vragen op, maar de opdracht is dan een betere benchmark te bedenken voor dit type talen. In de acknowledgements wordt één spreekster bedankt voor haar toestemming om het materiaal ook hiervoor te gebruiken. Ik geloof dat zij ook Vissers belangrijkste informante was. Het gaat hier dus over een heel kleine, en krimpende gemeenschap, het is mij niet duidelijk hoeveel middelen die hebben om een en ander te beoordelen of mee te helpen.
Bij de keuze van de taal was het van belang een taal te nemen waarvan een goede en uitvoerige grammatica voorhanden was, terwijl tegelijkertijd de aanwezigheid op internet zo gering mogelijk moest zijn (zodat chatbots niet al een beetje getraind op die taal kunnen zijn). Er zijn meer van die talen (alle talen die beschreven zijn in dezelfde reeks als waarin Vissers grammatica verscheen), ik denk dat de keuze voor Kalamang in die zin willekeurig was.
Berthold van Maris zegt
Wat moet het heerlijk zijn om een taal te spreken waar de computer niks mee kan. Jaloersmakend…