Kunnen computers taal leren? Het is een van de grote vragen van deze tijd en afgelopen maandag legde Danny Merkx in Nijmegen een nieuw stukje van de puzzel. Hij promoveerde er op een proefschrift waarin hij onderzocht of het hielp als je computers plaatjes laat zien.
Merkx bood de computer daarvoor een verzameling plaatjes aan – bijvoorbeeld gehaald van de website Flickr – die beschreven waren door vrijwilligers: ‘een hond rent door het gras’, ‘een wit hondje in de sneeuw’, ’twee vrouwen op een tractor’. Als de computer hierdoor getraind was, bleek het in staat om ook op een nieuwe foto te zien of er een hond op voorkwam. En dat was niet alleen het geval als de beschrijving was uitgeschreven, maar ook als hij was ingesproken – terwijl gesproken taal veel moeilijker te analyseren is, bijvoorbeeld doordat er allerlei uitspraakvariatie is, of doordat we in gesproken taal geen pauzes leggen tussen woorden maar alles aan elkaar plakken. Bovendien wist de computer voor de training begon niets van taal: hij kende geen woorden, hij wist zelfs niet wat woorden waren.
Dat toevoegen van plaatjes om taal te leren is nieuw. De bestaande ’taalmodellen’ – ook die verantwoordelijk zijn voor de successen van chatbots of Google Translate – worden alleen maar getraind op tekst. Zij leren taal door heel veel heel grote verzamelingen teksten met elkaar te vergelijken. Dat is waarschijnlijk geen heel reële weerspiegeling van hoe kinderen woorden leren, zei Merkx tijdens zijn promotie. Zij hebben ook ouders die bijvoorbeeld op een hond wijzen en dan zeggen ‘hond’. Vandaar dat Merkx ook voor computers geïnteresseerd is in multimodaal leren. Nu zijn er ook andere ‘modaliteiten’ dan het zicht (het gehoor, de reuk, enzovoort), maar het visuele is voor de computer nu eenmaal het makkelijkst te analyseren. Er zijn wel databases van plaatjes, maar niet van geuren.
Het blijkt in de praktijk ook te werken. De bestaande modellen met alléén taal worden getraind op onwaarschijnlijke hoeveelheden teksten – meer dan een mens in een tachtigjarig leven kan lezen, ook als ze permanent leest. Merkx laat in zijn proefschrift zien dat het ook met minder kan. Sterker nog, hij liet zien dat zijn model met plaatjes het in sommige opzichten beter deed dan modellen met alleen tekst. Bijvoorbeeld kan zijn systeem het verschil tussen enkelvoud en meervoud herkennen: het geeft andere plaatjes wanneer je om ‘hond’ vraagt dan om ‘honden’. Dat onderscheid is vaak te subtiel voor tekstmodellen.
Het is logisch en lijkt voor de hand te liggen, maar dat het niet eerder is geprobeerd heeft natuurlijk ook te maken met het feit dat computers steeds sneller worden, en dat er in de Kunstmatige Intelligentie nieuwe technieken gevonden zijn. Zoals er ooit een dag komt dat een robotje, behept met allerlei zintuigen, door de wereld mag scharrelen om woorden te leren. Dan gaan we wat zien!
Het proefschrift van Danny Merkx komt de komende dagen hier te staan.
Robert Kruzdlo zegt
Een ondeugend – behept – robotje blijft met 0’en en 1’en spelen en geloof mij als het zintuigen krijgt zal het niet anders zijn. Blijft bij nullen en enen. Zelfs Picasso herhaalde zichzelf door in één stijl te blijven schilderen. Hij was niet behept, hij was een computer die tot op vandaag in snelheid nog niet te evenaren is. Zelfs al verbind je alle computers van de wereld met elkaar dan nog krijg je geen Dautzenberg of een goede weervoorspelling. Dat hardnekkige geloof in robots met zintuigen kost heel veel geld en Google is er blij mee.