Wie wil weten hoe de taaltechnologie – onze kennis over hoe computers met taal kunnen omgaan – zich ontwikkelt, doet er goed aan om Google in de gaten te houden. Daar worden doorlopend slimme mensen aangesteld, bijvoorbeeld om te werken aan Google Translate.
Vorige week verscheen er een nieuw artikel op internet waarin een paar van die slimme jonge mensen een nieuwe techniek opbouwen om een vertaalwoordenboek op te bouwen tussen twee willekeurige talen, dat vervolgens (onder andere) door een computer gebruikt kan worden. (Hier is een artikel dat het idee moet populariseren, maar dat ik eerlijk gezegd pas begreep nadat ik het wetenschappelijke artikel gelezen had.)
Het interessante aan de nieuwe techniek is dat je het woordenboek bijna helemaal kunt maken door de computer eentalige teksten in allebei de talen te laten bestuderen.
Je hoeft slechts voor een handjevol woorden te weten hoe ze van de ene taal in de andere vertaald worden – de rest kan de computer dan automatisch afleiden uit hoe de talen in elkaar zitten. Want dat blijkt voor alle talen ruwweg hetzelfde – althans dat beweren de onderzoekers van Google.
De eentalige analyse werkt als volgt. De computer bekijkt duizenden (tienduizenden, miljoenen; enfin, u kent Google) teksten. Vervolgens kijkt het bij ieder woord welke andere woorden er onmiddellijk voor en na dat woord kunnen komen. Uit de zin ‘alle talen lijken op elkaar’ concludeert hij dus dat talen onmiddellijk voor lijken kan staan en op onmiddellijk erna. Nu zullen er heel veel zin zijn waarin lijken onmiddellijk gevolgd wordt door op, en minder waarin talen gevolgd wordt door lijken. Al dit soort informatie wordt nu statistisch bewerkt, zodat voor allerlei woorden en combinaties van woorden kan worden uitgerekend hoe waarschijnlijk het is dat een ander woord erop volgt. Met andere woorden: de relaties van alle woorden in de taal tot alle andere woorden in de taal kunnen worden uitgerekend.
Die relaties kun je weergeven in een grafiek, zoals hierboven is gebeurd voor de namen van een aantal dieren in het Engels en het Spaans. Wat daarbij opvalt: de plaatjes lijken heel erg op elkaar. De onderlinge relaties tussen de namen van huisdieren in het Engels lijken sterk op die in het Spaans.
De reden dat talen op elkaar lijken is dat ze allemaal dezelfde werkelijkheid beschrijven. Zo zou je de verticale as hierboven kunnen zien als de kans dat de dierennaam voorafgegaan wordt door het woord kleine. Die kans is groter voor kat dan voor hond en groter voor hond dan voor paard. (Het klopt niet precies, maar dat komt omdat het niet alleen maar gaat over kleine, maar honderdduizenden andere woorden.) Het maakt daarbij niet uit of je het hebt over het Engelse small cat of over het Spaanse pequeño gato.
De structuur van de woordenschat weerspiegelt zo de structuur van de werkelijkheid, zoals de sprekers deze zien. Omdat deze hetzelfde is, kun je de ene woordenschat op de andere afbeelden. Je hoeft in het bovenstaande plaatje alleen te weten dat cat correspondeert met gato en dog met perro en je kunt de vertalingen voor horse, cow en pig zo uitrekenen.
Gaston Dorren zegt
Ik ben benieuwd hoe ze het probleem oplossen dat woorden soms uiteenvallen in twee, bijvoorbeeld regionaal verdeelde, synoniemen. Zo heet cerdo in veel Spaanstalige gebieden puerco, en pequeño (dat trouwens áchter het zelfstandig naamwoord komt, maar dat zal nauwelijks probleem opleveren) is in veel gevallen chico. Het begrip 'klein' wordt daarnaast vaak door een diminutiefvorm uitgedrukt. Let wel, ik ben benieuwd – het is niet sceptisch bedoeld.
Wat niet wegneemt dat ik het moeilijk blijf vinden om overtuigd te raken van het contra-intuïtieve idee dat pure statistiek op zeker moment gedegen zou kunnen vertalen. Loop ik op dat punt gewoon achter of woedt die discussie nog volop?
Marc van Oostendorp zegt
Je antwoord op de eerste vraag valt wel min of meer uit het artikel op te maken. Als allebei de varianten vaak genoeg voorkomen, komen die woorden dus op min of meer dezelfde plaats te staan in het statistisch veld. Ze fungeren dan als synoniemen. Ik geloof niet dat hun systeem de mogelijkheid biedt om die 'synoniemen' dan regionaal te classificeren, maar dat lijkt me geen principiële kwestie.
Wat betreft het tweede lijkt mij twijfel inderdaad nog steeds gerechtvaardigd, al geloof ik dat in 'de industrie' inmiddels bijna iedereen statistiek gebruikt. De bottleneck zit hem daar denk ik wel eerder in de grammatica dan in de woordenschat. Al vraag ik me in dit geval wel af hoe goed het systeem werkt voor twee talen die in heel verschillende culturen gebruikt worden. In een andere cultuur brengt men immers misschien wel heel andere begrippen in verband met 'hond', 'kat', e.d. dan in de westerse, en dan verandert zo'n semantisch veld mogelijk sterk van structuur. (In het artikel vergelijken ze heel even Vietnamees en Engels. Dat werkt wat minder goed, maar gebeurt bovendien alleen op basis van nieuwsberichten, en dat zijn mogelijk cultureel wat minder bepaalde teksten.)