Door Lucas Seuren
De wens om computers menselijke taal te leren is al vele decennia oud, maar tot op heden zijn ze daar slechts zeer beperkt toe in staat. Facebook kondigde onlangs een nieuwe engine aan die tekst van gebruikers beter moet gaan begrijpen: DeepText. Deze engine zou met bijna menselijke precisie tekst moeten kunnen begrijpen. Een erg stoutmoedige claim, en gelet op de uitleg die Facebook geeft ook volledig onterecht. DeepText is zeker een mooie sprong voorwaarts, maar laat ook zien dat computers nog een lange weg te gaan hebben voor ze menselijke taal, of in ieder geval tekst, net zo goed kunnen begrijpen als mensen zelf.
Op het moment kan Facebook verrassend weinig met de posts die de gebruikers plaatsen. Het is in zekere zin niet meer dan een uitgebreid woordenboek. Facebook kan woorden en zinsconstructies herkennen, maar heeft enorm veel moeite met relaties tussen woorden en kan nog minder met relaties tussen zinnen. Daardoor weet Facebook wanneer je bijvoorbeeld in het Engels een bericht plaatst over Apple of een Blackberry niet of het gaat om de vrucht, een bedrijf, of een specifiek product. Wij mensen kunnen disambigueren op basis van context – ik beweerde eerder zelfs dat ambiguïteit in menselijke taal vrijwel nooit voorkomt – en weten dus door de manier waarop woorden als Apple gebruikt worden, wat ze betekenen. Facebook heeft die vaardigheid niet.
Indexicaliteit
Een ander probleem voor Facebook is wat in technische termen indexicaliteit wordt genoemd. Facebook legt dit vrij helder uit: stel je post een foto van een baby met daarbij de tekst “dag 25.” Vrijwel iedereen zal snappen dat het gaat om jouw baby en dat deze foto is gemaakt toen die baby 25 dagen oud was. Dat weten we, omdat tekst en beeld hier samen worden gepresenteerd, en dus ook geïnterpreteerd: er is een indexicale relatie tussen tekst en beeld. Maar het enige wat Facebook nu ziet is een foto en tekst; wat de twee met elkaar van doen hebben weet de software niet.
DeepText zal dus verandering gaan brengen in dit soort zaken. Zo zal Facebook dankzij DeepText kunnen afleiden of je van fruit of telefoons houdt, en dat als je een babyfoto post, dit onder de noemer familienieuws moet vallen. DeepText kan ook zien dat bepaalde woorden nauw met elkaar verband houden, zowel binnen een taal, als tussen verschillende talen. Het ziet dus dat ‘happy birthday’ wel ongeveer hetzelfde is als ‘feliz compleaños’.
Intenties
Dit zijn allemaal grote en belangrijke stappen voorwaarts. Maar het gaat wel erg ver om te zeggen dat hiermee bijna-menselijk begrip van tekst kan worden bereikt. Facebook lijkt tekst (en taal) vooral te zien als een middel voor mensen om uitspraken over de werkelijkheid over te dragen. DeepText kan ervoor zorgen dat Facebook op woord- en zinsniveau begrijpt wat haar gebruikers doen, maar het daadwerkelijke doel van intenties lezen is nog altijd veel te hoog gegrepen. Daarmee weet Facebook dus dankzij DeepText misschien wel wat we zeggen, maar nog altijd niet wat we met die taal doen.
Om het wat technisch te formuleren: DeepText gaat uit van een een-op-een relatie tussen de taalkundige vorm van een post en de betekenis van die post, en is op zoek naar de propositionele betekenis. DeepText zoekt een uitspraak waarvan gezegd kan worden of die waar is of onwaar.
Afstemming
Waar DeepText niet mee kan omgaan, en waar computers mogelijk nog lange tijd veel moeite mee zullen hebben, is dat taalgebruik – net als elke andere vorm van communicatie – sterk leunt op aannames die sprekers over elkaar doen. Facebook redeneert bovendien op basis van een letterlijke betekenis, maar die bestaat mogelijk helemaal niet. We stellen ons taalgebruik af op onze gesprekspartners, onafhankelijk van of die taal nu is geschreven of gesproken. We houden rekening met de kennis die we denken dat onze gesprekspartner heeft en de conventies die gelden binnen de gemeenschap waarin we communiceren.
DeepText zal misschien snappen dat als iemand post “ik wil mijn fiets verkopen voor ongeveer €200,” die persoon iets wil verkopen, dat dat iets een fiets is, en dat hij/zij er (ongeveer) €200 voor wil hebben. Vervolgens kan Facebook advertenties leveren voor websites waar je tweedehandsfietsen kunt verkopen. Maar DeepText zal niet snappen wat ik bedoel als ik een wrakkige fiets post met daarbij de tekst “wie zoekt er een nieuwe fiets”: misschien is het een fiets die net uit de gracht is getakeld door de gemeente; misschien is het mijn fiets die door onbekenden is afgetuigd; en misschien is ga ik verhuizen en wil ik hem gratis weggeven.
Subtiel
Het klinkt misschien als een flauw voorbeeld, maar taalgebruik is veelal nog veel subtieler. Als we taal koppelen aan intenties, denken we vaak in vrij algemene termen: wil iemand een vraag stellen, een aanbod doen, een verzoek, etc.? Maar met die categorieën kunnen we taalgebruik niet adequaat beschrijven. Om maar een voorbeeld te noemen: onderzoek heeft aangetoond dat mensen nieuws aankondigen om ervoor te zorgen dat iemand anders naar dat nieuws vraagt. Op die manier kunnen we het daadwerkelijke nieuws geven als een antwoord op een vraag, in plaats van dat we het uit onszelf vertellen. Als ik bijvoorbeeld zeg “ik ben net naar Schotland geweest,” laat ik zien dat ik wat te vertellen heb en geef ik mijn gesprekspartner de kans om daarnaar te vragen. Ik zou niet weten welke intentie Facebook aan dat soort taalgebruik wil koppelen.
Nou wil ik hier niet zeggen dat DeepText geen nuttige ontwikkeling is en dat Facebook zijn tijd verdoet. Verre van zelfs. Facebook verdient geld met advertenties, en DeepText gaat absoluut helpen om het advertentieaanbod te verpersoonlijken. Hopelijk zal je in de toekomst minder vaak reclames zien voor een sporttas, als je net trots hebt aangekondigd dat je een nieuwe tas hebt gekocht. Maar door de manier waarop Facebook DeepText aankondigt laat het zien dat men niet begrijpt hoe complex menselijke communicatie in werkelijkheid is. De claim dat DeepText zorgt voor bijna-menselijk begrip is niet meer dan marketing, en doet het menselijk vermogen tot taalgebruik en taalbegrip enorm tekort. Taalgebruik bestaat uit meer dan de letterlijke betekenis van woorden en zinnen, en juist dat maakt het voor computers best lastig om het te leren.
Laat een reactie achter