Door Lucas Seuren
De afgelopen decennia heb ik regelmatig claims gezien dat computers spoedig probleemloos kunnen communiceren met mensen, en dat we het niet eens meer door zullen hebben als we met een AI praten. Maar tot op heden waren dialoogsystemen absoluut niet in staat om de Turingtest te doorstaan; we maken nog altijd eenvoudig onderscheid tussen een menselijke gesprekspartner en een AI. Maar het lijkt er nu op dat Google toch een flinke sprong voorwaarts heeft gemaakt met Duplex.
Wie luistert naar de voorbeeldopnamen die Google heeft gedeeld kan niet anders dan onder de indruk zijn van de effectiviteit waarmee Duplex gesprekken kan voeren en afspraken kan maken. Duplex weet wat hij of zij—ik ga voor sekse maar af op de gebruikte stem—moet zeggen, wanneer hij of zij het moet zeggen, en hoe hij of zij het moet zeggen. Natuurlijk, wie met een kritisch oor luistert merkt dat we nog altijd met een AI te maken hebben, maar Duplex brengt ons op een punt dat die kennis irrelevant is. We kunnen normaal praten met Duplex; we hoeven niet meer moeilijk te doen om ervoor te zorgen dat de computer ons kan verstaan zoals met bijvoorbeeld Siri of Alexa nog vaak het geval is.
Leren door te luisteren
Het idee achter Duplex is verrassend eenvoudig—als we natuurlijk de waanzinnig complexe technologie die nodig is buiten beschouwing laten. De technici laten Duplex naar een enorme database van telefoongesprekken luisteren, zodat het kan leren hoe mensen normaal met elkaar praten. Het leert daarbij dus hoe te handelen, doordat het hoort hoe mensen in normale situaties handelen. Vervolgens wordt het getraind in specifieke genres, zoals het maken van een reservering, waarna Duplex zelfstandig contact kan opnemen met een restaurant of kapper. Duplex heeft dan genoeg kennis om te snappen wat er verwacht wordt.
Het resultaat is, zoals in onderstaande opnamen te horen is, waanzinnig. Duplex weet op de juiste momenten de juiste dingen te zeggen, waardoor de medewerker gewoon normaal kan blijven praten. Met andere woorden, de medewerker lijkt niet door te hebben dat hij of zij met een AI praat. En het resultaat is een afspraak of de benodigde informatie.
Duplex maakt restaurantreservering
Duplex maakt afspraak bij kapper
De kunde van Duplex zit hem deels in kleine dingen, zoals Google zelf ook al opmerkt. Duplex gebruikt wat Google speech disfluencies noemt zoals uh en mhm—ik zou dit betekenisvolle interjecties noemen, maar daar kom ik zo op terug—en gooit er zelfs een interjectie zoals oh in als blijkt dat een reservering niet kan en hij alle benodigde informatie heeft. Dat zijn precies de bijdragen die een AI normaal nooit zou leveren, omdat het geen woorden zijn; ze worden vaak niet gezien als onderdeel van ons lexicon en onze grammatica en AI’s krijgen ze dus niet aangeleerd. Ze leveren dus een enorme bijdrage aan een gevoel van realisme.
Subtiele verschillen
Kan Duplex de Turingtest dan feilloos doorstaan? Daar zet ik momenteel nog mijn vraagtekens bij. De data die Google laat horen zijn natuurlijk de succesverhalen; het is niet duidelijk hoe vaak het nog misgaat. Bovendien is op een aantal punten nog wel te merken dat je Duplex aan de telefoon hebt.
Zo zijn de stiltes soms opmerkelijk lang. Google geeft aan dat de gemiddelde stilte tussen twee beurten inmiddels maar 100ms is, wat precies is wat je in het dagelijks leven zou verwachten. Sterker nog, het is eigenlijk te snel! Want in het Engels is de gemiddelde tijd tussen twee beuren ruim 200ms. Maar als we corrigeren voor het onderscheid tussen gewenste en ongewenste reacties ligt de grens bij 50ms. En daar ligt de crux. Duplex maakt dat onderscheid niet. Google snapt weliswaar dat mensen gevoelig zijn voor latency, maar koppelt dat aan grammaticale complexiteit. Dus stiltes moeten kort zijn na een korte zin, en lang na een lange zin. Maar zo werkt interactie niet. En wie luistert naar de voorbeeldjes zal merken dat de stiltes soms onnodig lang zijn.
Een tweede aspect waar Duplex nog moet oefenen is zijn inzet van die uhs en mhms. Google behandelt ze simpelweg als disfluencies, als onderbreking van de natuurlijke stroom van spraak. En soms klopt dat, maar vaak gebruiken we uh op een veel tactischere manier. We laten bijvoorbeeld zien dat we niet op een woord kunnen komen, wat iets anders is dan nadenken over wat we willen gaan zeggen. Of we gebruiken het om duidelijk te maken dat we de beurt nog niet willen overdragen. En die functies hangen samen met de plek waarop we uh zeggen.
Voorbeeld
Wie op die kleine dingen let, hoort bijvoorbeeld de vrij gekke onderstaande uitwisseling. Duplex belt een restaurant om een reservering te maken voor vier personen op de zevende. Maar ze doen niet aan reserveringen voor minder dan vijf personen; je moet gewoon langskomen. Duplex vraagt dan hoe lang de wachttijd normaal is.
Dup: How long is the wait usually to uh be seated?
Res: for when? Tomorrow or weekday or?
Dup: For next Wednesday. Uuh the seventh.
Deze uitwisseling is vreemd om een aantal redenen. Ten eerste zit er iets van 1,2 seconde stilte tussen de vraag van de restaurantmedewerker en Duplex, wat waanzinnig lang is. Zeker aangezien Duplex probleemloos een antwoord kan geven. Het zou veel meer in de buurt van 100ms moeten liggen. Daarnaast is Duplex te specifiek: hij “begrijpt” de vraag als een vraag naar een specifieke dag en datum, maar het gaat om gemiddelde wachttijden. Logischer was geweest als Duplex had gezegd dat het om een woensdag of doordeweekse dag gaat. Ook is de intonatie wat afwijkend. Na Wednesday is Duplex hoorbaar klaar; the seventh komt er op een vrij onnatuurlijke manier achteraan. En tot slot is de plek van uh vreemd. Een normaal mens zou dit doen, als hij of zij bijvoorbeeld ter plekke moet uitvogelen welke datum dat is, maar Duplex “weet” dat al, heeft het zelfs al gezegd. De uh hoort daar dus niet.
Als je nu denkt, Lucas, je bent aan het muggenziften, dan klopt dat absoluut. Ik wil niks afdoen aan de prestatie van Google, want de gesprekken zijn erg realistisch. Ik durf niet eens te garanderen dat als ik Duplex aan de telefoon krijg om een reservering te maken, ik zou weten dat het om een AI gaat. Misschien zou ik het gesprek wat vreemd vinden, maar daar is dan ook alles mee gezegd. Voor dit soort gesprekken lijkt Duplex te volstaan, en dat extra beetje realisme hebben we niet nodig.
Alledaagse gesprekken
En daar is gelijk de laatste kanttekening. Duplex is niet in staat normale gesprekken te voeren. Dat is best te begrijpen; in gesprekken als hierboven is er een relatief beperkte set handelingen die je moet doen, en dus hoeft Duplex nog niet heel taalvaardig te zijn. Alledaagse gesprekken zijn exponentieel complexer; ze hebben vaak geen vast doel, beurt voor beurt kan het gesprek een nieuwe wending krijgen, en we vertrouwen op een enorme hoeveelheid gedeelde kennis. Stiltes van meer dan een paar honderd milliseconden zijn bovendien al vaak een probleem, laat staan 1,2 seconde. De rekenkracht die nodig is om relatief simpele gesprekken te voeren laat wel zien dat alledaagse interactie voorlopig nog een brug te ver is voor Duplex. Maar het zou me niet verbazen als over een paar jaar AI’s al onze reserveringen voor ons maken. Dan kun je niet langer als excuus opvoeren dat je vergeet de tandarts te bellen; je telefoon zal je er wel aan herinneren.
DirkJan zegt
Er lijken me twee zwaarwegende mankementen aan bijvoorbeeld een restaurantreserveringssysteem te kleven. Is het wel handiger, sneller en betrouwbaarder om dat via een automatisch gesprekssysteem te doen dat je vooraf (en achteraf) zelf gedetailleerd moet aansturen en is het niet effectiever om zoiets toch zelf te doen? Dan weet je zeker of je reservering ook is gelukt. Ik zou zoiets niet snel omslachtig uit handen geven. Bovendien zijn het juist restauranthouders die vaak met een zwaar buitenlands accent spreken en zou het me niet verbazen als zo’n kunstmatige robot daar vaak niets van verstaat en er in de dagelijkse praktijk van goed reserveren niet veel terecht komt. En uit de voorbeelden maak ik op dat de robot niet echt diep luistert, kan ook niet. Ik blijf sceptisch bij dit soort (laboratorium?)voorbeelden. Het is juist die natuurlijke gesprekstoon die zand in je ogen strooit.
( Dat je een robot aan de lijn hebt, lijkt me alleen maar handiger om aan het begin van een gesprek te weten. Ik begrijp niet waarom dat zou moeten worden verzwegen en het gesprek noodzakelijk vloeiend realistisch moet zijn om een mens te faken, daarmee gaat het natuurlijk snel mis bij afwijkende gesprekjes en onverwachte vragen. )
Lucas Seuren zegt
Maar die dame in het restaurant heeft juist een zwaar accent, en dat veroorzaakt duidelijk geen noemenswaardige probleem. Dit is een echt restaurant, geen laboratorium, dus het lijkt al aardig te werken. (De blog van Google toont een leuke foto van twee medewerkers die met dit systeem een geslaagde reservering hebben gemaakt.)
De robot hoeft ook niet diep te luisteren. Het zijn simpele opdrachten en die kan het dus al in sommige gevallen aan. En het kost natuurlijk geen enkele moeite voor Google om even een pop-up op te telefoon te tonen met de uitslag, en het gelijk automatisch in je agenda te zetten als de reservering geslaagd is. Die nazorg lijkt me te verwaarlozen.
DirkJan zegt
Die vrouw heeft een accent, maar is verder goed te verstaan, ik vind het niet maatgevend voor iemand met een zwaar buitenlands accent. En als Duplex zo goed alles kan verstaan, waarom zit het dan nog niet op telefoons? Het is altijd, ‘de systemen werken nu niet optimaal, maar op korte termijn is alles verholpen’. Dat hoor en lees ik al heel wat jaren, ook dit is niet meer dan een belofte.
En of het een echt restaurant is, waag ik te betwijfelen. De restaurantmedewerker zegt niet welk restaurant ze vertegenwoordigt en de spreker zegt ook niet wie hij is. Zo werkt dat in de praktijk niet. Ik zou zo’n systeem zelf met een headset achter mijn pc willen uitproberen.
En ik geloof nog wel in de automatische nazorg bij een juiste reservering, maar wat moet je als gebruiker allemaal doen in je mobiel om een reservering te activeren voor bijvoorbeeld Chinees restaurant Chin La in Rotterdam? Dat gaat echt allemaal niet vanzelf voordat de robot gaat bellen. En dan voorzie ik tal van beren op de weg bij kleine alternatieven en extra vragen. Het klinkt allemaal heel mooi, maar ik zie het in de praktijk niet werken. Ook niet over tien of vijfentwintig jaar.
Lucas Seuren zegt
Dit is dus wel de praktijk; je naam noemen doe je in de VS niet direct als je reservering maakt in restaurant of bij de kapper.
Ik begrijp je scepsis, maar ongetwijfeld was dit de mindset ook tien jaar terug over telefoons die je informatie zouden geven als je erom vroeg, of je boodschappen doen bij Amazon. En inmiddels hebben de heren technici ook heel wat jaartjes ervaring met het optimaliseren van stemherkenning voor die systemen.
En ja, het is een belofte, een ondersteund met bewijs dat het in de praktijk werkt. De iPhone werkte ook niet optimaal twee jaar voor ie op de markt kwam, en zelfrijdende auto’s moeten ook nog doorontwikkeld worden. Dat geldt voor werkelijk elke technologie, of die nu uiteindelijk wel of niet werkt. Daar kun je dus echt niks uit afleiden.
Je mag me over 10 en 25 jaar nog wel mailen om het in te wrijven als bleek dat het allemaal een illusie was. Al vraag ik me af wie er over 25 jaar nog per telefoon een reservering zou willen maken, gezien de technologische ontwikkelingen in de laatste 25 jaar. Mijn afspraken bij de kapper maak ik al jaren digitaal; gewoon moment prikken dat hij vrij heeft in de agenda en klaar. Telefonisch reserveren is niet meer van deze tijd.
Marc van Oostendorp zegt
Ik durf er wel wat om te wedden dat dit soort gesprekjes nooit echt gevoerd gaan worden. Want het lijkt me onlogisch te verwachten dat er ooit een tijd komt dat particulieren wel met zo’n assistent werken en bedrijven niet. Maar dan kunnen die computers natuurlijk veel efficiënter hun informatie uitwisselen dan met al die sociale smeerolie die mensen nodig hebben in hun gesprekken.
DirkJan zegt
Dus u ziet praktisch gezien weinig obstakels meer? Dan weet ik het nog mooier, maak ook van de restauranthouder een gesproken robot om reserveringen aan te nemen. Dan kunnen de robots samen met elkaar praten en gegevens uitwisselen. Tel uit je winst. 🙂
Lucas zegt
Ik zeg nergens dat ik weinig obstakels zie; ik zeg dat Duplex een aantal hordes heeft weten te nemen die dialoogsystemen al decennia in de weg staan.
Waar het me om gaat is dat waar computers voorheen alleen goed waren in heel basale, feitelijk niet-interactionele taken, zoals het opzoeken van informatie, ze nu ook complexere taken kunnen uitvoeren waarvoor ze daadwerkelijk met mensen moeten kunnen praten. Waarbij ze uitingen moeten kunnen produceren en begrijpen in een context.
Feitelijk zijn restaurantreserveringen niet meer dat een case study. Het gaat om de technologische ontwikkeling, niet om het praktisch nut. En feit is dat de opgenomen gesprekken een enorme vooruitgang zijn in mens-robot-interactie, dat ze aantonen dat we robots steeds beter kunnen trainen in het nadoen van mensen. Als dat niet indrukwekkend is, dan weet ik het echt niet meer.
James Sjaalman zegt
Het accent-probleem is een schijnprobleem, IMO. Speach-to-text is al beschikbaar als module/subunit, en accenten herkennen vergt hoogstens een extra laag in een neuraal netwerk+een hoop training. (volgende stap: een andere taal)
De dialoog/conversatie zelf is het moeilijkst. Maar er is een lichtpuntje: er zijn doelen: tijd/plaats. Dus je kunt per doel leuteren totdat alle grijze plekken zijn ingekleurd.
Een tweede lichtpuntje is dat het domein heel beperkt is. Het apparaat hoeft geen conversaties over kernfusie of voetbal te voeren.
Peter-Arno Coppen zegt
Wat je bij taal- en spraaktechnologie ook vaak ziet is dat gebruikers zich bij nuttige technologie best willen aanpassen aan die technologie. De hamvraag is dus in eerste instantie of dit wel een nuttige technologie is met een duidelijke meerwaarde over ‘gewoon’ reserveren.
DirkJan zegt
Maar het zal Google mogelijk niet zijn te doen om een echt optimaal functionele applicatie, maar vooral om te laten zien dat ze een natuurlijk menselijk gesprek binnen een klein domein kunnen genereren. Maar om dat verder op zijn waarde te schatten. zou ik meer willen weten, zoals hoeveel voorgeprogrammeerde zinnen hun database omvat, of misschien wel hoe weinig, want het gaat immers maar om een klein afgebakend gespreksonderwerp. De suggestie wordt gewekt alsof er achter de gesprekszinnen, met af en toe een variabele, complexe kunstmatige intelligentie zit, ik denk dat de technologie veel simpeler met een beperkt aantal sjablonen werkt.
En het roept bij mij meer vragen op en vooral waarom het niet nu tijdens de jaarlijkse persconferentie van Google operationeel is gemaakt en pas van de zomer wordt toegevoegd aan de Google Assistant. En dan denk ik, nu scoren ze maximaal met twee beperkte voorbeelden en straks kraait er geen haan meer naar als het in de praktijk slecht blijkt te werken.
DirkJan zegt
[ En ik mag dan sceptisch zijn, en ik heb ook al twee maal eerder uitgebreid in reacties doorgezaagd en doorgezeurd over Google Translate, maar ik zou oprecht zo graag eens willen weten hoe de kunstmatig intelligente techniek praktisch en concreet achter dit soort systemen werkt: Ik typ in bij Google Vertalen: “Ik heb een roodharige aap gekocht op de dierenmarkt van Madagaskar”, druk op ‘vertaal naar Engels’, en wat gebeurt er dan stap voor stap in de software? Die nieuwsgierigheid (en scepsis) heb ik ook bij de gespreksrobot voor de reserveringen. ]
DirkJan zegt
In de Taalpost van Onze Taal staat vandaag een linkje naar een artikel in de New York Times van twee hoogleraren die Google Duplex teleurstellend vinden. Ik wil en kan dat verder niet beoordelen, want – zoals eerder aangegeven – ik weet niet hoe het systeem precies werkt en hoe groot of hoe klein hun antwoord-dataset is. Misschien is het in werkelijkheid nog wel veel teleurstellender. Maar Google is net als een goochelaar, die verklapt om den brode ook zijn truc niet precies.
https://www.nytimes.com/2018/05/18/opinion/artificial-intelligence-challenges.html
Vork zegt
Een paar losse reacties:
Over het accent: de KI kan best uitvogelijk wat voor accent dat is en in de moedertaal van de andere spreker verdergaan.
Over de KI aan de andere kant: er zal een moment komen waarop twee KI’s per toeval met elkaar in gesprek komen. Ik stel me zo voor dat ze dat van elkaar herkennen (bijvoorbeeld door een voor mensen onhoorbare toon die wordt meegezonden aan het begin van het gesprek) en dat ze de complete conversatie in een halve seconde af kunnen ronden.
Verder: de ontwikkeling op het gebied van kunstmatige intelligentie staat niet stil, en die op vrijwel alle andere gebieden ook niet. Je moet er dus bij extrapolatie rekening mee houden dat de versie van deze techniek over tien jaar niet op zich staat: ook de rest van de technologie zal tien jaar verder zijn. Als je je niet voor kan stellen dat dit over tien jaar gemeengoed is, moet je er dus even bij bedenken dat de rest van de wereld ook tien jaar verder is. Om maar eens wat te noemen: wat voor telefoon had jij tien jaar geleden? En hoe goed kon je auto zelf al navigeren?
De hier gedemonstreerde techniek zal worden gecombineerd met andere technieken. Technologie gaat in kleine stapjes vooruit en daarom lijkt er niet altijd veel te veranderen maar als je alle stappen van een jaar bij elkaar optelt worden het ineens zevenmijlslaarzen. De opvolger van Duplex zal er eerder zijn en zal beter zijn dan we verwachten. [Titulaer-modus uit]