Vorig jaar kondigde Google een nieuwe service aan voor zijn persoonlijke assistent: Duplex. Deze nieuwe service zou in staat moeten zijn om reserveringen te maken in bijvoorbeeld restaurants. De opnames die Google gebruikte waren indrukwekkend: het klonk natuurlijk en de reserveringen werden probleemloos gemaakt, ondanks dat de restaurantmedewerker een zwaar Chinees accent had. Maar na een test door de New York Times blijkt dat de toekomst van digitale persoonlijke assistenten wat minder rooskleurig is dan Google ons voorhield: Duplex doet nog lang niet alles en veelal vertrouwt Google nog op mensen om reserveringen te maken.
Ui
Waar zit nu precies het probleem? Laten we beginnen met een kanttekening: hoe simpel gesprekken ook lijken voor ons als mensen, ze zijn waanzinnig complex. We denken er in het dagelijks leven nooit bij na, maar vrijwel iedere persoon op aarde maakt gebruik van een zeer gedetailleerd systeem van normen en gebruiken in gesprekken, wat je keer op keer moet afstellen op je gesprekspartner(s). En daarbij zijn er natuurlijk legio subtiele veschillen tussen talen en culturen. Je kunt niet even dat systeem op een A4’tje zetten. De conversatieanalyse doet al zestig jaar onderzoek naar gespreksstructuren, en we zijn nog steeds niet verder dan de buitenste laag van de ui—nou vooruit, de een na buitenste laag.
Gelukkig voor ons hoeven we dat regelsysteem ook niet in detail te begrijpen om het aan een AI te leren, net zoals we ons niet bewust hoeven te zijn van die conventies als we ze leren als kinderen. Leren gaat door ervaring, en hier en daar wat correctie. Maar het meeste pakken we, net als taal zelf, op zonder dat we er bewust over na hoeven te denken. En voor AI’s geldt hetzelfde: Google ontwikkelt een neuraal netwerk dat leert hoe het gesprekken moet voeren door een stortvloed aan input. In zekere zin leert Duplex dus op een soortgelijke manier als de mens.
Leren
Maar nu komt het cruciale verschil: mensen zijn waanzinnig goed in leren. Het is ons lerend vermogen dat volgens evolutionair biologen als Kevin Laland ervoor heeft gezorgd dat we de dominante diersoort zijn. AI’s, hoe indrukwekkend ze soms ook zijn, zijn waanzinnig slecht in leren. Als je als kind wilt leren hoe je een boeken maakt bij een restaurant, doet je dat één of twee keer, en dan ken je de conventies. De volgende keer heb je er waarschijnlijk geen enkele moeite mee. Duplex was geruime tijd in ontwikkeling, bestaat nu al meer dan een jaar, heeft dus vele duizenden gesprekken aan input, maar kan het in veel gevallen nog steeds niet zelfstandig.
Een deel van het probleem van het leervermogen van de AI, is dat die nieuwe kennis geïntegreerd moet worden. Als menseneen nieuw gespreksgenre leren, zoals de restaurantreservering, dan hebben we al heel veel kennis die we daarbij gebruiken. We spreken de taal vloeiend, we zijn bekend met allerlei vormen van sociale interactie, en we weten in principe wat we willen door een restaurantreservering te doen. Duplex is anders, het moet specifiek getraind worden om restaurantreserveringen te maken. Het mist dus alle contextuele kennis en wereldkennis die we als mensen hebben, en die het voor ons zo gemakkelijk maakt om nieuwe dingen te leren.
Tweerichtingsverkeer
Waar Duplex in uitblinkt is hoe het klinkt: je hoort een stem die lijkt op een menselijke stem, en spraak is zelfs niet eens vloeiend om de hoorder maar het idee te geven dat er een mens aan de telefoon is. Maar dat lijkt me de gemakkelijke stap: spraakproductie is niet hetzelfde als spraakbegrip. Simpel gezegd, een gesprek is tweerichtingsverkeer; je bent continu aan het produceren en interpreteren, alles wat je doet stel je af op je gesprekspartner die hetzelfde doet. Duplex behandelt gesprekken veel meer als eenrichtingsverkeer. Het antwoordt weliswaar op vragen, maar een gesprek is nog steeds informatieoverdracht van de AI naar de hoorder. Daardoor klinkt Duplex realistisch, maar gaat het mis bij de details van hoe we gesprekken voeren.
Daarmee is niet gezegd dat ik Duplex een slecht systeem vind. Het laat zien waar de technologie nu toe in staat is. Het kan in redelijk wat gevallen, zonder menselijke tussenkomst, een reservering maken bij een restaurant. Maar de moeite die het kost om Duplex die ene functie te leren, in één taal, toont aan dat AI’s nog heel ver verwijderd zijn van de kunst om gesprekken te voeren.
Bovendien laat het nogmaals zien hoe bijzonder de menselijke taal is: met alle financiële en technische middelen die bedrijven als Google hebben, kunnen zelfs de beste technologieën zich bij lange na niet meten met het menselijk taalvermogen. Het is alsof je een gorilla gebarentaal leert; met heel veel geduld kan het beest een paar gebaren leren (soms een paar honderd) en een paar handelingen uitvoeren, maar taal blijft voorlopig nog het domein van de mens.
DirkJan zegt
Ik herinner me nog goed de internationale aandacht en hype over de mogelijkheden van Duplex en de verbazingwekkende kunstmatige reserveringsgesprekken die online kwamen. En nu blijkt het in de praktijk toch zwaar tegen te vallen en worden computergesprekken vaak overgenomen door een mens van vlees en bloed in een callcenter. Maar, zo wordt nu weer beweerd, de technologie en het leerproces gaan snel en binnen afzienbare tijd werkt het wel perfect.
Dit soort voorspellingen die steeds op uitkomen staan, maar nog niet zijn uitgekomen, over kunstmatige intelligentie lees ik al sinds de jaren tachtig en nog steeds is een computer niet meer dan een steeds sneller wordende kraker van steeds groter wordende hoeveelheden data, maar de kwalitatieve evolutie van de computer als intelligent denker blijft ver achter bij de kwantitatieve ontwikkelingen. Dat vertroebelt de zaak, meer en sneller rekenwerk betekent nog geen betere output. Dat is een misverstand.
[ Wat dat betreft lijkt de mens wel op een computer: goedgelovig en niet altijd in staat om te leren uit het verleden. ]