Door Lucas Seuren
Al decennia wordt ons voorgehouden dat computers beter worden in praten met mensen. En hoewel ik niet zal ontkennen dat er vooruitgang is geboekt in de vorm van assistenten zoals Siri, Alexa, en Google Now, hebben ze nog een lange weg te gaan. Halverwege de vorige eeuw werd dit probleem geformaliseerd door Alan Turing, de voorvader van de computerwetenschap. Hij vroeg zich af of computers kunnen denken en stelde dat als een computer net zo handelt als een mens het antwoord ja is. Om dat te testen ontwikkelde hij de naar hem vernoemde Turing Test. Het idee is simpel: kan een mens op basis van een gesprek raden of hij gesproken heeft met een computer of met een ander mens? Of in een iets andere vorm: kan een robot een mens foppen?
Op het oog lijkt deze test simpel. In de praktijk lopen we alleen tegen een belangrijk probleem aan: mensen rationaliseren op basis van wat ze weten van de wereld. Hoe gek een robot dus ook praat, we zullen in eerste instantie heel veel moeite doen om die rariteiten te verklaren als normaal menselijk gedrag. Met andere woorden, als we iets zien wat niet strookt met ons beeld van de wereld, dan passen we ons beeld van de wereld niet aan, maar zoeken we naar een manier waarop onze waarneming toch strookt met ons wereldbeeld.
Verklaringen
Een mooie illustratie van dit fenomeen werd door Harold Garfinkel besproken in zijn proefschrift in 1952. Hij liet mensen die medicijnen wilden studeren selectiegesprekken beluisteren. In sommige gesprekken kwam de kandidaat erg goed over, en in andere erg slecht. Vervolgens vroeg hij zijn proefpersonen wat ze van de kandidaat vonden. Niet geheel verrassend werden goede kandidaten ook goed beoordeeld. Maar nu komt de crux. Hij vertelde zijn proefpersonen vervolgens dat als de kandidaat goed was, deze niet was toegelaten, en als de kandidaat slecht was, deze wel was toegelaten, en vroeg toen opnieuw naar de mening van proefpersonen. De overweldigende meerderheid stelde hun oordeel bij. Als hij ze vroeg hun antwoord toe te lichten gaven ze vervolgens vergezochte verklaringen, maar op die manier brachten ze hun waarneming dus in overeenstemming met de werkelijkheid. Anders gezegd, mensen doen veel moeite om rare observaties toch te verklaren aan de hand van hun kennis over de wereld.
Deze neiging is een enorm probleem voor de Turing Test, want het betekent dat zelfs als robots zich vreemd gedragen, mensen bewust of onbewust proberen dat gedrag af te doen als normaal gedrag.
Wie is de robot
Ik zal dit iets verder toelichten. Je kunt de Turing Test op twee manieren uitvoeren: je vertelt proefpersonen op voorhand niet dat ze mogelijk met een robot te maken hebben, of je vertelt het ze wel. Als je het ze niet vertelt, dan komt de lat vrij laag te liggen. Onze aanname is immers dat we te maken hebben met een mens. Met andere woorden, ons wereldbeeld vertelt ons dat we met een ander mens in gesprek zijn. En hoe gek het gedrag is dat iemand mogelijk ook vertoont, we zijn goed in staat om dat te rationaliseren. Dus het is relatief eenvoudig voor een robot om ons te foppen, als we niet weten dat het mogelijk een robot is.
Maar wat nu als onze proefpersonen wel weten dat er mogelijk een robot is. We laten ze met twee mensen praten en ze moeten raden wie van de twee de robot is. De lat komt hiermee natuurlijk hoger te liggen, maar daarmee is het probleem nog niet de wereld uit. Mensen doen immers ook rare dingen, en we hebben geen flauw idee waar we op moeten letten als we mens van robot willen onderscheiden.
Een kort voorbeeldje om dit te illustreen. Google publiceerde een aantal gesprekken die Duplex had gevoerd om bijvoorbeeld restaurantreserveringen te maken. In een van deze gesprekken zit het volgende stukje dialoog dat voer was voor een uitgebreide Twitterdiscussie met een groep collega’s:
Duplex: I’d like to reserve a table for Wednesday the seventh. (‘Ik zou graag een tafel reserveren voor woensdag de zevende.’)
Restaurant: For seven people? (‘Voor zeven personen?’)
Duplex: Uhm, it’s for four people. (‘Uhm, het is voor vier personen.’)
Is hier iets bijzonders aan de hand? Duplex wil een reservering maken voor de zevende, maar de restaurantmedewerker lijkt te begrijpen dat het voor een groep van zeven is, waarna Duplex vertelt dat het om vier mensen gaat. Een klein misverstand, waarvan we er in het degelijks leven legio tegenkomen. Het lijkt me dus sterk dat iemand hier zou opmerken dat er iets vreemds aan de hand is.
Toch kan je speculeren dat Duplex zich hier niet menselijk gedraagt. De medewerker lijkt een ja/nee-vraag te stellen, maar Duplex reageert alsof het gaat om een vraagwoordvraag; ‘for how many people’ of iets dergelijks. Een beter antwoord was geweest ‘no for four people’. Waarom Duplex niet zo antwoordt weet ik niet, maar dat ligt ongetwijfeld aan hoe het systeem geprogrammeerd is.
Om het geheel nog lastiger te maken: je zou kunnen zeggen dat ik met deze analyse juist probeer om een afwijkende observatie in overeenstemming te brengen met mijn wereldbeeld. Ik denk dat ik in staat ben om robot van mens te onderscheiden, en dus zoek ik naar mogelijke rariteiten die aantonen dat robots niet praten zoals mensen. Dus de tegenhanger is dat ik extra slecht ben in het onderscheiden van robots van mensen…
Rationaliseren
En dat brengt me weer terug bij het probleem met de Turing Test: mensen zijn goed in rationaliseren. We proberen in eerste instantie onze waarnemingen te verklaren vanuit wat we weten van de wereld. Zelfs als de twee volstrekt met elkaar in tegenspraak zijn, dan nog zullen we ons wereldbeeld niet snel verwerpen. Dat is op zich natuurlijk handig; je wilt niet bij de eerste de beste zwarte zwaan alles wat je weet overboord gooien. (De keerzijde is dat we vasthouden aan complottheorieën, ook al is er meer dan genoeg bewijs tegen.) Mensen, of ze nu wetenschappers zijn of niet, hebben wat steviger bewijs nodig. Het nadeel is dat een Turing Test misschien helemaal geen goede indicator is van of computers kunnen denken: dat we niet doorhebben dat we met een computer praten zegt mogelijk meer over ons als mens dan over de intelligentie van de computer.
AV DRepe (@kneistonie) zegt
De computer zou in Turing-test2 moeten uitvinden of de gesprekspartner een mens is…
Lucas zegt
Dat zou een leuke zijn 🙂 heel wat complexer programmeerwerk
DirkJan zegt
Hoewel ik begreep dat Turing zelf dacht dat een denkende, menselijke computer goed mogelijk was, zie ik het als een aardig gedachte-experiment, maar ook niet meer dan dat. Je hebt wel specialistische computers die binnen een heel klein kader schijnbaar adequaat kunnen communiceren, maar vraag je wat buiten de gebaande paden, zoals, Waarmee kun je het beste een ei bakken?, dan vallen al dit soort testen gelijk door de mand. Een computer kan goed en snel rekenen en veel onthouden, maar vooralsnog nooit fundamenteel en flexibel denken als een mens.
Marc van Oostendorp zegt
Als de lat zo laag ligt voor de Turing-test, is het des te wonderlijker dat geen enkele computer ervoor geslaagd is.Zelfs tot het kleine beetje coherentie dat nodig is om een mens te misleiden zijn computers niet in staat. Hierbij moet wel gezegd worden dat de Turing-test een gesprek moet zijn over willekeurig welk, door de menselijke tester bedacht onderwerp, en dus niet iets betrekkelijk afgebakends als het reserveren van een tafel in een restaurant.
Harry Reintjes zegt
Intermenselijke communicatie is al vaak zo lastig en dubieus, zeker als het gaat om onbepaalde, relatieve zaken: gevoel, gevoelens, smaak. Wel zou computertaal daarbij (soms) kunnen helpen.
Mens: “Is het koud daar?” a) antwoord mens: “Nou, verschrikkelijk, ik blijf binnen” b) antwoord computer: “Het is -3 celsius bij een zwakke zuidwestenwind” of “Definieer koud”. Hetzelfde geldt voor begrippen als lekker, pijn etc. M.a.w. daar zouden we wat explicieter in kunnen zijn.
Maar zijn gevoelens vast te leggen in/op chips (ik bedoel niet croky 😉 ).
Zodra dat het geval is, zie ik de ultieme Turing-test met belangstelling tegemoet.
Lucas zegt
Turing Test in zijn oorspronkelijke vorm is volgens mij niet meer dan A die vragen stelt aan B en C en moet raden of B of C de computer is; en volgens mij gaat het dan niet om spraak, maar tekst (gaat om denken, niet stem-imitatie). Maar er is genoeg discussie over wat de Turing Test moet inhouden.
Overigens is het hele punt dat mensen die coherentie dus niet nodig hebben; die leggen we op aan de omstandigheden. Zodra er indexicaliteit is, twee uitingen volgen op elkaar, gaan we zoeken naar coherentie, want we nemen aan dat die coherentie er wel zal zijn. Net zoals we overal patronen zien; dat is nu eenmaal wat mensen doen. Ook al zijn die patronen maar zelden reflectief van een onderliggende systematiek.
Er waren chatbots die mensen al voor de gek konden houden, doordat een beetje coherentie al meer dan genoeg is. En computers kunnen mensen al foppen in zeer selecte omstandigheden. Zoals het reserveren van een restaurant. Collega liet gesprekken aan 25 studenten horen en niemand had het door.
DirkJan zegt
Nog over dat systeem van restaurantreserveringen. Het werkt natuurlijk niet met een imitatiestem, maar met stukjes gesproken woorden, zinnen die met knip- en plakwerk aan elkaar worden gezet. Op zich knap, maar het wekt snel een overtuigende indruk van met een echt mens van doen te hebben, maar het arsenaal aan ingesproken zinnen en woorden is maar heel beperkt. Niet voor niets dat het systeem ook niet echt in de praktijk werkt.
Marc van Oostendorp zegt
‘Overigens is het hele punt dat mensen die coherentie dus niet nodig hebben; die leggen we op aan de omstandigheden.’ Dat gaat toch wel voorbij aan de leeservaring van een heleboel experimentele literatuur.
Lucas zegt
En het is juist de uitkomst van veel ander onderzoek 🙂
AV DRepe (@kneistonie) zegt
Het probleem is in de filmwereld al een enkele keer ogepakt.
Dan moet een echte alien bewijzen dat hij aan de menselijke kant staat zonder zich te verraden.
Op de een of andere manier lukt dat qua logisch redeneren mits dat gebeurt vanuit menselijk perspectief. En daarom mislukt het.
“If I may chip in, as a fellow human,….”
AV DRepe (@kneistonie) zegt
“Als ik mezelf zou kunnen verraden dan is dat via een expliciet gemaakte modaliteit…”
DirkJan zegt
En dan lees ik net dat naast Google en Amazon, ook Apple gebruikers afluistert bij zijn virtuele spraakassistent Siri om het systeem te verbeteren. Een grove privacyschending en ik ben blij dat ik niet mee doe aan al die malle narigheid.
En dan zijn er ook ‘slimme speakers’ op de markt, dat zou een hype worden, maar dat betwijfel ik. Je kan dan met een simpele spraakcommando je lichten dimmen of uitdoen, of de verwarmingsthermostaat bedienen. Klinkt allemaal mooi en aardig, maar wie heeft zulke draadloze wifi-systemen aan zijn verlichting en thermostaat hangen? Allemaal veel te duur en te omslachtig. Ik doe wel met de hand het licht uit.
AV DRepe (@kneistonie) zegt
Ik ben toch van menng dat Duplex hier heel vriendelijk een misverstand uit de wereld wil helpen. Vier personen.