Door Marc van Oostendorp
Het festival Lowlands bestaat 25 jaar, maar ik was er nog nooit geweest: altijd te oud en te weinig geneigd tot kamperen en tot het beluisteren van popconcerten en in het algemeen te saai. Ik was er dit weekeinde één dag, voor de wetenschap. Er ging een wereld voor me open.
Mijn jonge, tot kamperen geneigde, hippe, onsaaie collega Folgert Karsdorp was er verantwoordelijk voor. Hij is tegenwoordig een van de liedonderzoekers op het Meertens Instituut, en hij zet daar de modernste middelen voor in. Hij bouwde deze keer met collega’s uit Antwerpen en uit Londen een computer die rapteksten schrijft en hij ging naar Lowlands om die computer daar een ‘Turing Test’ te laten ondergaan: bezoekers kregen op een scherm een échte raptekst te zien en een door de computer gemaakte en moesten gokken welke de echte was.
Gigantisch
Uit puur idealisme voor de wetenschap verbleven Folgert en zijn collega’s – onder wie de Antwerpse professor Mike Kestemont en trouwens ook bijvoorbeeld onze Groningse collega Martijn Wieling, die er metingen stond te doen van festivalgangers die al dan niet onder invloed van alcohol een vreemde taal probeerden te spreken – vier dagen op het Lowlands-terrein. Maar ik was te oud en te moe en der dagen zat, zodat ik maar één dag ben geweest.
Ik heb er geleerd hoe goed het is dat er wetenschappers zijn die dat doen, op zo’n stukje gaan staan van zo’n gigantisch festivalterrein.
Jong en energiek
Van de ruim vijftigduizend bezoekers die het festival bezoekt, komt er natuurlijk maar een fractie naar het wetenschapsdeel: misschien is het een tiende die langskomt. Maar dat zijn dan nog altijd vijfduizend mensen. (Het zou me niet verbazen als het er nog iets meer zijn.) Dat zijn mensen die in hun vrije tijd, terwijl ze ook bier hadden kunnen drinken of naar een concert hadden kunnen gaan iets komen leren over wetenschap. Dat zijn, kortom, heel leuke mensen.
Mensen die nieuwsgierig zijn, mensen die iets te weten willen komen.
En natuurlijk krijgen ze dan geen volledige colleges, hoewel er op het terrein ook films over wetenschap werden getoond en discussies werden georganiseerd over wetenschappelijke onderwerpen. Maar ze komen wel in contact met echte wetenschappers, ze zien hoe de wetenschap een deel kan zijn van je leven en wat voor interessante onderwerpen er allemaal te onderzoeken zijn. De meeste wetenschappers die er staan zijn, zoals Folgert, zelf ook jong en energiek.
Genoeg
Het team van het Meertens Instituut presenteerde de Turing-test vooral als een quiz, waarbij je dus voor punten kon raden welke teksten geschreven waren door de computer. (Je kunt het spelletje zelf hier spelen.) Meer beloning dan het halen van die punten – die je ook nog eens werden toegekend onder een door de computer bedacht pseudoniem – was er niet. Behalve dan dat je een beetje uitleg kreeg, en dat je mee mocht doen aan een experiment.
Er zijn gelukkig nog genoeg jonge mensen in Nederland die het daarvoor doen.
Hanneke Eggels zegt
Heel goed, dit ezelsbruggetje naar een frisse kijk op ons aller wereldbeeld! Wat mij nu als ouwe dichter – slechts behept met menselijke verbeeldingskracht – bijzonder interesseert zijn de resultaten: Kortom hoeveel testers er waren en hoeveel het goed hadden. En of de deelnemers met een juiste score soms ook zelf gedichten schrijven en wat hun opleiding is.
Wouter van der Land zegt
Wat een mooie manier om een interessante onderzoekslijn onder de aandacht te brengen.
Maar nu ben ik ook wel benieuwd wat jullie ECHT hebben zitten te meten.
Marc van Oostendorp zegt
Het was ‘what you see is what you get’: het was echt een Turing-test, Wel werden verschillende modellen gebruikt bij het genereren, die meer of minder aandacht besteedden aan bijvoorbeeld rijm of flow, om te zien wat voor invloed dit heeft. Het is een zijlijn in het onderzoek van Folgert Karsdorp en Mike Kestemont, maar dat gaat anderzijds wel degelijk ook over de mogelijkheden om literatuur (en liederen) automatisch te analyseren en te genereren, dus de analyse van deze resultaten levert hopelijk ook echt wat op.
(En over de vraag hierboven: de nummer 1 was zelf een rapper, maar mijn informele indruk was dat uitzonderlijk hoge scores meer te maken hadden met de kennis van het repertoire van de deelnemers dan met hun eigen actieve betrokkenheid.)
DirkJan zegt
Leuk hoor dat rapspelletje, maar ook als niet Lowlandsganger mis ik de achtergronden hoe dit programma is opgezet en vooral werkt. Ok. er zijn 60.000 Engelse rapteksten gebruikt als basismateriaal, maar dan? Hoe werkt bijvoorbeeld de ‘seed’ om de zinnen te maken? Hoe groot is daarbij de invloed van een mens?
Ik heb de quiz gedaan en de afgelopen tijd ook wat gegenereerde raptweets gelezen van het speciale MC Turing-Twitteraccount. Maar dan denk ik, dit zijn net als voor de quiz uitgekozen zinnen, geselecteerd door mensen op basis van begrijpelijkheid uit een zee van gegeneerde zinnen. Hoe zit het met al die andere zinnen die nergens op slaan, grammaticaal en semantisch en die niet worden gepresenteerd? Die krijgen we dan denk ik niet te zien. Dat maakt MC Turing voor mij een wat ongeloofwaardig figuur.
Marc van Oostendorp zegt
Eerst even terzijde: ik schrijf iedere dag hier een stukje. Uw voornaamste reactie daarop is steevast, dat u het niet genoeg vindt. Ik kan alleen maar zeggen: meer wordt het niet. Wanneer ik iedere dag alles wat ik doe en waar ik mee bezig ben moet documenteren, dan kan ik die dingen dus niet meer doen en alleen nog schrijven over hoe ik aan het bloggen ben. Dat lijkt mij saai.
De teksten die in de quiz worden gebruikt zijn niet door de mens geselecteerd. Het zijn (steeds andere) willekeurig gegenereerde teksten. U kunt de quiz net zo lang doen als u wilt, ik denk niet dat u twee keer dezelfde tekst tegenkomt. Dat is het bewijs. Het geldt als ik het goed heb m.m. ook voor de échte fragmenten, die worden steeds willekeurig door de computer uit dezelfde grote database getrokken op basis waarvan het algoritme heeft ‘geleerd’ om teksten te maken. Hier is er dus wel een kans dat er twee keer precies dezelfde regels uit precies hetzelfde nummer worden getrokken, maar die kans is nog steeds behoorlijk klein.
DirkJan zegt
Dank u wel over de toelichting over de quiz, blijft alleen de menselijke hand in de keuze van de tweets van MC Turing.
Maar ik verwacht niet van u om achtergronden te geven bij dit programma. dat lijkt me iets voor het programma zelf of anders de website van het Meertens Instituut waar het is ontwikkeld.
Marc van Oostendorp zegt
De tweets van MC Turing werden (ik neem aan dat het account nu stopt) met de hand gemaakt, behalve de tweets waar een tekst staat in een plaatje. Die teksten zijn tijdens Lowlands door bezoekers gemaakt aan de hand van het programma. De computer genereerde steeds 6 zinnen waar de gebruiker er 1 uitkoos. Daarop suggereerde de computer dan weer 6 zinnen, waar de gebruiker weer uitkoos. Die lyrics zijn dus het resultaat van interactie tussen mens en computer.
DirkJan zegt
Ik was van het weekend nog wel een artikel op de site van de Volkskrant tegengekomen met wat meer achtergronden, maar het heeft juist mijn interesse om dan te weten, hoe zó’n zogenaamd neuraal netwerk wordt getraind en hoe – stap voor stap – alleen maar al één rapzin online wordt gegenereerd. Is dat zo gek om te willen weten, of is het gek dat daar geen antwoord op is te vinden?
https://www.volkskrant.nl/cultuur-media/rapper-mc-turing-heeft-een-indrukwekkende-flow-voor-een-robot~b92eba4e/
Marc van Oostendorp zegt
Het is niet gek om dat te willen weten, maar misschien bent u aan het verkeerde adres.
Over Deep Learning (de hier gebruikte techniek) zijn er verschillende MOOCs gemaakt (makkelijk te googlen), en ook is er bijvoorbeeld dit boek. Het is allemaal behoorlijk ingewikkeld, dat moet ik erbij zeggen.
Ook in mijn ideale wereld zou het voor iedereen die dat wil mogelijk zijn zich via internet vanaf een stukje als het bovenstaande zelf zo te informeren dat hij of zij uiteindelijk dat boek kan lezen en dan zelf aan de slag kan. Maar om bij zoiets te komen zou je denk ik tientallen zo niet honderden miljoenen euro’s moeten investeren (want het zou voor alle wetenschapsgebieden moeten gelden) en vermoedelijk vindt de gemeenschap dat niet de moeite waard. We moeten dus roeien met de riemen die we hebben.
DirkJan zegt
@marcvanoostendorp Dat goochelaar Hans Klok zijn trucs voor zich houdt, snap ik, maar als ik u goed begrijp is het niet mogelijk of niet zinvol om bij een heel concreet programma als MC Turing in begrijpelijk Nederlands uit te leggen hoe het werkt?
DirkJan zegt
Vandaag verscheen op Nemo Kennislink een kort artikel met nog een klein beetje extra info die niet in het stuk van de Volkskrant stond. Maar ik vind het nog steeds te weinig om voor geïnteresseerden inzicht te geven hoe dit concrete neurale netwerk met teksten werkt, wordt getraind en het een (rap) tekst kan genereren. De technologie vind ik veel interessanter dan het (beperkte) resultaat zelf.
https://www.nemokennislink.nl/publicaties/computer-dropt-rap-teksten-tijdens-lowlands/
DirkJan zegt
Nog even. In het artikel van Kennislink intrigeert me onderstaande passage:
“In die grote hoeveelheid data is de computer zelf op zoek gegaan naar patronen en verbanden, vergelijkbaar met hoe hersenen informatie verwerken. Dat resulteerde in een neuraal netwerk, een systeem dat complexe taken kan uitvoeren én daarvan leert.”
Weten we dan hoe onze hersenen informatie verwerken? Dit soort taal blijft voor mij cryptisch als het om ‘neurale netwerken’ gaat. Wel weet ik dat er twee stromingen zijn binnen de wereld van artificiële intelligentie (AI). De ene geeft hoog op van de mogelijkheden om een machine als een mens kunstmatig te laten denken over complexe problemen, de andere is meer sceptisch en vindt de AI-systemen nog steeds niet meer dan een statistisch programma dat enkel grote hoeveelheden data over een heel beperkt onderwerp met veel rekenkracht kan analyseren.
En daarom ben ik steeds zo nieuwsgierig hoe een programma als MC Turing, of Google Translation descriptief werkt, zonder op programmeerniveau te kijken, ik wil graag weten wat er stap voor stap gebeurt. Een digitaal neuraal newerk, een feit of een illusie?