Sommige van de belangrijke ontwikkelingen in de taalkunde komen uit de computertaalkunde – de discipline waar men probeert computers aan het praten, luisteren, schrijven en lezen te krijgen. Toen ik studeerde, stond het nog dicht bij wat andere taalkundigen deden, maar inmiddels heeft de technologie een grote, en eigen, vlucht genomen.
Er gebeurt, desondanks of daarom, van alles in dat vak. Ik heb de indruk dat ontwikkelingen er misschien wel sneller gaan dan elders, maar je leest er weinig over. De wetenschapsjournalistiek is om de een of andere reden niet bovenmatig geïnteresseerd – misschien omdat het onderwerp teveel tussen alfa en beta in valt – en de computertaalkundigen zelf hebben minder belangstelling voor outreach dan sommige andere groepen – misschien omdat ze gemakkelijk goede banen kunnen vinden en dus geen behoefte hebben uit te leggen wat ze aan het doen zijn.
Het bovenstaande, een paar weken geleden op YouTube verschenen, filmpje is een uitzondering. Het legt in twintig minuten helder uit waar men nu staat in de computertaalkunde, aan de hand van predictive text: de functionaliteit die veel mensen op hun telefoon hebben zitten en die (in ieder geval voor het Engels) kan voorspellen wat het volgende woord is dat je gaat typen. (Momenteel gaat onder taalkundigen toevallig een meme rond waarin je I’m a linguist and that means that I intikt en dit laat aanvullen met predictive text.)
I'm a linguist and that means I can not be the best person to do the same thing to you. https://t.co/2MwF92XhxB
— Marc van Oostendorp (@fonolog) August 13, 2019
Snelste computer
De simpelste vorm van predictive text is enkel gebaseerd op heel eenvoudige statistiek. Als deze schrijver het woord de heeft ingetikt, tikt hij meestal man, dus voorspellen we dat hij dat nu weer doet. Als hij de man heeft ingetikt, tikt hij daarna meestal is, enzovoort.
Het probleem is: als je zo een tijdje verder tikt, kom je heel vaak al heel snel op zinnetjes waar niets meer te voorspellen valt. Tik de man is zorgeloos en je hebt misschien een nieuwe zin gemaakt die je nooit eerder hebt getikt. Er valt niets meer te voorspellen. Je kunt dan wel zeggen: ik neem zinnen die ongeveer lijken op wat ik nu heb getypt (wat komt er na ‘de man is X’, wat komt er na ‘is zorgeloos’), maar als je zin ook maar iets langer wordt krijg je al heel snel heel veel verschillende mogelijkheden: zoveel zinnen die ongeveer lijken op wat je hebt ingetypt dat zelfs de snelste computer er niet meer uitkomt.
Logisch woord
De oplossing daarvoor is om te werken met een venster van een paar woorden: je kijkt alleen naar de twee of drie of vier woorden die eerder zijn gekomen. Maar dan dient zich weer een nieuw probleem aan: je hebt soms woorden nodig van buiten zo’n venster om de juiste keuze te kunnen maken.
- Paul denkt dat iedereen verliefd is op ….
Stel dat we in bovenstaande zin op de een of andere manier al hebben vastgesteld dat nu een persoonlijk voornaamwoord van de derde persoon enkelvoud moet komen. Je kunt dan kiezen uit hem / haar / het. Het meest voor de hand ligt dat je dan kiest voor hem, omdat eerder in de zin sprake is van Paul, en dat is een mannennaam.
Alleen staat Paul zeven woorden ver weg, en valt daardoor buiten ieder reëel venster.
Heel veel problemen in de automatische verwerking van taal – van Google Translate tot en met automatische spraakherkenners – vallen terug te voeren op dit probleem: woorden ondergaan langeafstandsrelaties met elkaar, en je moet dus soms heel ver terug kijken om te bepalen wat nu een logisch woord is.
Redelijk gesprek
Het buzzwoord is heden ten dage aandacht (attention). Je kunt best langere rijen met woorden overzien, wanneer je maar weet waar je op moet letten. Wanneer je moet kiezen tussen hem, haar en het, hoef je in een Nederlandse zin alleen te kijken naar de zelfstandig naamwoorden. De werkwoorden, de bijvoeglijk naamwoorden en de functiewoorden kun je negeren. En eigenlijk is van die zelfstandig naamwoorden alleen het geslacht van belang: wanneer je weet dat Jesse een mannennaam is, hoef je dat alleen te onthouden.
Het interessante daarbij is dat de computer hiervoor geen expliciete uitleg nodig heeft: je hoeft geen lesje woordgeslacht te formuleren. Het ding kan, als het door zijn programmeurs is uitgerust met aandacht, zelf leren dat de keuze tussen hem, haar of het lijkt te corresponderen met bepaalde typen woorden in de zin (die wij zelfstandig naamwoorden noemen) en niet met andere, en dat Paul meestal correspondeert met hij, hem en zijn.
Het lijkt sterk op mechanismen die elders in de taalkunde allang bekend zijn en die decennia geleden ook al in de computertaalkunde werden gebruikt, voordat daar de fascinatie voor statistiek alles kwam overnemen. Het is interessant om te zien hoe de combinatie van die statistiek met dit feitelijk oude idee nieuwe mogelijkheden biedt. Ik geloof niet dat het betekent dat de computer morgen een redelijk gesprek kan voeren, maar een stapje dichterbij dat doel lijken we toch wel weer te zijn.
Henk Smout zegt
Mijn verwachting is dat men mij niet zal geloven.
Meer dan tien jaar geleden ben ik met die gewoonte gestopt, maar de voorafgaande ongeveer drie decennia zag en vooral hoorde ik vrijwel elke dag Duitse tv. En als daar het eerste wat ik hoorde midden in een zin was, dan was keer op keer het verdere verloop zoals ik al dacht. Die gewaarwording had ik bij Nederlands nou nooit.
DirkJan zegt
Hoe zijn de ervaringen met predictive text in de praktijk als je een berichtje wilt opmaken? Valt dat niet tegen en is het niet eerder contraproductief en irritant als er ook verkeerd wordt voorspeld?
Johan Schipper zegt
Johan Cruijff. Zie je wel? Als ik mijn naam typ, verschijnt de achternaam van die andere, veel beroemdere, maar ook dodere, Johan.