Door Marc van Oostendorp
Terwijl de managers in de academische wereld nog documenten schrijven waarin ze big data als dé grote revolutie van de komende twintig jaar in de digital humanities zien, houdt het bedrijfsleven het inmiddels voor gezien. Dat blijkt uit nu weer uit een berichtje dat in een onopvallend hoekje van het internet verscheen: Franz Och, sinds 2004 het hoofd van Google Translate, gaat voor een bedrijf werken dat zich bezig houdt met genetische codes.
Franz Och is niet zomaar iemand die bij Google werkte, Och is Google Translate, de man die het systeem opzette, de man die er enkele jaren geleden nog grootse plannen mee had. Het systeem werkt tussen tachtig talen, maar het is inmiddels ook duidelijk dat er nauwelijks nog schot in zat. Het openingsartikel van de website van The Guardian van vandaag begint volgens Google Translate zo:
Vital gegevens over telefoon hacken werd ingehouden op de Press Complaints Commission als het hield zijn onderzoek naar de News of the World onderscheppen van voicemailberichten ‘s.
Beloning
De enige zichtbare verbetering die er de afgelopen jaren is bereikt is dat er een stuk of vijftien nieuwe talen zijn toegevoegd, van Bengaals tot Esperanto. En enkele geleden verscheen voor het eerst sinds een half jaar weer een aankondiging op het weblog van Google Translate: dat gebruikers voortaan geheel zonder enige beloning verbeterde vertalingen kunnen aanleveren!
Fluitje van een cent
Het weblog noemt het een nieuwe ‘community’ (‘In de nieuwe gemeenschap, vindt u opties om te helpen met een verscheidenheid van dingen, met inbegrip van het genereren van nieuwe vertalingen en tevredenheid bestaande vinden‘), maar het is volkomen onduidelijk waarom meer dan een handjevol mensen wereldwijd mee zou doen met deze community. Er staat niets tegenover je hulp, niet eens enige virtuele erkenning.
De rek is er dus inmiddels uit. En dat weerspiegelt de hele geschiedenis van het computervertalen sinds de jaren vijftig van de vorige eeuw: om de zoveel jaar is er een nieuwe technologische ontwikkeling (de computers zijn sneller, er is een nieuwe programmeertechniek ontdekt) die wordt toegepast op het automatisch vertalen. Dat levert resultaten op die weliswaar niet perfect zijn, maar met enige goede wil wel te begrijpen: ieder woord opzoeken in het woordenboek en vertalen levert al zo’n resultaat op en dat kan de computer natuurlijk best. Vervolgens ontstaat enorm optimisme: als we met relatief weinig inspanning al iets begrijpelijks kunnen maken, is het laten maken van een vloeiende tekst een fluitje van een cent!
Nadenken
Na een paar jaar blijken de verwachtingen niet te zijn ingelost, verdwijnen de ingenieurs naar elders, en is het wachten op de nieuwe technologische doorbraak. Waarop de cyclus opnieuw begint.
We zitten nu dus in het dal van de cyclus. Zou Frans Och nu ineens naar een heel ander gebied overstappen als hij nog geloofde dat de doorbraak nabij was in het machinevertalen? Het is kenmerkend dat hij naar een bedrijf verdwijnt dat met genetische codes werkt, en dat dit bedrijf nu zegt dat DNA – dat immers bestaat uit strengen van genetische ‘letters’ – eigenlijk ook een soort taal is. Van diep inzicht in taal getuigt dat niet.
Het werkelijke probleem is dat taal meer lijkt te zijn dan een streng van letters, dat woorden relaties met elkaar hebben over veel grotere afstand en waarvoor je de zin moet begrijpen bvc (‘Jan zegt Piet dat hij wil komen’: hij verwijst waarschijnlijk naar Jan; ‘Jan zegt Piet dat hij moet komen’: hij verwijst waarschijnlijk naar Piet). Het probleem is dat we nog veel te weinig weten van hoe dat werkt, en dat de enige manier om dat te weten komen is: diep, hard nadenken.
En waarschijnlijk nog vele jaren lang. Het probleem is en blijft dat taal op allerlei manieren nauw verbonden is met de menselijke geest. En dat de menselijke geest tot heel veel in staat is, maar misschien niet tot het begrijpen van iets zo ingewikkelds van de menselijke geest.
Conservatisme
Je kunt dus gemakkelijk te verspellen wat er gebeurt. Google Translate gaat een paar jaar kwijnen: het wordt natuurlijk nog wel gebruikt, maar niet substantieel beter meer; misschien worden er nog wat talen toegevoegd, want bij iedere taal heb je natuurlijk dit begineffect: kijk, dit kan er al! Maar lekker leesbaar wordt het niet.
Over een jaar of vijf komt er iemand met een nieuw idee. Over een jaar of tien is dat idee heel groot, en komen allerlei managers ons vertellen dat dit het nu echt is. En gaan hun hoofd schudden over onze scepsis, die ze zien als achterlijk conservatisme. Waarna ook dat project nog weer vijf jaar later zal instorten omdat de mens wel kan praten en luisteren, maar geen idee heeft hoe hij dat eigenlijk doet.
Rein zegt
Goed stuk. Maar haal het even door de vertaalmachine. 😉
Ben Verhoeven zegt
Ik sta ook skeptisch t.o.v. automatisch vertaling. Waarmee ik bedoel dat het nooit zo goed zal zijn als menselijke taal. Echter, ik geloof wel dat het nog beter kan.
Google heeft overigens (heel erg waarschijnlijk) intern een vertaalmachine die veel beter is dan Google Translate en ze gebruiken voor toepassingen waar geld mee te verdienen valt. Uiteraard stellen ze hun beste systeem niet gratis ter beschikking aan het grote publiek.
Kijk ook eens naar Jibbigo. Zij doen al speech-to-speech/text translation. Heb er eens een indrukwekkende demo van gezien.
Marc van Oostendorp zegt
Dank u. Over het vermoeden dat Google intern een betere vertaalmachine heeft, heb ik een maand geleden geschreven: http://nederl.blogspot.it/2014/06/mag-google-translate-niet-beter-worden.html
Marc van Oostendorp zegt
Ik heb overigens zelf een jaar of twintig geleden eens een heel indrukwekkende demonstratie gezien van een dicteermachine door een toentertijd alom bejubelde Vlaamse ondernemer op wie geen kritiek mogelijk was omdat hij het Silicon Valley aan de Schelde ging openen, en die niet veel lang daarna vanwege oplichting in de gevangenis zat.
Marc van Oostendorp zegt
Bon morceau. Mais prenez-la le moteur de traduction. 😉
Jan Stroop zegt
'Het niet-bestaan is de voornaamste eigenschap van de vertaalmachine' schreef Hugo Battus (Brandt Corstius) in 1980 (in: Rekenen op taal). Die eigenschap bezit de vertaalmachine dus nog steeds.
marinus zegt
Leuk stukje, Mark.
Waar Google Translate wel goed in is, is heel snel een paar mogelijke vertalingen produceren voor een woord of een korte zin. Daar moet je als vertaler nog wel de juiste uit kiezen. En daar moet je dan weer vertaler voor zijn.
En ook in het correct aanbrengen van accenten en leestekens in de Duitse taal, en niet alleen de Duitse taal.
Lekker leesbaar zijn is overigens ook niet altijd de de bedoeling van een vertaling, of van een orgineel document. Vooral diploma's, geboorteakten en dergelijke zijn niet lekker leesbaar, in geen enkele taal, en dat hoeven ze ook niet te zijn.
Het overbrengen van een idee van het ene menselijke brein naar het andere, volgens mij is dat de bedoeling van taal. Een computer kan dat, ideeën (trema dank zij GT) overbrengen, maar alleen met behulp van het internet. Om een idee op een correcte en lekker leesbare manier over te brengen, daar heb je de hulp van nog een menselijk brein bij nodig, het brein van een vertaler.
Wij vertalers gebruiken allerhande hulpmiddelen. Woordenboeken, Google Translate, forums op websites voor vertalers en zo voorts. Maar dat blijven hulpmiddelen, het brein van de vertaler moet de kronkel(s) hebben om er ook gebruik van te kunnen maken en er een vertaling mee te produceren die de geest van het orginele document openbaart.
Een computer geheugen (TM) gebruiken in plaats van je eigen geheugen en de eerder genoemde hulpmiddelen lijkt bijna bedrog, wacht, het is bedrog. Zeker wanneer je cliënt er niet van op de hoogte is. Gebruik maken van Google Translate om eens snel een woordje op te zoeken of een trema aan te brengen is gebruik maken van een hulpmiddel.
Een document vertalen met behulp van Google Translate, en de vertaling als "menselijk" aan een cliënt aanbieden is niet eerlijk, het is dus een vorm van bedrog.
Daarom, en natuurlijk omdat de vertalingen stuntelig overkomen, zijn Google Translate en haar broertjes en zusjes van andere aanbieders, gedoemd te sterven. Ik hoop wel dat Google of een andere provider ons de mogelijkheid blijft bieden om accenten en leestekens aan te blijven brengen.