• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Alle talen lijken op elkaar

29 september 2013 door Marc van Oostendorp 2 Reacties

Een nieuwe vertaaltruc van Google
door Marc van Oostendorp


Wie wil weten hoe de taaltechnologie – onze kennis over hoe computers met taal kunnen omgaan – zich ontwikkelt, doet er goed aan om Google in de gaten te houden. Daar worden doorlopend slimme mensen aangesteld, bijvoorbeeld om te werken aan Google Translate.

Vorige week verscheen er een nieuw artikel op internet waarin een paar van die slimme jonge mensen een nieuwe techniek opbouwen om een vertaalwoordenboek op te bouwen tussen twee willekeurige talen, dat vervolgens (onder andere) door een computer gebruikt kan worden. (Hier is een artikel dat het idee moet populariseren, maar dat ik eerlijk gezegd pas begreep nadat ik het wetenschappelijke artikel gelezen had.)

Het interessante aan de nieuwe techniek is dat je het woordenboek bijna helemaal kunt maken door de computer eentalige teksten in allebei de talen te laten bestuderen.
Je hoeft slechts voor een handjevol woorden te weten hoe ze van de ene taal in de andere vertaald worden – de rest kan de computer dan automatisch afleiden uit hoe de talen in elkaar zitten. Want dat blijkt voor alle talen ruwweg hetzelfde – althans dat beweren de onderzoekers van Google.

De eentalige analyse werkt als volgt. De computer bekijkt duizenden (tienduizenden, miljoenen; enfin, u kent Google) teksten. Vervolgens kijkt het bij ieder woord welke andere woorden er onmiddellijk voor en na dat woord kunnen komen. Uit de zin ‘alle talen lijken op elkaar’ concludeert hij dus dat talen onmiddellijk voor lijken kan staan en op onmiddellijk erna. Nu zullen er heel veel zin zijn waarin lijken onmiddellijk gevolgd wordt door op, en minder waarin talen gevolgd wordt door lijken. Al dit soort informatie wordt nu statistisch bewerkt, zodat voor allerlei woorden en combinaties van woorden kan worden uitgerekend hoe waarschijnlijk het is dat een ander woord erop volgt. Met andere woorden: de relaties van alle woorden in de taal tot alle andere woorden in de taal kunnen worden uitgerekend.

Die relaties kun je weergeven in een grafiek, zoals hierboven is gebeurd voor de namen van een aantal dieren in het Engels en het Spaans. Wat daarbij opvalt: de plaatjes lijken heel erg op elkaar. De onderlinge relaties tussen de namen van huisdieren in het Engels lijken sterk op die in het Spaans.

De reden dat talen op elkaar lijken is dat ze allemaal dezelfde werkelijkheid beschrijven. Zo zou je de verticale as hierboven kunnen zien als de kans dat de dierennaam voorafgegaan wordt door het woord kleine. Die kans is groter voor kat dan voor hond en groter voor hond dan voor paard. (Het klopt niet precies, maar dat komt omdat het niet alleen maar gaat over kleine, maar honderdduizenden andere woorden.) Het maakt daarbij niet uit of je het hebt over het Engelse small cat of over het Spaanse pequeño gato.

De structuur van de woordenschat weerspiegelt zo de structuur van de werkelijkheid, zoals de sprekers deze zien. Omdat deze hetzelfde is, kun je de ene woordenschat op de andere afbeelden. Je hoeft in het bovenstaande plaatje alleen te weten dat cat correspondeert met gato en dog met perro en je kunt de vertalingen voor horse, cow en pig zo uitrekenen.

Delen:

  • Klik om af te drukken (Wordt in een nieuw venster geopend) Print
  • Klik om dit te e-mailen naar een vriend (Wordt in een nieuw venster geopend) E-mail
  • Klik om te delen op Facebook (Wordt in een nieuw venster geopend) Facebook
  • Klik om te delen op WhatsApp (Wordt in een nieuw venster geopend) WhatsApp
  • Klik om te delen op Telegram (Wordt in een nieuw venster geopend) Telegram
  • Klik om op LinkedIn te delen (Wordt in een nieuw venster geopend) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: computertaalkunde, e-humanities, taalkunde, vertalen

Lees Interacties

Reacties

  1. Gaston Dorren zegt

    29 september 2013 om 09:27

    Ik ben benieuwd hoe ze het probleem oplossen dat woorden soms uiteenvallen in twee, bijvoorbeeld regionaal verdeelde, synoniemen. Zo heet cerdo in veel Spaanstalige gebieden puerco, en pequeño (dat trouwens áchter het zelfstandig naamwoord komt, maar dat zal nauwelijks probleem opleveren) is in veel gevallen chico. Het begrip 'klein' wordt daarnaast vaak door een diminutiefvorm uitgedrukt. Let wel, ik ben benieuwd – het is niet sceptisch bedoeld.
    Wat niet wegneemt dat ik het moeilijk blijf vinden om overtuigd te raken van het contra-intuïtieve idee dat pure statistiek op zeker moment gedegen zou kunnen vertalen. Loop ik op dat punt gewoon achter of woedt die discussie nog volop?

    Beantwoorden
  2. Marc van Oostendorp zegt

    29 september 2013 om 10:03

    Je antwoord op de eerste vraag valt wel min of meer uit het artikel op te maken. Als allebei de varianten vaak genoeg voorkomen, komen die woorden dus op min of meer dezelfde plaats te staan in het statistisch veld. Ze fungeren dan als synoniemen. Ik geloof niet dat hun systeem de mogelijkheid biedt om die 'synoniemen' dan regionaal te classificeren, maar dat lijkt me geen principiële kwestie.

    Wat betreft het tweede lijkt mij twijfel inderdaad nog steeds gerechtvaardigd, al geloof ik dat in 'de industrie' inmiddels bijna iedereen statistiek gebruikt. De bottleneck zit hem daar denk ik wel eerder in de grammatica dan in de woordenschat. Al vraag ik me in dit geval wel af hoe goed het systeem werkt voor twee talen die in heel verschillende culturen gebruikt worden. In een andere cultuur brengt men immers misschien wel heel andere begrippen in verband met 'hond', 'kat', e.d. dan in de westerse, en dan verandert zo'n semantisch veld mogelijk sterk van structuur. (In het artikel vergelijken ze heel even Vietnamees en Engels. Dat werkt wat minder goed, maar gebeurt bovendien alleen op basis van nieuwsberichten, en dat zijn mogelijk cultureel wat minder bepaalde teksten.)

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Fred Portegies Zwart • Atlas

Bestaan vangt aan met woorden ademhalen
opdat wat om ons heen is wordt verstaan.
Wat is en schijnt laat zich pas gadeslaan
als chaos wordt ontbonden door vertalen.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

OKT. ’59

Een borstelige zee, schuim, regen slaat het schuine raam. [lees meer]

Bron: Tirade, juli-augustus 1961

➔ Bekijk hier alle citaten

Agenda

21 november 2025: Tekstselectie in het Nederlandse literatuuronderwijs

21 november 2025: Tekstselectie in het Nederlandse literatuuronderwijs

8 oktober 2025

➔ Lees meer
21 januari – 8 april 2025: Postacademische cursus Recente Nederlandse en Vlaamse letterkunde

21 januari – 8 april 2025: Postacademische cursus Recente Nederlandse en Vlaamse letterkunde

7 oktober 2025

➔ Lees meer
28 november 2025: Symposium Werkgroep Bilderdijk

28 november 2025: Symposium Werkgroep Bilderdijk

5 oktober 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1906 Frederik Zwaan
sterfdag
2024 Fred de Bree
➔ Neerlandicikalender

Media

Openingszitting Colloquium IVN

Openingszitting Colloquium IVN

8 oktober 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Wanneer is iets literatuur?

Wanneer is iets literatuur?

2 oktober 2025 Door Redactie Neerlandistiek 4 Reacties

➔ Lees meer
Webinar: vertaaltools en AI inzetten in een meertalige klas

Webinar: vertaaltools en AI inzetten in een meertalige klas

30 september 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
%d