• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Een intrigerend saai probleem: hoe zeg je 293.533?

16 maart 2022 door Marc van Oostendorp 5 Reacties

Kun je de getalsnamen leren, op basis van alleen voorbeelden? Stel, ik laat mijn dochter een lange rij getallen zien, uitgeschreven in cijfers (100.021, 23.533, 892, 5.543.849,…) en ik lees die getallen één voor één luid voor in het Nederlands (een miljoen een en twintig, drieëntwintig miljoen vijfhonderdrieëndertigduizend, achthonderd tweeënnegentig) zal ze dan ooit in staat zijn om zelf ieder willekeurig nieuw getal ook voor te lezen?

Misschien niet, zegt Richard Sproat, in een intrigerend kort artikel in het tijdschrift Computational Linguistics. In ieder geval kunnen computers het tot nu toe niet op die manier.

Leren op basis van voorbeelden is juist hét grote succes van de computertaalkunde in de afgelopen decennia. Alle bekende systemen – Google Translate, Alexa en Siri – hebben de taal niet geleerd doordat iemand allerlei taalregels of definities inprogrammeerde, maar alleen maar door ze enorme hoeveelheden voorbeelden te voeren: hier heb je miljoenen Engelse teksten met hun vertaling in het Frans, probeer daar zelf maar de regelmatigheden uit te vissen door er statistiek op uit te voeren. Die methode werkt beter dan alles wat er eerder beproefd is door te proberen de taal zo expliciet mogelijk te onderwijzen aan de computer.

Maar het voorlezen van getallennamen is daar dus een uitzondering op. Sproat heeft zelf zijn lange loopbaan lang gewerkt aan voorleessystemen: je geeft ze een geschreven tekst en er komt geluid voor. Een eerste stap daarbij is tekstnormalisatie: getallen worden omgezet in woorden, afkortingen worden uitgeschreven. En precies daarbij gaat het vaak fout, zegt Sproat.

Tekstnormalisatie wordt altijd als een wat saai onderdeel beschouwd van het hele proces, maar blijkt hier dus ineens interessant. Geleerden blijken nu zo overtuigd van het succes van die statistische methoden dat ze beweren dat alles op die manier gaat. Maar wij mensen leren natuurlijk ook niet alle aspecten van onze moedertaal op dezelfde manier: een heleboel pikken we moeiteloos op door als jong peutertje eindeloos te luisteren naar wat de volwassenen allemaal zo al zeggen. Sterker nog, het allergrootste deel van de taal leren we waarschijnlijk op deze manier. Maar sommige dingen leren we juist wel aan de hand van regels: op school bijvoorbeeld.

Dat is dus misschien het geval met getalsnamen. Het is een heel logisch systeem, maar er zijn ook wel héél veel mogelijke voorbeelden: alle getallen, dus in theorie oneindig (of als we ervan uitgaan dat je in de praktijk niet verder leert tellen dan een miljard, een miljard). De meeste van die voorbeelden komen vrijwel nooit voor in de praktijk voor. En dus is het systeem heel lastig te achterhalen – in ieder geval voor computers en misschien ook wel voor mijn dochter.

Delen:

  • Klik om af te drukken (Wordt in een nieuw venster geopend) Print
  • Klik om dit te e-mailen naar een vriend (Wordt in een nieuw venster geopend) E-mail
  • Klik om te delen op Facebook (Wordt in een nieuw venster geopend) Facebook
  • Klik om te delen op WhatsApp (Wordt in een nieuw venster geopend) WhatsApp
  • Klik om te delen op Telegram (Wordt in een nieuw venster geopend) Telegram
  • Klik om op LinkedIn te delen (Wordt in een nieuw venster geopend) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: getallen, taalkunde

Lees Interacties

Reacties

  1. Jona Lendering zegt

    16 maart 2022 om 08:00

    Dat zal dan ook wel verklaren waarom eigennamen zo slecht worden vertaald. “Karel de Grote” zou “Charlemagne” moeten zijn in het Engels, maar wordt “Karel the Great” (wat op zich al beter is dan “Great Karel”).

    Ik herinner me ook “In the name of an orange” voor “In naam van Oranje”, al vermoed ik dat daar niet de zeldzaamheid van de uitdrukking een rol speelt maar het feit dat het een voor de computer vreemde zegswijze is.

    Beantwoorden
  2. erik+harteveld zegt

    16 maart 2022 om 12:29

    Honderduizendeenentwintig! Niet verkeerd voorzeggen, Marc!

    Beantwoorden
  3. Berthold van Maris zegt

    16 maart 2022 om 18:45

    Jammer dat je niet uitlegt waarom het niet kan.

    Beantwoorden
    • Marc van Oostendorp zegt

      16 maart 2022 om 22:17

      Ik ben geen expert, maar mij lijkt het probleem dat er heel veel getallennamen zijn (zelfs als je telt tot een miljoen heb je natuurlijk… een miljoen verschillende namen) en dat de meeste daarvan zelden of nooit voorkomen. Een systeem dat er op geen enkele manier opmerkzaam op wordt gemaakt dat hier een systeem in zit krijgt dus bijna per definitie te weinig informatie.

      Beantwoorden
  4. Weia Reinboud zegt

    17 maart 2022 om 11:24

    De computer zal het verschil niet zien tussen ‘honderdduizendeenentwintig’, ‘honderdduizend eenentwintig’, ‘honderd duizend eenentwintig’ enzovoort, maar je dochter vast wel!

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Jonathan Griffioen • Abnormale kinderen

Ja, Rutger Kopland is blauw.
M. Vasalis is blauwer,
veel blauwer, rode grond met blauwe
bergen. Kopland is grijzer, ik zag nooit
grijzer blauw.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Agenda

21 juni 2025: J.H. Leopold-lezing

21 juni 2025: J.H. Leopold-lezing

19 mei 2025

➔ Lees meer
10 juni 2025: Lezingenmiddag Indische Letteren

10 juni 2025: Lezingenmiddag Indische Letteren

19 mei 2025

➔ Lees meer
23 mei 2025: Nijmegen taalhoofdstad

23 mei 2025: Nijmegen taalhoofdstad

16 mei 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1903 Cornelis Stutterheim
1904 Leendert van Dis
sterfdag
2020 Hugo Ryckeboer
➔ Neerlandicikalender

Media

Van Hogwarts naar Zweinstein

Van Hogwarts naar Zweinstein

20 mei 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Verschenen: Romanreuzen

Verschenen: Romanreuzen

15 mei 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
25. alkalommal rendezték meg a Magyarországi Néderlandisztika Napját

25. alkalommal rendezték meg a Magyarországi Néderlandisztika Napját

15 mei 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d