• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Een intrigerend saai probleem: hoe zeg je 293.533?

16 maart 2022 door Marc van Oostendorp 5 Reacties

Kun je de getalsnamen leren, op basis van alleen voorbeelden? Stel, ik laat mijn dochter een lange rij getallen zien, uitgeschreven in cijfers (100.021, 23.533, 892, 5.543.849,…) en ik lees die getallen één voor één luid voor in het Nederlands (een miljoen een en twintig, drieëntwintig miljoen vijfhonderdrieëndertigduizend, achthonderd tweeënnegentig) zal ze dan ooit in staat zijn om zelf ieder willekeurig nieuw getal ook voor te lezen?

Misschien niet, zegt Richard Sproat, in een intrigerend kort artikel in het tijdschrift Computational Linguistics. In ieder geval kunnen computers het tot nu toe niet op die manier.

Leren op basis van voorbeelden is juist hét grote succes van de computertaalkunde in de afgelopen decennia. Alle bekende systemen – Google Translate, Alexa en Siri – hebben de taal niet geleerd doordat iemand allerlei taalregels of definities inprogrammeerde, maar alleen maar door ze enorme hoeveelheden voorbeelden te voeren: hier heb je miljoenen Engelse teksten met hun vertaling in het Frans, probeer daar zelf maar de regelmatigheden uit te vissen door er statistiek op uit te voeren. Die methode werkt beter dan alles wat er eerder beproefd is door te proberen de taal zo expliciet mogelijk te onderwijzen aan de computer.

Maar het voorlezen van getallennamen is daar dus een uitzondering op. Sproat heeft zelf zijn lange loopbaan lang gewerkt aan voorleessystemen: je geeft ze een geschreven tekst en er komt geluid voor. Een eerste stap daarbij is tekstnormalisatie: getallen worden omgezet in woorden, afkortingen worden uitgeschreven. En precies daarbij gaat het vaak fout, zegt Sproat.

Tekstnormalisatie wordt altijd als een wat saai onderdeel beschouwd van het hele proces, maar blijkt hier dus ineens interessant. Geleerden blijken nu zo overtuigd van het succes van die statistische methoden dat ze beweren dat alles op die manier gaat. Maar wij mensen leren natuurlijk ook niet alle aspecten van onze moedertaal op dezelfde manier: een heleboel pikken we moeiteloos op door als jong peutertje eindeloos te luisteren naar wat de volwassenen allemaal zo al zeggen. Sterker nog, het allergrootste deel van de taal leren we waarschijnlijk op deze manier. Maar sommige dingen leren we juist wel aan de hand van regels: op school bijvoorbeeld.

Dat is dus misschien het geval met getalsnamen. Het is een heel logisch systeem, maar er zijn ook wel héél veel mogelijke voorbeelden: alle getallen, dus in theorie oneindig (of als we ervan uitgaan dat je in de praktijk niet verder leert tellen dan een miljard, een miljard). De meeste van die voorbeelden komen vrijwel nooit voor in de praktijk voor. En dus is het systeem heel lastig te achterhalen – in ieder geval voor computers en misschien ook wel voor mijn dochter.

Delen:

  • Klik om af te drukken (Opent in een nieuw venster) Print
  • Klik om dit te e-mailen naar een vriend (Opent in een nieuw venster) E-mail
  • Klik om te delen op Facebook (Opent in een nieuw venster) Facebook
  • Klik om te delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Klik om te delen op Telegram (Opent in een nieuw venster) Telegram
  • Klik om op LinkedIn te delen (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: getallen, taalkunde

Lees Interacties

Reacties

  1. Jona Lendering zegt

    16 maart 2022 om 08:00

    Dat zal dan ook wel verklaren waarom eigennamen zo slecht worden vertaald. “Karel de Grote” zou “Charlemagne” moeten zijn in het Engels, maar wordt “Karel the Great” (wat op zich al beter is dan “Great Karel”).

    Ik herinner me ook “In the name of an orange” voor “In naam van Oranje”, al vermoed ik dat daar niet de zeldzaamheid van de uitdrukking een rol speelt maar het feit dat het een voor de computer vreemde zegswijze is.

    Beantwoorden
  2. erik+harteveld zegt

    16 maart 2022 om 12:29

    Honderduizendeenentwintig! Niet verkeerd voorzeggen, Marc!

    Beantwoorden
  3. Berthold van Maris zegt

    16 maart 2022 om 18:45

    Jammer dat je niet uitlegt waarom het niet kan.

    Beantwoorden
    • Marc van Oostendorp zegt

      16 maart 2022 om 22:17

      Ik ben geen expert, maar mij lijkt het probleem dat er heel veel getallennamen zijn (zelfs als je telt tot een miljoen heb je natuurlijk… een miljoen verschillende namen) en dat de meeste daarvan zelden of nooit voorkomen. Een systeem dat er op geen enkele manier opmerkzaam op wordt gemaakt dat hier een systeem in zit krijgt dus bijna per definitie te weinig informatie.

      Beantwoorden
  4. Weia Reinboud zegt

    17 maart 2022 om 11:24

    De computer zal het verschil niet zien tussen ‘honderdduizendeenentwintig’, ‘honderdduizend eenentwintig’, ‘honderd duizend eenentwintig’ enzovoort, maar je dochter vast wel!

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Astrid Roemer • Steffi huilt

Het geeft niet Poes
het geeft niet dat we
sterven

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

Het web houdt zijn gezicht hol in de wind,
de spin heeft het verlaten, sterren staan
er in, wind scheurt het van de aarde,
van leeggevreten gaten waait het schoon.

Bron: Maatstaf, oktober-november 1965

➔ Bekijk hier alle citaten

Agenda

31 januari 2026: Glanzende geheimenis / Hemelse vreugde – over P.C. Boutens 

31 januari 2026: Glanzende geheimenis / Hemelse vreugde – over P.C. Boutens 

12 januari 2026

➔ Lees meer
25 januari 2026: Wel verdiend, niet ontvangen

25 januari 2026: Wel verdiend, niet ontvangen

8 januari 2026

➔ Lees meer
17 januari 2026: Grondvergadering Jacob Campo Weyerman

17 januari 2026: Grondvergadering Jacob Campo Weyerman

7 januari 2026

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

sterfdag
1722 Francois Halma
➔ Neerlandicikalender

Media

In gesprek met auteur Jeroen Theunissen

In gesprek met auteur Jeroen Theunissen

12 januari 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Ik zie op tegen interviews…

Ik zie op tegen interviews…

11 januari 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Johanna Coomans, Margaretha van Godewyck en Gesina Brit

Johanna Coomans, Margaretha van Godewyck en Gesina Brit

10 januari 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2026 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d