• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Oplossing voor taalkundig probleem van 100 jaar oud

10 augustus 2017 door Redactie Neerlandistiek 6 Reacties

(Persbericht Radboud Universiteit)

Wist je dat in iedere taal het meest voorkomende woord ongeveer twee keer zo vaak voorkomt als het op een na meest voorkomende woord? Deze wet genaamd ‘Zipf’s law’ is al ruim een eeuw oud, maar tot nu toe lukte het wetenschappers niet om het verschijnsel precies te verklaren. Taalwetenschapper Sander Lestrade van de Radboud Universiteit publiceerde een oplossing voor dit notoire probleem in het wetenschappelijk tijdschrift PLOS ONE.

Zipf’s law beschrijft hoe de frequentie van een woord in natuurlijke taal afhankelijk is van zijn rangorde in een frequentietelling. Het meeste voorkomende woord komt twee keer zo vaak voor als het op een na meest voorkomende woord, drie keer zo vaak als het woord daarna, en zo door tot aan het minst voorkomende woord (zie Figuur 1). De wetmatigheid is vernoemd naar de Amerikaanse linguïst George Kingsley Zipf die deze rond 1935 als eerste probeerde te verklaren.

Figuur 1. Zipfiaanse verdeling van de frequentie (verticale as) en rangorde (horizontale as) in Melvilles Moby Dick. De lijn is door Zipf voorspeld, de puntjes geven de daadwerkelijk gevonden frequenties in de tekst.

Grootste raadsel van de computationele taalkunde

‘Ik denk dat je best kunt stellen dat Zipf’s law het grootste raadsel van de computationele taalkunde is’, aldus Sander Lestrade, taalwetenschapper aan de Radboud Universiteit. ‘Tot nu toe is de wet nooit fatsoenlijk taalkundig onderbouwd.’ Lestrade toont nu aan dat Zipf’s law te verklaren is door de interactie tussen de zinsbouw en regels (syntaxis) en de betekenis van woorden (semantiek) in een tekst. Met behulp van computersimulaties toont de onderzoeker aan dat syntaxis of semantiek op zichzelf geen Zipfiaanse distributie in een tekst tot stand kunnen brengen, maar dat ze elkaar daarvoor ‘nodig hebben.

‘In de Nederlandse taal, en trouwens ook in de Engelse, zijn er bijvoorbeeld slechts drie lidwoorden, maar tienduizenden zelfstandige naamwoorden’, legt Lestrade uit. ‘Je gebruikt voor bijna ieder zelfstandig naamwoord een lidwoord, en dus komen lidwoorden gemiddeld veel vaker voor dan zelfstandige naamwoorden.’ Maar dat is niet voldoende om Zipf’s law te verklaren. ‘Binnen de zelfstandige naamwoorden heb je ook weer grote verschillen. “Ding” is bijvoorbeeld veel algemener dan “onderzeeboot”, en kan dus in principe vaker gebruikt worden. Maar om daadwerkelijk frequent voor te komen, moet een woord ook weer niet te algemeen zijn. Als je de betekenisverschillen binnen woordklassen “vermenigvuldigt” met de behoefte aan iedere klasse, krijg je een schitterende Zipfiaanse verdeling, die precies zo afwijkt van het Zipfiaanse ideaal als natuurlijke taal doet. Want Zipf’s law klopt eigenlijk net niet helemaal, zoals je kunt zien in Figuur 1.’

Voorspellingen op basis van Lestrades nieuwe model blijken volledig overeen te komen met verschijnselen in natuurlijke taal. ‘En mijn theorie geldt voor grofweg alle talen, dus niet alleen voor het Nederlands of het Engels’, stelt hij. ‘Ik vind deze vondst echt heel leuk, en ben overtuigd van mijn oplossing. Maar, de bevestiging moet natuurlijk van andere taalkundigen komen.’ 

Publicatie:

Lestrade S (2017) Unzipping Zipf’s law. PLoS ONE 12(8): e0181987. https://doi.org/10.1371/journal.pone.0181987

 

Delen:

  • Klik om af te drukken (Opent in een nieuw venster) Print
  • Klik om dit te e-mailen naar een vriend (Opent in een nieuw venster) E-mail
  • Klik om te delen op Facebook (Opent in een nieuw venster) Facebook
  • Klik om te delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Klik om te delen op Telegram (Opent in een nieuw venster) Telegram
  • Klik om op LinkedIn te delen (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel, Nieuws Tags: computertaalkunde, corpusonderzoek, Wet van Zipf, Zipf

Lees Interacties

Reacties

  1. Carrotte zegt

    10 augustus 2017 om 11:43

    Wat zijn in het Nederlands de meest voorkomende woorden in volgorde van voorkomen?

    Beantwoorden
  2. DirkJan zegt

    10 augustus 2017 om 16:12

    Ik heb een veel simpelere oplossing voor dit taalraadsel: 42.

    Beantwoorden
  3. Anton zegt

    10 augustus 2017 om 17:50

    Humoristen als Charles Lamb, William Clarke, S.J. Perelman vervingen soms een eenvoudig woord door een volkomen obscuur exemplaar. Misschien om de lezer die het moest opzoeken het prettige gevoel te geven dat die nu een stuk dichter bij de beschaving stond, je weet het niet.

    De woordplot van elk verhaal zou er natuurlijk hetzelfde uitzien als het eenvoudige woord was gebruikt.

    De woordfrequentietelling — want meer is het niet — in de zin van Zipf is de som van denkbare uitingen. Een plot zoals de bovenstaande draagt daar 1/zeerveel aan bij. Ik zou het wel supermooi vinden als de som van syntactische en semantische mogelijkheden zo gelijk loopt aan de som der bedachte taaluitingen als hier wordt gesteld.

    Andere toepassingen kunnen wel aardig laten zien dat een frequent gebruikt naamwoord als ‘racisme’ (topicalisatie) ten koste gaat van de variatie in argumentatie (van Anne Fleur Dekker).
    Of, op hoger niveau, zou je er leuke dingen mee kunnen vinden in De Metsiers of in Stijloefeningen.

    Beantwoorden
  4. Wildplasser zegt

    10 augustus 2017 om 23:29

    even een copy/paste van mijn reacties opTwitter(die toch niemand leest):

    Ik snap het probleem niet zo. Uiteindelijk is de bijdrage van een woord aan de totale entropie dus de som van de bijdrage van het naakte woord en die van zijn klasse(n).

    En het verschil met de “power-law” distributie komt doordat je met woordfrequentie in feite het verkeerde meet. Waarschijnlijk kom je met toevoeging van(de frequenties van) uitsluitend N-grammen ook al dichter bij de voorspelde verdeling.(N-gram als benadering vd bijdrage van syntaxis/klasse van het woord)

    Beantwoorden
    • Anton zegt

      11 augustus 2017 om 00:28

      Nou, N-grammen uit de grammatica gaan een heleboel overlappingen opleveren die met zijn allen opgeteld mijlenver afliggen van de verdeling van woordfrequenties in allerlei geturfde verhalen. Zipf op te vatten als gemiddelde van dat totaal.

      Beantwoorden
      • Wildplasser zegt

        11 augustus 2017 om 01:18

        Ik gebruik optellen, omdat ik in entropie reken. Dat gaat logaritmisch. Dat optellen is dus hetzelfde als de vermenigvuldiging met de “behoefte” van de woordklasse in het artikel hierboven.

        Trouwens: Zipf’s law is niet alleen “naar boven”uit te breiden, maar ook “naar onderen”: ruim voor Zipf turfde Samuel Morse de letterfrequenties van een (engelstalige) krantenpagina, om zo een efficienter morse-alfabet te kunnen definieren. (e en t hebben bijv de kortste Morse-code)

        Beantwoorden

Laat een reactie achter bij WildplasserReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

J.W. Schulte Noordholt • Adieu

Nu vannacht, het hele huis ligt open,
ik zit in de blote eeuwigheid,
en ik laat mij door de regen dopen
voor een zachte dood, ik ben bereid.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

WINTERMORGEN

Vastgeworteld in de richting van het waaien,
in die dromen scheefgegroeid bukken de bomen.
Elke ochtend in de wind die een maaier nabootst
en het bewegen van wie zand graaft, raap ik tussen
stammen, zoek ik talmend, breek ik berketakken. [lees meer]

Bron: Spinroc en andere verzen, 1958

➔ Bekijk hier alle citaten

Agenda

6 februari 2026: Towards New Horizons of Scholarly Publishing

6 februari 2026: Towards New Horizons of Scholarly Publishing

17 december 2025

➔ Lees meer
28 december 2025: Zesde editie van Winterzinnen

28 december 2025: Zesde editie van Winterzinnen

16 december 2025

➔ Lees meer
14 januari – 6 maart 2026: Workshop Slimmer zoeken in Delpher

14 januari – 6 maart 2026: Workshop Slimmer zoeken in Delpher

10 december 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1933 Wim Hendriks
1948 Hans den Besten
sterfdag
1831 Willem Bilderdijk
➔ Neerlandicikalender

Media

Elise de Vos – Van alles de laatste

Elise de Vos – Van alles de laatste

17 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Waar komt al die literatuur vandaan?

Waar komt al die literatuur vandaan?

16 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Annemarie Nauta over Turks Fruit (1972)

Annemarie Nauta over Turks Fruit (1972)

15 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d