• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Geschiedenis van de woordfrequentie

7 oktober 2012 door Marc van Oostendorp 3 Reacties

Frequentie is in de taalwetenschap al een tijdje een toverwoord. Woorden die vaak voorkomen, die hoogfrequent zijn, zijn bijzonder. Ze zijn bijvoorbeeld gemiddeld korter dan laagfrequente woorden volgens een van de bekendste wetten van de taalwetenschap, de Wet van Zipf. Ook spreken sprekers dit soort woorden vaak wat achtelozer uit: omdat ze zo vaak voorkomen, voegen ze minder informatie toe. De luisteraar kan zelf wel min of meer raden dat je de zegt, of wil, en dus hoef je als spreker wat minder je best te doen om zo’n woord duidelijk uit te spreken.

Om dat soort verbanden goed te onderzoeken heb je natuurlijk een goede maat nodig. Wat is de precieze rangordening van Nederlandse woorden volgens hun frequentie? Dat is nog niet zo heel eenvoudig vast te stellen.

Wat voor bronnen wil je bijvoorbeeld gebruiken? Geschreven bronnen zijn makkelijk door een computer te doorzoeken, maar de meeste taal wordt alleen maar gesproken en niet gezegd – en in gesproken taal gebruiken we nu eenmaal andere woorden, en in andere verhoudingen dan in geschreven taal. Maar nog los daarvan spreken mensen anders wanneer ze een toespraak houden voor een grote menigte, een sollicitatiegesprek voeren, over het weer keuvelen bij de bakker, of thuis op de bank klagen over hun baas. Welk van die situaties moet je meenemen, en in welke mate?Sinds een jaar of tien geldt als de standaard voor het Nederlands het zogenoemde Corpus Gesproken Nederlands (CGN), waarin voor ongeveer duizend uur opnamen zitten van allerlei soort (telefoongesprekken, opnamen van alledaagse gesprekjes door vrijwilligers met bandrecorders, enz.) en uit alle hoeken en gaten van het taalgebied. Er zijn vast allerlei problemen met dat CGN, maar het is de beste benadering van alledaags Nederlands die we hebben.De basis voor dit onderzoek werd al veertig jaar geleden gelegd, in de jaren zeventig. In de archieven van het Meertens Instituut vonden we daar onlangs oude stukken over: een eindverslag van de ‘Werkgroep frequentie-onderzoek van het Nederlands’.

Voor geschreven taal was het werk niet moeilijk: in 1975 verscheen het zogenoemde Eindhoven-corpus, dat nog altijd bij het INL kan worden ingezien. De afdeling Gesproken taal van die werkgroep voerde een deelonderzoekje uit: in Amsterdam werden mensen benaderd die zowel officieel bevraagd werden als zelf spontane gesprekjes voerden. Al die gesprekjes werden keurig ingetikt en ingevoerd in een computer; daarbij werd ieder woord van een code voorzien.

De gigantische computeruitdraaien met die transcripties hebben we ook teruggevonden in de archieven – zie de foto hierboven.

Er is weinig met dit materiaal gedaan. Het proefonderzoekje in Amsterdam heeft geen vervolg gekregen en voor zover ik kan nagaan is er ook weinig onderzocht aan het Amsterdamse materiaal zelf. Toch is het materiaal om meer redenen interessant – niet alleen omdat het de eerste systematische poging was om alledaags gesproken Nederlands vast te leggen. Bijvoorbeeld zijn er in 1993 onderzoekers nog op zoek geweest naar de mensen die in 1974 hadden meegedaan om hen nogmaals wat vragen te stellen. We gaan nu misschien proberen, als we geld hebben, dat volgend jaar nog eens te doen, zodat we een groep mensen met tussenpozen van 20 jaar kunnen volgen.

Maar we willen ook al dit materiaal – de geluidsopnames, de ingevulde vragenlijsten over opleiding en gehechtheid aan Amsterdam en de uitgeschreven teksten – op een betere manier toegankelijk maken via het internet. Zodat u over een tijdje zelf kunt nagaan welk woord er in 1974 het vaakst gebruikt werd.

Delen:

  • Klik om af te drukken (Wordt in een nieuw venster geopend) Print
  • Klik om dit te e-mailen naar een vriend (Wordt in een nieuw venster geopend) E-mail
  • Klik om te delen op Facebook (Wordt in een nieuw venster geopend) Facebook
  • Klik om te delen op WhatsApp (Wordt in een nieuw venster geopend) WhatsApp
  • Klik om te delen op Telegram (Wordt in een nieuw venster geopend) Telegram
  • Klik om op LinkedIn te delen (Wordt in een nieuw venster geopend) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: computertaalkunde, frequentie, Wet van Zipf

Lees Interacties

Reacties

  1. Jan Stroop zegt

    8 oktober 2012 om 09:40

    Dat kun je nu al nagaan en wel in de publicatie van dat onderzoek: 'Spreektaal; Woordfrequenties in gesproken Nederlands', redactie Eveline D. de Jong, bij Bohn, Scheltema & Holkema, Utrecht, 1979.
    't Meest gebruikte woord was in 1974: IK. Op de tweede plaats staat JA. We hadden 't bijna kunnen raden.

    Beantwoorden
  2. Ingmar Roerdinkholder zegt

    13 oktober 2012 om 08:23

    Werden "de", "en", "een" of "is" dan niet meegeteld? Want die zullen toch nog frequenter voorkomen dan "ik" en zeker dan "ja", lijkt me.

    Beantwoorden
  3. Jan Stroop zegt

    15 oktober 2012 om 20:34

    Nee dus, zeggen de cijfers. De toptien:
    ik 4117
    ja 3489
    eh 3267
    dat 2646 (aanw. wnwd)
    en 2559
    een 2463 (lidwoord)
    de 2292
    niet 2222
    het 2147 (lidwoord)
    is 1977

    Totale corpus 120.000 woorden

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Lucebert • Tajiri

Het licht is de liefde is niets
Een gat grijpt naar een ander gat
Het beeld bijt een beeld
De spiegel is bleek en bont

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

DROOM

Het goudgebekte dier
geroosterd in de zee
besprong goudbakken brood.

Bron: Soma, januari-februari 1971

➔ Bekijk hier alle citaten

Agenda

1 juli – 15 september 2025: Over de grenzen van het boek

1 juli – 15 september 2025: Over de grenzen van het boek

11 juli 2025

➔ Lees meer
26 september 2025: Afscheid Peter-Arno Coppen

26 september 2025: Afscheid Peter-Arno Coppen

10 juli 2025

➔ Lees meer
Augustus: Eetvoorstelling ‘Muzikaal Feestmaal’ op Slot Zuylen en Muiderslot

Augustus: Eetvoorstelling ‘Muzikaal Feestmaal’ op Slot Zuylen en Muiderslot

8 juli 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1905 Adolphe van Loey
➔ Neerlandicikalender

Media

Marc van Oostendorp over prijs voor Neerlandistiek

Marc van Oostendorp over prijs voor Neerlandistiek

13 juli 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
De literaire letterenshow 2

De literaire letterenshow 2

12 juli 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
De laatste keuze van Rogi Wieg

De laatste keuze van Rogi Wieg

9 juli 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
%d