Frequentie is in de taalwetenschap al een tijdje een toverwoord. Woorden die vaak voorkomen, die hoogfrequent zijn, zijn bijzonder. Ze zijn bijvoorbeeld gemiddeld korter dan laagfrequente woorden volgens een van de bekendste wetten van de taalwetenschap, de Wet van Zipf. Ook spreken sprekers dit soort woorden vaak wat achtelozer uit: omdat ze zo vaak voorkomen, voegen ze minder informatie toe. De luisteraar kan zelf wel min of meer raden dat je de zegt, of wil, en dus hoef je als spreker wat minder je best te doen om zo’n woord duidelijk uit te spreken.
Om dat soort verbanden goed te onderzoeken heb je natuurlijk een goede maat nodig. Wat is de precieze rangordening van Nederlandse woorden volgens hun frequentie? Dat is nog niet zo heel eenvoudig vast te stellen.
Wat voor bronnen wil je bijvoorbeeld gebruiken? Geschreven bronnen zijn makkelijk door een computer te doorzoeken, maar de meeste taal wordt alleen maar gesproken en niet gezegd – en in gesproken taal gebruiken we nu eenmaal andere woorden, en in andere verhoudingen dan in geschreven taal. Maar nog los daarvan spreken mensen anders wanneer ze een toespraak houden voor een grote menigte, een sollicitatiegesprek voeren, over het weer keuvelen bij de bakker, of thuis op de bank klagen over hun baas. Welk van die situaties moet je meenemen, en in welke mate?Sinds een jaar of tien geldt als de standaard voor het Nederlands het zogenoemde Corpus Gesproken Nederlands (CGN), waarin voor ongeveer duizend uur opnamen zitten van allerlei soort (telefoongesprekken, opnamen van alledaagse gesprekjes door vrijwilligers met bandrecorders, enz.) en uit alle hoeken en gaten van het taalgebied. Er zijn vast allerlei problemen met dat CGN, maar het is de beste benadering van alledaags Nederlands die we hebben.De basis voor dit onderzoek werd al veertig jaar geleden gelegd, in de jaren zeventig. In de archieven van het Meertens Instituut vonden we daar onlangs oude stukken over: een eindverslag van de ‘Werkgroep frequentie-onderzoek van het Nederlands’.
Voor geschreven taal was het werk niet moeilijk: in 1975 verscheen het zogenoemde Eindhoven-corpus, dat nog altijd bij het INL kan worden ingezien. De afdeling Gesproken taal van die werkgroep voerde een deelonderzoekje uit: in Amsterdam werden mensen benaderd die zowel officieel bevraagd werden als zelf spontane gesprekjes voerden. Al die gesprekjes werden keurig ingetikt en ingevoerd in een computer; daarbij werd ieder woord van een code voorzien.
De gigantische computeruitdraaien met die transcripties hebben we ook teruggevonden in de archieven – zie de foto hierboven.
Er is weinig met dit materiaal gedaan. Het proefonderzoekje in Amsterdam heeft geen vervolg gekregen en voor zover ik kan nagaan is er ook weinig onderzocht aan het Amsterdamse materiaal zelf. Toch is het materiaal om meer redenen interessant – niet alleen omdat het de eerste systematische poging was om alledaags gesproken Nederlands vast te leggen. Bijvoorbeeld zijn er in 1993 onderzoekers nog op zoek geweest naar de mensen die in 1974 hadden meegedaan om hen nogmaals wat vragen te stellen. We gaan nu misschien proberen, als we geld hebben, dat volgend jaar nog eens te doen, zodat we een groep mensen met tussenpozen van 20 jaar kunnen volgen.
Maar we willen ook al dit materiaal – de geluidsopnames, de ingevulde vragenlijsten over opleiding en gehechtheid aan Amsterdam en de uitgeschreven teksten – op een betere manier toegankelijk maken via het internet. Zodat u over een tijdje zelf kunt nagaan welk woord er in 1974 het vaakst gebruikt werd.
Jan Stroop zegt
Dat kun je nu al nagaan en wel in de publicatie van dat onderzoek: 'Spreektaal; Woordfrequenties in gesproken Nederlands', redactie Eveline D. de Jong, bij Bohn, Scheltema & Holkema, Utrecht, 1979.
't Meest gebruikte woord was in 1974: IK. Op de tweede plaats staat JA. We hadden 't bijna kunnen raden.
Ingmar Roerdinkholder zegt
Werden "de", "en", "een" of "is" dan niet meegeteld? Want die zullen toch nog frequenter voorkomen dan "ik" en zeker dan "ja", lijkt me.
Jan Stroop zegt
Nee dus, zeggen de cijfers. De toptien:
ik 4117
ja 3489
eh 3267
dat 2646 (aanw. wnwd)
en 2559
een 2463 (lidwoord)
de 2292
niet 2222
het 2147 (lidwoord)
is 1977
Totale corpus 120.000 woorden