Dagboek van een amateur-programmeur
Een paar dagen geleden begon ik mijn digitale onderzoek naar eigennamen in de verzameling van ruim 1100 door Ewoud Sanders verzamelde Nederlandstalige ‘streekromans’ (waarmee hij geloof ik vooral bedoelt: populaire, niet-literaire romans). Ik constateerde dat het erop leek dat eigennamen zeer frequent zijn in die romans, maar om dat te kunnen vaststellen, moest ik eerst al die eigennamen verzamelen.
Dat heb ik inmiddels gedaan. Gerrit Bloothooft, naamkundig redacteur van Neerlandistiek, stuurde me een bestand toe met 180,000 Nederlandse voornamen (inclusief allerlei spellingvarianten) en ik schreef een script (hier beschikbaar) dat in alle duizend boeken voor ieder woord bekijkt of het een voornaam is. Namen die veelvoorkomende Nederlandse woorden zijn (zoals Dan) worden weggefilterd.
Gerrit was zo aardig mijn bevindingen nog te verrijken met een aanduiding of het een mannen- of een vrouwennaam betrof (of een unisexnaam), een indicatie van hoe vaak de naam voorkwam in de basisregistratie personen en een aanduiding van de categorie waarin die namen valt; Gerrit heeft een systeem van categorieën van type namen – hij heeft hem omdat hij niet naar zijn kantoor kan niet helemaal kunnen aanvullen, maar je krijgt toch een aardig beeld. Het resultaat van deze zoektocht staat hier: er blijken maar liefst 3720 verschillende namen te zijn.
Opmerkelijk is ook dat de top-17 helemaal bestaat uit mannennamen: Jan, Dirk, Kees, Geert, Jaap, Bart, Peter, Willem, Hendrik, Klaas, Paul, Hans, Johan, Albert, Harm, Gerrit, Frans. Pas op nummer 18 verschijnt de eerste vrouwennaam: Maria. Opvallend ook is de enorme dominantie van de nummer 1: Jan wordt ruim 45000 keer genoemd, terwijl de nummer 2, Dirk, minder dan 14000 keer wordt genoemd (minder dan een derde). Ik heb momenteel nog geen idee wat dit alles verklaart.
Volgens Gerrit zitten de namen overwegend in de categorieën ’traditioneel’ en ‘premodern’ – wat dat betekent laat de top-18 wel ongeveer zien. Streekromans maken weinig uitstapjes naar modernere sferen, al zijn er ook wel wat namen van bijvoorbeeld Turkse en Arabische origine:
Traditional | 334509 |
Dutch-premodern | 275077 |
Dutch-modern | 192705 |
English | 70309 |
Frisian | 58263 |
Elite | 56709 |
Hebrew | 32739 |
Mixed-Nordic | 18559 |
French | 13925 |
Modern | 4759 |
1861 | |
Italian-Spanish | 702 |
Arabic 1 | 326 |
Arabic 2 | 224 |
Turkish | 126 |
Totaal | 506331 |
Alle cijfers gaan over hoe vaak een naam genoemd wordt, In totaal wordt er dus 506.331 keer een naam genoemd; het corpus telt in totaal zo’n 100 miljoen woorden (dat is 100.000 woorden per boek, maar er zitten dan ook redelijk wat dikke omnibussen bij).
Een half procent van alle woorden is dus een eigennaam. De vraag blijft daarmee staan of dit nu een bijzonderheid is van streekromans of van fictie. Wat is het percentage eigennamen in literaire romans? Daarover een volgende keer!
Foto: Jan de Hartog, 1984. Door Rob Bogaerts, Wikimedia
Frans van Nes zegt
Ik zou nog even de fotocredits aanpassen. De fotograaf is Rob Bogaerts.
DirkJan zegt
Het aantal voornamen in romans zal denk ik sterk samenhangen met de hoeveelheid dialogen die erin staan. Ik speculeer dat er meer dialogen in ‘streekromans’ staan dan in literaire fictie.