
Voornamendrift 104
Er zijn verschillende manieren om de machtswet van voornamen te laten zien, maar die hierboven lijkt me grafisch de mooiste. Voor vier landen/gewest (Vlaanderen, Nederland, Frankrijk, USA) die spreiden in het aantal jaarlijkse geboortes van 40.000 tot 2 miljoen, en voor vijf jaren die een eeuw omspannen. In elke figuur wordt voor jongens cumulatief (het volgende bij het vorige optellen) het totaal aantal naamdragers gegeven, bij toenemende frequentie van de voornaam die ze dragen. We beginnen per land/jaar links met het aantal dragers van een unieke naam, en eindigen rechts met het optellen van de naamdragers met de populairste naam. Het verband is in alle gevallen vrijwel kaarsrecht op een dubbel logaritmische schaal, waarbij de blauwe punten de gemeten waarden zijn, en de groene punten de voorspelde waarden op basis van de best passende machtsrelatie.
Behalve dat opvalt hoe enorm goed de modelmatige voorspelling is, zien we dat de curve met de jaren in de vier landen afvlakt. Dat betekent dat er relatief meer laagfrequente en minder hoogfrequente namen zijn, de variatie in naamgeving neemt toe. Bovendien is te zien dat de populairste naam overal steeds minder naamdragers krijgt (in Nederland neemt dat aantal af van 8.322 jongens die in 1920 Johannes genoemd werden tot 669 jongens met de naam Sem in 2020): de curve wordt steeds korter.
Als alles opgeteld is, zijn we rechts in de grafiek aanbeland bij het totaal aantal gegeven namen, ofwel het totaal aantal geboorten in dat jaar. Dat is één van kengetallen die de getalsmatige eigenschappen van de voornaamgeving beschrijven. Die kengetallen zijn: (1) het aantal geboorten per jaar, (2) het aantal unieke voornamen, en (3) het aantal kinderen dat de populairste voornaam krijgt, (4) het aantal verschillende voornamen, (5) de exponent α uit de machtsrelatie n(f) = n(1) * f α . Het bijzondere is dat er – door het bestaan van de machtswet – theoretisch maar drie kengetallen nodig zijn om de andere twee uit te rekenen.
Dat de populairste voornaam overal steeds minder naamdragers krijgt, is bijvoorbeeld precies te voorspellen als het gevolg van (1) een toename van het aantal unieke namen, terwijl (2) het aantal jaarlijkse geboorten gelijk blijft en (3) ook α gelijk blijft. Ook is de fractie unieke namen van het totaal aantal verschillende voornamen vrijwel gelijk aan 1-3α+1 , ongeacht het aantal geboorten. Bij een waarde van α = -1,63 (midden in de variatie die voor α gevonden wordt) vormen de unieke voornamen de helft van alle namen. In de praktijk zijn er zelfs meer omdat een deel van de unieke namen zich aan de machtswet onttrekt.
Het is ook mogelijk om het kleinste aantal voornamen dat voldoende is om 80% van de kinderen een naam te geven uit drie kengetallen af te leiden. Dan kan begrepen worden onder welke omstandigheden dat aantal niet afhangt van het aantal geboorten per jaar. Dat was een verrassend eerder resultaat: dat bijvoorbeeld voor jongens dat aantal voor 1960 (100-200 namen) en ook nu (1300 namen) tussen Nederland en Amerika (USA) nauwelijks verschilt, terwijl het aantal geboorten in de USA twintig keer groter is. Daarover in de volgende bijdrage meer.
- Als de relatie tussen het aantal namen en naamfrequentie direct wordt weergegeven geeft dat een onduidelijk beeld omdat het minimaal aantal namen met een bepaalde frequentie alleen maar de gehele waarden 1 of 0 kan zijn, en geen waarde daar tussen. Dat kan enigszins opgelost worden door te middelen over logaritmische frequentie intervallen. Met de cumulatieve verdeling van het aantal naamdragers wordt dit allemaal vermeden. Het cumulatief aantal naamdragers stijgt monotoon met toenemende naamfrequentie.
- Uit de machtswet n(f) = n(1) * f α is de cumulatieve verdeling van het totaal aantal naamdragers af te leiden als
cum(f) = {n(1)/((α+2)*g(α))} * (f+0,5) α+2 – 0,5 α+2)
met g(α) = ((1,5) α+2 – 0,5 α+2) / (α+2) zodat cum(1) = n(1).
Omdat 0,5 α+2 genegeerd kan worden en door links en rechts de logaritme nemen krijgen we
log(cum(f)) = (α+2) log(f+0,5) + constante, wat een rechte lijn in een log-log weergave oplevert, met positieve richtingscoëfficiënt α+2 (α heeft een waarde tussen -1,4 en -1,8). - α valt uit de cumulatieve verdeling het beste af te leiden door α zo te kiezen dat het verschil tussen cum(f) en de gemeten waarden (kwadratisch) minimaal is. Maar zoals in de vorige bijdrage is besproken, zijn er vaak meer unieke voornamen dan de machtswet voorspelt: n(1)gemeten = n(1)model+ B. Daarom moet niet alleen α maar gelijktijdig ook B zo gekozen worden dat het bovengenoemde verschil geminimaliseerd wordt.
- Voor Vlaanderen, Frankrijk en de USA worden uit privacy overwegingen de namen met de laagste frequenties niet beschikbaar gesteld. Door α en B voor de wèl beschikbare gegevens af te leiden kan, tezamen met het totaal aantal geboorten, voor de missende frequenties een schatting worden gemaakt, zoals in bovenstaande figuur te zien is (geen blauw, wel groen punt).
- In Nederland werden in 2010 in totaal 11.696 verschillende voornamen gegeven, waarvan 3.500 unieke namen “buiten” de machtswet. Dan resteren 8.196 voornamen “binnen” de machtswet waarvan er 4.073 uniek waren (49,7%), met α = -1,60. In totaal waren er 7.573 namen die één keer zijn gegeven, dat is maar liefst 65% van alle verschillende voornamen.
Dolle pret voor de liefhebbers…….