De grootste woordenschat in nederhop
Door Alex Reuneker (Universiteit Leiden), Vivien Waszink (Instituut voor de Nederlandse Taal) en Ton van der Wouden (Meertens Instituut)
Op The Pudding – een onlinetijdschrift met ‘visuele essays’ – verscheen een interessant onderzoekje naar de woordenschat van Amerikaanse hiphopartiesten. De vraag was simpel: ‘Als literatuurliefhebbers Shakespeare roemen om zijn grote vocabulaire, hoe verhouden hedendaagse rappers zich daar dan toe?’. Onderzoeker Matt Daniels vergeleek van een aantal rappers 35000 woorden en gebruikte daarbij evenveel woorden uit Shakespeares werk en uit Melvilles Moby Dick als ijkpunt. Wat bleek? 50 Cent, Drake (zou ’ie nog komen?) en DMX scoren het laagst, met iets meer dan 3000 unieke (dus verschillende) woorden, maar GZA en Aesop Rock overtreffen zelfs Shakespeare (5170 unieke woorden) en Moby Dick (6022 unieke woorden) met meer dan 6400 unieke woorden. Dat bleef niet onopgemerkt; media als The Guardian en Rolling Stone berichtten erover.
Uiteraard zegt het aantal unieke woorden in een tekst niet zozeer iets over kwaliteit, maar het laat wel iets zien over de woordenschat van rappers. Dat gegeven leek ons – drie taalkundigen, onder wie één fervent hiphopliefhebber – interessant genoeg om hetzelfde te doen voor ‘nederhop’, Nederlandstalige hiphop. We vergeleken daarom het werk van ruim 30 Nederlandstalige rappers en gebruikten als vergelijkingsmateriaal de klassieker De Ontdekking van de hemel van Harry Mulisch uit 1992 en het nieuwste werk van Ilja Leonard Pfeijffer, Peachez uit 2017 – Pfeijffer was zo aardig ons zijn tekst belangeloos ter beschikking te stellen. We hebben ervoor gekozen een werk uit de jaren ‘90 en een werk van nu op te nemen, omdat de meeste rapteksten ook uit deze periode kwamen. We kozen, net als Daniels, voor twee auteurs die bij uitstek als ‘literair’ worden gezien. In een kader nemen we ook Couperus’ Eline Vere uit 1899 en Multatuli’s Max Havelaar mee als tegenhangers van de negentiende eeuwse Moby Dick.
Om de nederhopteksten zo goed mogelijk te kunnen vergelijken, hebben we al de teksten uit één bron gehaald, de website Genius. Daniels gebruikte dezelfde bron voor zijn onderzoek. We hebben per rapper – vooral de ‘grote namen’ – 4000 woorden uit tien tot vijftien verschillende nummers genomen.1 Een lager aantal dan in het onderzoek van Daniels, maar dat kon niet anders, omdat er simpelweg veel minder Nederlandse dan Engelse rapteksten beschikbaar zijn. Dat leverde soms een probleem op: er moest namelijk wel een behoorlijk aantal nummers per rapper of rapgroep op Genius staan. Daarom is DuvelDuvel – helaas – afgevallen en staat Yung Internet, een groep die nog niet zo lang actief is, er wel bij, omdat er veel teksten van de groep online staan. En Lil’ Kleine, volgens velen het nieuwe enfant terrible van de nederhop (op Boef na dan), ontbreekt omdat we van hem alleen maar nummers konden vinden waarop hij samen met anderen rapt. Verder hebben we erop gelet vertegenwoordigers uit diverse tijdperken te behandelen en teksten van verschillende albums te selecteren. We hebben niet gefilterd op Nederlandse woorden; in veel nederhopteksten zitten ook woorden uit andere talen, bijvoorbeeld uit het Sranantongo (een taal uit Suriname) en het Papiaments, maar ook uit het Engels en Frans (‘oui oui in het Fransje’), en ook zitten er wat regionale vormen in de Vlaamse teksten.
En dan de vrouwen, of de femcees (female mc’s): die staan er niet in – niet omdat het vrouwen zijn natuurlijk, maar omdat er naar verhouding weinig rapsters zijn: hiphop is, ook in Nederland, nog steeds vooral a man’s world. De Nederlandse of Vlaamse vrouwen die rappen, doen dat vooral in het Engels (MC Melodee, Coely) en van de vrouwen die in het Nederlands rappen (bijvoorbeeld I Am Aisha) waren er niet genoeg teksten voorhanden. In onze lijst zitten wel twee acts uit Vlaanderen: Tourist LeMC en Safi en Spreej. Grote naam ’t Hof van Commerce is afgevallen omdat de groep in het West-Vlaams dialect rapt.
Terug naar het onderzoek. Als maat van ‘lexicale diversiteit’ hebben we dezelfde als die in het Amerikaanse onderzoek genomen: het aantal unieke woorden of de ‘type-token-ratio’ (aantal unieke woorden gedeeld door het totaal aantal woorden). Het resultaat geeft een mooie indruk, maar een perfecte maat is het zeker niet. In het kader ‘lexicale diversiteit’ geven we een ingewikkelder, maar betrouwbaarder meting van de woordenschat.
Als we eerst de literaire werken met elkaar vergelijken, zien we dat Pfeijffer met 1480 unieke woorden bovenaan staat, gevolgd door Mulisch met 1366 unieke woorden. Hoe doen de Nederlandse rappers het? In de visualisatie zie je een duidelijke trend; populaire artiesten als Gers Pardoel, Ronnie Flex en SBMG leggen het af tegen verbale grootheden als Opgezwolle en Brainpower. En de Nijmeegse groep Zo Moeilijk is de uiteindelijke ‘winnaar’ (een score van 1393), met meer unieke woorden dan in – pak ‘m beet – de eerste 22 pagina’s van De Ontdekking van de hemel van Harry Mulisch. Maar over de winnaars straks meer.
De woordenschat en het verdere taalgebruik van nederhoppers is een steeds terugkerend onderwerp van gesprek waarin vaak felle woorden vallen. Nederhop bestaat al sinds het midden van de jaren tachtig en er beginnen inmiddels ‘generaties’ te ontstaan. De oudere nederhopliefhebber kijkt vaak verlangend terug naar ‘vroeger’. Zoals bij alle nostalgie klinkt ook hier gemopper over de ‘nederhop van tegenwoordig’ die opvallend vaak in de Top 40 staat. Juist veel van deze hitlijstrappers eindigen laag in onze index: SBMG, Gers Pardoel en Sef bijvoorbeeld. Dat is misschien niet zo gek: in hits draait het vaak om herhaling en om catchy deuntjes (‘Ik neem je mee ee-eh-eh-eeee (4x)’), en niet zozeer om spitsvondige teksten. Niet alleen in de nederhop trouwens; ook in Nederlandse liedjes uit heel andere genres hoor je vaker steeds dezelfde zinnetjes voorbijkomen: ‘Heb je even voor mij’, ‘Vandaag is rood’ en ‘Ik wou dat ik jou was’ bijvoorbeeld, om er maar even een paar te noemen. Het ‘Teletubbie-effect’, noemden we dat onderling voor de grap: herhaling werkt. Aan de andere kant zie je dat het duizelingwekkend populaire Broederliefde niet laag scoort: 1070 unieke woorden. De jongens uit Rotterdam pakten onlangs een dertien jaar oud record van Frans Bauer af: hun album Hard Work Pays Of 2 is het eerste Nederlandstalige album dat dertien weken op 1 heeft gestaan in de Album Top 100 (Frans haalde er maar 12); de NOS besteedde er uitgebreid aandacht aan.
Ja, hiphop heeft zo zijn vaste thema’s: grote auto’s, lekkere wijven, stapels geld (‘brieven’) en in veel nummers is het sex, drugs ’n hiphop troef. Wie weet zorgt dat er ook voor dat er in sommige teksten weinig variatie zit, maar hiphop is juist ook een muzieksoort waarin ‘verbale spierballen’ belangrijk zijn – het draait immers vooral om de teksten en niet om gitaarsolo’s, mooie stemmen of drumpartijen. ‘Alles wat ik heb, zijn mijn ballen en mijn woord’, hoor je dan ook vaak in de rapscene. Nogmaals, woordgebruik zegt natuurlijk niet alles. Rappers worden niet voor niets taaltovenaars genoemd. Ook in de teksten van rappers die met een weinig gevarieerde woordenschat ‘laag’ eindigen, vallen mooie of grappige lines op. Rapper Henkie T. van hekkensluiter SBMG heeft ‘grote doelen als een keeper’ en samen met zijn collegarapper Chivv verzekert hij een meisje: ‘Babygyal (babygirl) ik weet het zeker, maak je losser dan een veter’. De groep Yung Internet is volgens Noisey ooit begonnen ‘als een doorgesnoven grap’ en heeft volgens 3voor12 teksten ‘als een verslag van een weekend lang naar de getver gaan in de hoofdstad’. En inderdaad, ook hier vinden we een vrij eenzijdige interesse (zelfs journalisten stellen de groepsleden vooral vragen over cocaïne) en de groep grossiert in eindeloze herhalingen: ‘6 donnies, ik heb hier 6 donnies, ik heb hier 6 donnies, 6 donnies’ en, met iets meer variatie, in het nummer Dixiland: ‘Een dixi, de dixi, ik ben op zoek naar een dixi. De dixi, waar is ie? Ik ben op zoek naar een dixi’). Maar Yung Mau rapt bijvoorbeeld ook: ‘Ze smasht m’n ballen maar zit niet eens in het volleybalteam’ en dat is dan wel weer leuk gevonden.
Ronnie Flex eindigt ook redelijk laag. Ronnie is bij het grote publiek vooral bekend om zijn hit ‘Drank en drugs’ (‘Als je bitch wil chillen is ’t geen probleem, dan ga ik erheen, ik kom niet alleen want ik heb drank en drugs’) en ook in andere nummers gaat het vaak zo: ‘Ik heb een dikke, dikke, dikke vredespijp, Waar alleen jij op mag blazen, yeah’,‘Je ruikt wiet en seks als ik langsloop’ en ‘Ik sta achter je heupen, niet achter je keuzes’. Toch vallen ook bij Ronnie, met zijn ‘ongedane haren’ in de ‘Geert Wilderniss’, weer speciale dingen op, al zijn het maar zijn aparte constructies en bewoordingen, altijd fijn voor taalkundigen, bijvoorbeeld: ‘Ik heb m’n schoenen vies’, ‘Wij zijn altijd klaar voor dit’ en ‘Kan je bruine bonen goed voor me koken?’. Boef eindigt iets hoger dan Ronnie. Boef is trouwens nogal eens in opspraak: hij is betrokken bij ruzietjes in tv-shows, neemt warrige vlogs op en beledigt politieagenten. Maar voor de rechter staat hij zijn mannetje: ‘Noem mij Titanic, ik ga tegen die eis in’, rapt hij.
Nu dan de ‘winnaars’. In de hiphop is het heel belangrijk waar je vandaan komt. In Amerika worden vooral de rappers van de ‘eastcoast’ alom geroemd om hun teksten. Nas en Jay Z bijvoorbeeld, maar ook de Wu-Tang Clan: een groep die als collectief hoog scoort in Daniels’ onderzoek, én veel van de afzonderlijke leden horen bij zijn koplopers (de GZA en de RZA bijvoorbeeld). Opvallend genoeg komen onze nummer twee (Opgezwolle) en nummer een (Zo Moeilijk) ook allebei uit het oosten van het land. Opgezwolle (‘038-A26 6 letters’) gebruikt dus veel verschillende woorden. Rapper Rico laat zien dat hij ‘spitdirecteur’ is (spitten, letterlijk ‘spugen’, is een ander woord voor rappen):
Ik ben de aanstekelijke Nederlandse taal sprekende
Ja de baanbrekende halve Arubaan praat tegen je
We nemen maatregelen, ik en m’n maat regelen
Shit zwaar als aardbevingen die je plaats van de kaart vegen en
Ik ben op elke plek te vinden als kip-caravans
Dan hier, dan daar, weer ergens, zeg maar overal maar ook nergens
Ik ben een mens, maar ik spit spiritus shit uit jerrycans
Want de Phreak is zieker dan Marilyn Manson en leiper dan Eminem
Ik grijp m’n pen en denk, schrijf jouw een letter man
Als David, dan weet je, dat ik soms ook weleens gezellig ben
Roep vijf keer Rico in de spiegel en ik kom er aan als de Candyman.
En dan de nummer 1, Zo Moeilijk uit Nijmegen (‘024 in het huis’). Zo Moeilijk bestaat uit de rappers Nosa en Rosco en producer Nikes. ‘Nijmegen is nek, wij zijn de sieraden’, aldus rapper Nosa. Je hebt natuurlijk ook nog NEC: de Nijmegen Eendracht Combinatie, de bekende voetbalclub. ‘Zoals het gezegde in Nijmegen luidt: ‘Nek zit onder je hoofd, N.E.C. zit in je hart’ voegt een behulpzame fan op Genius toe. In ieder geval zijn de jongens van Zo Moeilijk dus de gouden kettingen van ‘Nimma’, de ‘straattaal’-benaming van de stad.
Hun teksten moet je soms even laten bezinken, dat rappen ze zelf ook: ‘M’n rijms (rhymes; teksten) die voel je pas later. Als pijn wanneer je je tenen hebt gestoten aan de tafel’. Dat klopt wel, want niet alles is gelijk helemaal te begrijpen:
Het oosten is binnen, we winnen op voorhand
Van tevoren bepaald als het Eurosong festival
Want op m’n testicles, voor de liefde van
Goed dat ik ze vastheb, je snapt er geen ballen van
Shit is life, alsof Nikes met een live bandje z’n pittoreske tentje verbouwt
Lauw is klussen met ons, WWF effe lekker ketsen met échte kernkoppen
Nos bekend als Ultimate Warrior
Dik, vadsig, hoeft me niet te matsen
Ik pak wat ik pak tot Shota Arveladze
De jamper, amper geland, graaf m’n voeten goed vast in Nijmeegs zand
Met de groeten van Roscobama gaat voor prez in ’t land
Maar het heel diverse woordgebruik valt wél op: soms wat Engels (shit is life, testicles, prez (president)), en soms juist gezellig ouderwetse of een beetje formele Nederlandse woorden: pittoresk, vadsig en amper bijvoorbeeld. Maar niet alleen Roscobama (een mengeling van de namen Rosco en Obama) is de ‘prez’: met z’n drieën zijn de Nijmegenaren in woordgebruik de presidenten van de nederhop; de nieuwe ‘Heilige Drie-aanheid’ (de rappers van De Jeugd van Tegenwoordig werden ooit zo genoemd). Als je ‘aan’ bent in de hiphop, heb je het gemaakt.
De derde plaats is voor Brainpower die al decennia actief is en inderdaad ‘langer blijft hangen dan de wallen van Wim Kok’. Extince (Oosterhout; ‘Hitgevoelig als Abba, flexibel als Barbapapa’) en Osdorp Posse (Amsterdam; ‘De goeie in het vloeien’) worden vaak in één adem genoemd als het over de glorietijd van de nederhop gaat. Ze eindigen redelijk hoog (Extince) en hoog (Osdorp Posse). De winnaar uit de hoofdstad is overigens niet Osdorp Posse, maar Zwart Licht. In Back-up staat klaar speelt rapper Leeroy een mooi woordspel: ‘Wie komt met lines die zelfs Amy niet kan handelen, dus homey whine niet, (…) m’n huis uit’. Leeroys lines (teksten, lyrics) zijn zo sterk dat zelfs Amy (Winehouse) ze niet aankan.Toch denk je bij deze combinatie met Amy ook aan andere lijntjes. To whine betekent zeuren of dreinen, maar dat verwijst ook naar de achternaam van de zangeres, net als het woord huis trouwens.
In de nederhop is de rivaliteit tussen steden niet zo groot, maar het zal de Rotterdamse garde toch tegenvallen dat de eerste Rotterdammer (Winne) in de middenmoot zit met een score van 1090. En dat terwijl Winne juist de man is van de mooi uitgewerkte vergelijkingen: In Pomp die shit! verwijst hij naar het honkbalspel om zijn positie in de ‘game’ (de hiphopscene) duidelijk te maken: ‘Ik kwam in de game en ik heb nooit gekropen, Winne aan slag staat gelijk aan 4 wijd, ik kon gelijk lopen.’ Winne is nooit een baby geweest: hij was dus nooit een beginneling in de hiphopwereld. Sterker nog, hij heeft zelfs nooit gekropen. Hij stond gelijk rechtop en liep weg, net als in het honkbalspel, waar je als de pitcher vier wijd gooit, niet eens meer hoeft te slaan, maar een vrije loop hebt. Winne maakt dan ook ‘Sanskriet op de beat’, zoals hij rapt als lid van Great Minds (1219 unieke woorden).
Over de taal van De Jeugd van Tegenwoordig is misschien wel het vaakst geschreven. De groep eindigt in onze ranglijst bij de eerste tien. In het ‘liefdesliedje’ Manon hoor je Faberyayo: ‘Je zou reclame moeten maken voor Andrélon. (…). Je bent de lever op m’n halfom. Ik zie jouw gezicht in m’n plafond. De zakken op je kont zijn een grabbelton. Ik wil hangen in je tuintje als Babylon. Je warmt me op als een magnetron’. De Vlamingen doen het trouwens ook heel aardig: Tourist LeMC heeft 1112 unieke woorden en Safi en Spreej hebben er 1017. Safi en Spreej mixen mooi uitdrukkingen en spelen ook met letterlijk en figuurlijk taalgebruik, bijvoorbeeld in: ‘En u rug heb ik niemeer ma ge weet beter. Geen steek onder water kon mij raken zo klein. Ik ontwijk de zee-egels.Trap ik erop is het op uw tenen, touché kerel. Stop met op uw tippen te lopen en leef een beetje’. Soms wordt er nog gekscherend van ‘frithop’ gesproken, maar de Vlaamse scene groeit. Grappig als je bedenkt dat een van de eerste ‘hiphopnummers’ ooit uit Vlaanderen komt: het nummer The Scratchin’ Zwaantjes (1984) van niemand minder dan Urbanus.
Lexicale diversiteit
Onderzoek van Van Hout en Vermeer (2007), McCarthy en Jarvis (2010) en Koizumi (2012) toont aan dat het aantal unieke woorden en de zogeheten type-token-ratio sterk worden beïnvloed door factoren als tekstlengte en lokale herhaling. Alternatieve maten als Yule’s K en MTLD zijn theoretisch geschikter en gevalideerd (zie o.a. Van Dalen-Oskam 2005, McCarthy en Jarvis 2010 en Pander Maat et al. 2014). Dergelijke maten zijn ingewikkelder te berekenen en daardoor ook minder gemakkelijk te begrijpen dan het aantal unieke woorden, maar dat betekent niet dat we ze dan maar links laten liggen. Daarom toch een poging: bij het berekenen van de MTLD (Measure of Textual Lexical Diversity) kijk je ook naar de verhouding tussen types (unieke woorden) en tokens (alle woorden), maar dan voor een groot aantal kleine fragmenten uit die tekst. Neem het zinnetje ‘Een dag niet gelachen is een dag niet geleefd.’ Tot en met ‘is’ zijn alle vijf de woorden uniek en is de verhouding of ratio tussen tokens en types 1 (5/5). Bij ‘een’ is het aantal unieke woorden nog steeds vijf, maar het totaal aantal woorden 6. De ratio is dan 5/6=0.83. Ook ‘dag’ is niet uniek; de ratio is 5 (unieke woorden) / 7 (woorden in totaal) = 0.71. Die waarde komt onder de standaardgrens van 0.72 (zie McCarthy 2005) en daarom onthouden we dat we één fragment hebben gehad en beginnen we opnieuw, tot we aan het einde van de tekst zijn. Als we tot het aantal woorden in de tekst delen door het aantal fragmenten, krijgen we een eindwaarde die laat zien hoeveel woorden er gemiddeld nodig zijn in de tekst om te ‘stabiliseren’; hoe kleiner dat aantal, hoe minder divers de tekst is. Dat leidt tot een index die beter bestand is tegen variaties in tekstlengte (verschillende rapteksten) en lokale herhaling (zoals in refreinen), omdat de berekening steeds wordt herhaald. De maat werkt daarom al vrij goed bij teksten vanaf 100 woorden. We deden dit ook voor de rapteksten en de resultaten laten zien dat de grote lijnen hetzelfde zijn: SBMG en Yung Internet staan nog steeds onderaan, Zo Moeilijk en Osdorp Posse bovenaan. Als we tot slot alle teksten in tweeën knippen en de resultaten vergelijken (een zogenaamde ‘split-half-test’), dan zien we, op wat lokale wisselingen na, grotendeels dezelfde rangorde, wat aangeeft dat de 4000 woorden per artiest een vrij aardig beeld geven van de lexicale diversiteit.
Max Havelaar
Dat je je als onderzoeker niet alleen moet richten op woorden tellen, werd duidelijk toen we twee klassiekers – als tegenhangers van Shakespeare en Melville – opnamen in de analyse: Couperus’ Eline Vere uit 1899 en Multatuli’s Max Havelaar uit 1860. Couperus scoorde nét iets lager dan Mulisch met 1352 unieke woorden, maar tot onze verbazing eindigde de Max Havelaar als middenmoter. Pas toen we nadachten over hoe de tekst ook al weer écht in elkaar zit – en dan kom je er met woorden tellen niet – realiseerden we ons dat in de eerste 4000 woorden natuurlijk Droogstoppel aan het woord is en die staat nu niet bekend om zijn fantasie en sierlijk taalgebruik. We knipten de Max Havelaar daarom in tweeën en wat bleek: het tweede deel, waarin de stem van de Duitse stagiair Ernest Stern klinkt, staat met 1286 unieke woorden hoger dan Droogstoppels deel met 1133 unieke woorden. Ook hier geldt weer dat getallen zeker niet alles zeggen, maar het valt wel op.
Bibliografie
Couperus, L. (1890). Eline Vere. Amsterdam: Van Kampen & Zoon. Retrieved from http://www.dbnl.org/tekst/coup002elin01_01/
Van Dalen-Oskam, K. (2005). De list van het lexicon. Auteursonderscheiding met behulp van computer-ondersteunde woordenschatanalyse. Nederlandse Letterkunde, 10, 212–233.
Daniels, M. (2014). The largest vocabulary in hip hop. Herziene versie van februari 2017: https://pudding.cool/2017/02/vocabulary/index.htm
Van Hout, R., & Vermeer, A. (2007). Comparing measures of lexical richness. Modelling and Assessing Vocabulary Knowledge, 93–115.
Koizumi, R. (2012). Relationships between text length and lexical diversity measures: Can we use short texts of less than 100 tokens? Vocabulary Learning and Instruction, 1(1), 60–69. https://doi.org/10.7820/vli.v01.1.koizumi
McCarthy, P. M. (2005). An assessment of the range and usefulness of lexical diversity measures and the potential of the measure of textual, lexical diversity (MTLD). Dissertation Abstracts International, 66, 12.
McCarthy, P. M., & Jarvis, S. (2010). MTLD, vocd-D, and HD-D: A validation study of sophisticated approaches to lexical diversity assessment. Behavior Research Methods, 42(2), 381–392. https://doi.org/10.3758/BRM.42.2.381
Melville, H. (1851). Moby Dick; or The Whale. Harper. Retrieved from http://www.gutenberg.org/files/2701/2701-0.txt
Mulisch, H. (1992). De ontdekking van de hemel. Amsterdam: De Bezige Bij.
Multatuli (1860). Max Havelaar of de koffieveilingen der Nederlandse Handelsmaatschappij. http://cf.hum.uva.nl/dsp/ljc/multatuli/
Pander Maat, H., Kraf, R., van den Bosch, A., Dekker, N., van Gompel, M., Kleijn, S., Van der Sloot, K. (2014). T-Scan: a new tool for analyzing Dutch text. Computational Linguistics in the Netherlands Journal, 4, 53–74.
Pfeijffer, I. L. (2017). Peachez, een romance. Amsterdam: De Arbeiderspers.
Waszink, V. (2013). Woord! de taal van nederhop. Amsterdam: Uitgeverij Nieuwezijds.
1 Natuurlijk is 4000 een stuk minder dan 35000. De getallen die wij noemen (bijvoorbeeld 1366 unieke woorden bij Mulisch) zijn relatief hoger dan bij Daniels (Melvilles 6022 unieke woorden op 35000 woorden), maar dat is een direct effect van tekstlengte. Dat is niet zomaar een intuïtie; we checkten dat ook. Als wij Moby Dick door ons algoritme halen, komen we – zonder de precieze editie te kennen Daniels gebruikte – uit op 6059 unieke woorden. Het verschil in type-token-ratio is heel erg klein (0.172 vs 0.173). De verklaring voor het (kleine) verschil is dat ons algoritme de data iets meer ‘opschoonde’ (leestekens en getallen zijn bij ons bijvoorbeeld geen woorden) en dat we niet weten wat Daniels precies met metadata als disclaimers en inhoudsopgaven heeft gedaan (wij haalden die weg). Dat het relatieve verschil inderdaad samenhangt met het verschil in totaal aantal woorden, blijkt als we onze telling uitvoeren op niet de eerste 4000, maar de eerste 35000 woorden van Mulisch’ De Ontdekking van de hemel. We komen dat tot 6060 unieke woorden en dat is goed vergelijkbaar met Daniels getal voor Moby Dick… Je ziet hieraan dat een tekst op een gegeven moment het punt bereikt dat er simpelweg niet echt nieuwe woorden meer bijkomen (het begin is noodzakelijk diverser; i.e. het eerste woord is altijd uniek, maar na een tijd zijn alle woorden wel zo’n beetje ‘opgebruikt’) en dat punt bereik je waarschijnlijk niet altijd binnen de 4000 woorden. Zie ook het kader over lexicale diversiteit.
Dolf Hartveldt zegt
Toch wringt er iets in dit onderzoek. Als je het over het grote vocabulaire van Shakespeare hebt, dan gaat het om de hoeveelheid unieke woorden die hij gebruikt als verzameling afgezet tegen het totale Engelse vocabulaire. Het gaat dan om de pakweg 100000 ‘unieke’ woorden van Shakespeare tegenover de ongeveer 1000000 Engelse woorden. Wat wringt is dat er moeiteloos wordt overgegaan van grootte naar diversiteit zoals in dit artikel gedefinieerd. En dat er allerlei woorden van buiten de beoordeelde taal worden meegeteld. Dan is het geen wonder dat Mulisch, Couperus en Multatuli relatief laag scoren. Een betere vergelijking was dan wellicht geweest om tegenover de rapteksten experimentele dichters te zetten. Ook niet verwonderlijk dat een dichter als Pfeijffer hoog scoort, ook al is hij niet experimenteel.
Met vriendelijke groet,
Dolf Hartveldt
tamarinde zegt
Als je de dubbele (soms drie en vierdubbele) betekenissen van woorden van iemand als BOEF zou meewegen, zou hij nog een paar honderd woorden hoger zijn geeindigd in de grafiek.
Verder was de diagram net iets interessanter geweest als op de Y-as de succesratio (bv totaal aantal views van de onderhavige artiest) was verdisconteerd. Dan hadden we misschien een relatie kunnen vinden tussen succes en breedte van de woordenschat.
Willem van Doorn zegt
Een leuk onderzoek. Het probleem dat ik zie is dat een roman tematisch gebonden en beschrijvend is waardoor een groot aantal woorden bewust niet door de auteur gebruikt worden (zie het eigen voorbeeld uit Max Havelaar). Van de rappers wordt een serie korte teksten gebruikt waarin een aantal verschillende onderwerpen worden aangesneden. De suggestie van Dolf Hartveldt om de teksten van dichters te gebruiken is niet zo gek en zou interressant zijn.
Mvg
Paul de Weerd zegt
Blijkbaar heb ik een sterke voorkeur voor “complex” taalgebruik in hip hop. Zowel in het Engels als in het Nederlands ben ik meer fan van die rappers die “hoog” scoren.
Volgens mij zit er nog wel een extra onderzoek in de dubbelzinnigheid van alle metaforen die rappers gebruiken, waar tamarinde volgens mij ook al op doelde.
Dank voor een leuk onderzoek!
Nico Spilt zegt
En toch: een avondje Shakespeare zou ik wel trekken, maar hiphop, waar is de uitknop?