Het feit dat de DBNL nu eindelijk een paar duizend bestanden uit het publieke domein heeft geopenbaard in het xml-formaat waarin ze deze ook zelf gebruikt – zonder opmaak, maar met een duidelijke structuur – heeft de oude computerprogrammeur in me wakker gemaakt. Eindelijk ben je niet langer afhankelijk van de tamelijk elementaire zoekmachine die de DBNL heeft.
Niet dat ik nu zo’n geweldige programmeur ben; maar met wat eenvoudige handgrepen heb ik toch al wat aardigs gevonden: de meer dan 200 canonieke sonnetten (dat wil zeggen: sonnetten die geschreven zijn volgens het schema abba abba ccd eed). Ze staan hier, met een verwijzing naar de bestanden waar ze uit komen.
Het is allemaal betrekkelijk primitief. Een eerste script vist uit al die xml-bestanden de sonnetten die uit veertien regels bestaan. Daar zit nog allerlei onzin bij, wat soms wordt in de DBNL bijvoorbeeld de naam van de auteur onder een gedicht als een normale regel behandeld. Echte sonnetten worden dan te lang (15 regels) terwijl sommige eigenlijk 13-regelige gedichten ineens sonnetten worden. Ik weet niet hoeveel dit er alles zijn, maar ik heb de indruk dat het er niet héél veel zijn.
Het tweede script bepaalt van ieder gedicht het rijmschema. Ook dit werkt behoorlijk primitief: twee woorden rijmen als ze op dezelfde letterreeks eindigen, te beginnen bij enige klinker in de twee woorden. Met allerlei spellingvariatie wordt op enkele uitzonderingen na (kruid ruimt op luit) geen rekening gehouden. Ook hier valt er dus een en ander weg.
Desalniettemin vind je met een avondje knutselen al een aardig resultaat, namelijk dat abba abba ccd eed echt de dominante vorm is van het Nederlandse sonnet, In concreto zijn dit de meest voorkomende rijmschema’s van Nederlandse gedichten (de getallen geven absolute aantallen weer):
aabbccddeeffgg 155 aabbccddeeffgh 21 aabbccdeffgghh 12 aabccbddeffegg 13 ababcdcdefefgg 29 abbaabbaccdccd 28 abbaabbaccdede 22 abbaabbaccdeed 220 abbaabbaccdeef 13 abbaabbaccdefd 11 abbaabbacdecde 14 abbaaccaddeffe 17 abbacbbcddeffe 12 abbacddceffegg 34 abbccbbcddeffe 15 abccbbccbddeffe 16 abccddeeffgghh 14
Zoals te zien is zijn er maar twee echt grote patronen: wat ik daarnet het canonieke sonnet heb genoemd, en aabbccddeeffgg, met andere woorden gepaard rijm. De laatste zijn gedichten die je normaliter geen sonnetten zou noemen.
Er zitten ook nogal wat vormen in die lijken op een van deze twee, met een enkele afwijking van een regel die niet lijkt te rijmen: abbaabbaccdeef en abbaabbaccdefd zijn zulke varianten van het canonieke sonnet, aabbccddeeffgh, aabbccddeefghh, aabbccddefgghh en abccddeeffgghh van het gepaarde rijm. Wat hier waarschijnlijk steeds is gebeurd is dat een echt rijmpaar door een of andere spellingvariatie (geleên rijmt op heen) niet is herkend.
Dan zijn er nog wat rijmschema’s die niet van sonnetten lijken, zoals aabccbddeffegg en dan allerlei variaties op het canonieke sonnet, vooral in het laatste sextet. Wat dit mini-onderzoekje goed laat zien is hoe klein de invloed van het zogeheten Shakespeareaanse sonnet op de Nederlandse dichtkunst is geweest. Dat heeft de vorm abbacddceffegg en daarvan vinden we er maar 34 in dit corpus van 560 sonnetten. Een heleboel daarvan blijken bij nadere inspectie uit hetzelfde bestand te komen (de gevonden Shakespeare-sonnetten staan hier).
Ik ben niet ontevreden over wat je met een beetje prutsen voor elkaar kunt krijgen. Maar er zijn nog allerlei wensen. Er is dus het probleem van de spellingvariatie; bovendien bepaal ik nu het rijm zonder te weten waar de klemtoon ligt. Dit betekent dat er als er geen betere kandidaten zijn kan worden beslist dat haren eindigt op vinden, want ze eindigen beiden op –en. Ook kun je wel de titel en de auteur van het boek bepalen waarin het sonnet staat, maar veel lastiger die van de schrijver van het sonnet zelf, als dit iemand anders is dan de auteur van het boek, zoals in bloemlezingen.
Ik wil mijn vaardigheden in dezen graag perfectioneren, maar ik zou ook eigenlijk graag iedereen willen oproepen om dit soort scripts die de DBNL op wat voor manier dan ook doorvlooien met elkaar te delen. Amateurs zoals ik! Of professionals zoals jij!
Ik zal mijn DBNL-Pythonscripts bij elkaar plaatsen op GitHub.
James Sjaalman zegt
Volgende stap is natuurlijk het metrum. Kan je de scandeermachine weer eens aanzwengelen…
Mooie bijvangst is dan wellicht het middenrijm.
Marc van Oostendorp zegt
De scandeermachine had al het probleem dat hij alleen werkte met één soort spelling. Daar zit voorlopig ook hier het grootste probleem. .
James Sjaalman zegt
Ik denk dat je bijna de woordgrenzen kan negeren. En dan met een soort Needleman-Wunch. Maar dan heb je een ander soort tabel nodig. Een naar probleem zijn de d=t=dt en ch=g equivalenties enzo.
C.W. Schoneveld zegt
Wat een toeval dat, op het moment dat deze lijst van sonnetten hier verschijnt, ik zelf bezig ben met het vertalen in het Engels van 100 Nederlandse sonnetten uit de 17e en 18e eeuw die Kormij had gekozen voor zijn bloemlezing van De Nederlandse poëzie uit die twee eeuwen. Mijn motief is het feit dat na John Milton tot het eind van 18e eeuw in Engeland geen sonnet is geschreven. Mijn titel zal zijn “Scorn not the Sonnet”, het begin van de eerste regel van een sonnet door Wordsworth uit ca. 1800. Ik heb er nu 60 voltooid.
Cornelis W. Schoneveld
C.W. Schoneveld zegt
Bij een onderverdeling van types moet op grond van het rijmpatroon en de plaats van de “chute” ook een onderscheid gemaakt worden op grond van het aantal versvoeten per regel. Kijken we naar de opgesomde Shakespeareaanse sonnetten dan vallen er nog weer heel wat af, omdat ze niet het vereiste pentameter metrum toepassen, Op een of twee na gebruikte Shakespeare alleen die vorm. Slechts No 145 is octosyllabisch. Slepend rijm past hier ook niet bij. Shakespeare gebruikt het heel incidenteel in zo’n 20 van de 154 sonnetten, maar in No.78 in 12 van de 14 regels.
Cornelis W. Schoneveld
JamesSjaalman zegt
Ik heb dit weekeind ook even met de computer gestoeid. Het https://en.wikipedia.org/wiki/Needleman%E2%80%93Wunsch_algorithm leek een geweldig idee, maar het werkt nauwelijks. De resulterende “traces” zijn wel het vermelden waard:
./needlmanw “`cat een`” “`cat twee`”
+++++-+BB+–++BB–++—+–+—-A+–+A+-+–++–+-AA–++A-AA——-+ Lev=43/66
Noch wat een nydigh mensch bede-nckt- voor schel–msch-e– vonden,
Noch ha–et, n–och twist, noch nijt, noch smaet, noch achterklap,
Score=0.472865
./needlmanw “`cat een`” “`cat drie`”
A–A+–BB+-A+—-+A-+–A+—-A-+—A+—+A–+AAA+–A+AAA——– Lev=52/64
-En- sullen- myne -ziel- best-ricke-n ’t -gee—ner- —stonden;
Noch ha–et, noch twist, noch nijt, noch smaet, noch achterklap,
Score=0.365677
./needlmanw “`cat een`” “`cat vier`”
—A+A-+AA+-B—+-A–+-A+AAA+–A-A+A–A+A–+—+A-A+——–++- Lev=49/63
Dat- -de– geest d-utte-n— sa-l- -in- -liefden-s- eygenschap:
Noch haet, n-och twist, noch nijt, noch smaet, noch achterklap,
Score=0.407037
./needlmanw “`cat twee`” “`cat drie`”
A–A+—A-+++-+–AA+–A–A+++B—++B-+AA–+A-A+—-A—+++++- Lev=42/61
-En- sul-len myne– zi-el- bestricken –’t -g-eener- stonden;
Noch wat een nydigh mensch be-denck-t voor schelmsche vonden,
Score=0.445295
./needlmanw “`cat twee`” “`cat vier`”
—A+–A+B++B-+AA+–AA-++B+–+AAA-+AAA+—AA–A+A-+—B——– Lev=49/63
Dat- de- geest –dut–ten sal —in— lie–fd-e-ns eygenschap:
Noch wat -ee-n nydigh men-sch bedenckt voor schelmsche- vonden,
Score=0.402248
./needlmanw “`cat drie`” “`cat vier`”
B–+–B–+B-+–B-+B+-A-++A—-+B–++AA-+AA+A–A——– Lev=43/55
Dat de geest dutten s-al -in liefden–s –e-yg-enschap:
-En su-lle-n my-ne- ziel bestri-cken ’t geener stonden;
Score=0.387962
Het idee is dus om twee te vergelijken zinnen tegen elkaar uit te zetten: de ene op de X as, de andere is Y. Een “trace” gaat van Noordwest naar Zuidoost (de Y-as loopt van boven naar onder). De gekozen trace is degene met de minste kosten.
Punt blijft: daar is heel veel tuning voor nodig (bijv klinkers matchen *een beetje* aan andere klinkers, D en T matchen ook een beetje aan elkaar. etc)
[ik hoop dat het een proportioneel font is …]
Verder onderzoek is nodig.