• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Ik was een avondje sonnetten uit de DBNL vissen

27 februari 2020 door Marc van Oostendorp 7 Reacties

Het feit dat de DBNL nu eindelijk een paar duizend bestanden uit het publieke domein heeft geopenbaard in het xml-formaat waarin ze deze ook zelf gebruikt – zonder opmaak, maar met een duidelijke structuur – heeft de oude computerprogrammeur in me wakker gemaakt. Eindelijk ben je niet langer afhankelijk van de tamelijk elementaire zoekmachine die de DBNL heeft.

Niet dat ik nu zo’n geweldige programmeur ben; maar met wat eenvoudige handgrepen heb ik toch al wat aardigs gevonden: de meer dan 200 canonieke sonnetten (dat wil zeggen: sonnetten die geschreven zijn volgens het schema abba abba ccd eed). Ze staan hier, met een verwijzing naar de bestanden waar ze uit komen.

Het is allemaal betrekkelijk primitief. Een eerste script vist uit al die xml-bestanden de sonnetten die uit veertien regels bestaan. Daar zit nog allerlei onzin bij, wat soms wordt in de DBNL bijvoorbeeld de naam van de auteur onder een gedicht als een normale regel behandeld. Echte sonnetten worden dan te lang (15 regels) terwijl sommige eigenlijk 13-regelige gedichten ineens sonnetten worden. Ik weet niet hoeveel dit er alles zijn, maar ik heb de indruk dat het er niet héél veel zijn.

Het tweede script bepaalt van ieder gedicht het rijmschema. Ook dit werkt behoorlijk primitief: twee woorden rijmen als ze op dezelfde letterreeks eindigen, te beginnen bij enige klinker in de twee woorden. Met allerlei spellingvariatie wordt op enkele uitzonderingen na (kruid ruimt op luit) geen rekening gehouden. Ook hier valt er dus een en ander weg.

Desalniettemin vind je met een avondje knutselen al een aardig resultaat, namelijk dat abba abba ccd eed echt de dominante vorm is van het Nederlandse sonnet, In concreto zijn dit de meest voorkomende rijmschema’s van Nederlandse gedichten (de getallen geven absolute aantallen weer):

aabbccddeeffgg 155
aabbccddeeffgh 21
aabbccdeffgghh 12
aabccbddeffegg 13
ababcdcdefefgg 29
abbaabbaccdccd 28
abbaabbaccdede 22
abbaabbaccdeed 220
abbaabbaccdeef 13
abbaabbaccdefd 11
abbaabbacdecde 14
abbaaccaddeffe 17
abbacbbcddeffe 12
abbacddceffegg 34
abbccbbcddeffe 15
abccbbccbddeffe 16
abccddeeffgghh 14

Zoals te zien is zijn er maar twee echt grote patronen: wat ik daarnet het canonieke sonnet heb genoemd, en aabbccddeeffgg, met andere woorden gepaard rijm. De laatste zijn gedichten die je normaliter geen sonnetten zou noemen.

Er zitten ook nogal wat vormen in die lijken op een van deze twee, met een enkele afwijking van een regel die niet lijkt te rijmen: abbaabbaccdeef en abbaabbaccdefd zijn zulke varianten van het canonieke sonnet, aabbccddeeffgh, aabbccddeefghh, aabbccddefgghh en abccddeeffgghh van het gepaarde rijm. Wat hier waarschijnlijk steeds is gebeurd is dat een echt rijmpaar door een of andere spellingvariatie (geleên rijmt op heen) niet is herkend.

Dan zijn er nog wat rijmschema’s die niet van sonnetten lijken, zoals aabccbddeffegg en dan allerlei variaties op het canonieke sonnet, vooral in het laatste sextet. Wat dit mini-onderzoekje goed laat zien is hoe klein de invloed van het zogeheten Shakespeareaanse sonnet op de Nederlandse dichtkunst is geweest. Dat heeft de vorm abbacddceffegg en daarvan vinden we er maar 34 in dit corpus van 560 sonnetten. Een heleboel daarvan blijken bij nadere inspectie uit hetzelfde bestand te komen (de gevonden Shakespeare-sonnetten staan hier).

Ik ben niet ontevreden over wat je met een beetje prutsen voor elkaar kunt krijgen. Maar er zijn nog allerlei wensen. Er is dus het probleem van de spellingvariatie; bovendien bepaal ik nu het rijm zonder te weten waar de klemtoon ligt. Dit betekent dat er als er geen betere kandidaten zijn kan worden beslist dat haren eindigt op vinden, want ze eindigen beiden op –en. Ook kun je wel de titel en de auteur van het boek bepalen waarin het sonnet staat, maar veel lastiger die van de schrijver van het sonnet zelf, als dit iemand anders is dan de auteur van het boek, zoals in bloemlezingen.

Ik wil mijn vaardigheden in dezen graag perfectioneren, maar ik zou ook eigenlijk graag iedereen willen oproepen om dit soort scripts die de DBNL op wat voor manier dan ook doorvlooien met elkaar te delen. Amateurs zoals ik! Of professionals zoals jij!

Ik zal mijn DBNL-Pythonscripts bij elkaar plaatsen op GitHub.

Delen:

  • Klik om af te drukken (Opent in een nieuw venster) Print
  • Klik om dit te e-mailen naar een vriend (Opent in een nieuw venster) E-mail
  • Klik om te delen op Facebook (Opent in een nieuw venster) Facebook
  • Klik om te delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Klik om te delen op Telegram (Opent in een nieuw venster) Telegram
  • Klik om op LinkedIn te delen (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: DBNL, programmeren

Lees Interacties

Reacties

  1. James Sjaalman zegt

    27 februari 2020 om 12:37

    Volgende stap is natuurlijk het metrum. Kan je de scandeermachine weer eens aanzwengelen…
    Mooie bijvangst is dan wellicht het middenrijm.

    Beantwoorden
    • Marc van Oostendorp zegt

      27 februari 2020 om 17:13

      De scandeermachine had al het probleem dat hij alleen werkte met één soort spelling. Daar zit voorlopig ook hier het grootste probleem. .

      Beantwoorden
  2. James Sjaalman zegt

    27 februari 2020 om 18:54

    Ik denk dat je bijna de woordgrenzen kan negeren. En dan met een soort Needleman-Wunch. Maar dan heb je een ander soort tabel nodig. Een naar probleem zijn de d=t=dt en ch=g equivalenties enzo.

    Beantwoorden
  3. C.W. Schoneveld zegt

    28 februari 2020 om 10:44

    Wat een toeval dat, op het moment dat deze lijst van sonnetten hier verschijnt, ik zelf bezig ben met het vertalen in het Engels van 100 Nederlandse sonnetten uit de 17e en 18e eeuw die Kormij had gekozen voor zijn bloemlezing van De Nederlandse poëzie uit die twee eeuwen. Mijn motief is het feit dat na John Milton tot het eind van 18e eeuw in Engeland geen sonnet is geschreven. Mijn titel zal zijn “Scorn not the Sonnet”, het begin van de eerste regel van een sonnet door Wordsworth uit ca. 1800. Ik heb er nu 60 voltooid.
    Cornelis W. Schoneveld

    Beantwoorden
  4. C.W. Schoneveld zegt

    28 februari 2020 om 13:39

    Bij een onderverdeling van types moet op grond van het rijmpatroon en de plaats van de “chute” ook een onderscheid gemaakt worden op grond van het aantal versvoeten per regel. Kijken we naar de opgesomde Shakespeareaanse sonnetten dan vallen er nog weer heel wat af, omdat ze niet het vereiste pentameter metrum toepassen, Op een of twee na gebruikte Shakespeare alleen die vorm. Slechts No 145 is octosyllabisch. Slepend rijm past hier ook niet bij. Shakespeare gebruikt het heel incidenteel in zo’n 20 van de 154 sonnetten, maar in No.78 in 12 van de 14 regels.
    Cornelis W. Schoneveld

    Beantwoorden
  5. JamesSjaalman zegt

    1 maart 2020 om 23:29

    Ik heb dit weekeind ook even met de computer gestoeid. Het https://en.wikipedia.org/wiki/Needleman%E2%80%93Wunsch_algorithm leek een geweldig idee, maar het werkt nauwelijks. De resulterende “traces” zijn wel het vermelden waard:

    ./needlmanw “`cat een`” “`cat twee`”
    +++++-+BB+–++BB–++—+–+—-A+–+A+-+–++–+-AA–++A-AA——-+ Lev=43/66
    Noch wat een nydigh mensch bede-nckt- voor schel–msch-e– vonden,
    Noch ha–et, n–och twist, noch nijt, noch smaet, noch achterklap,
    Score=0.472865
    ./needlmanw “`cat een`” “`cat drie`”
    A–A+–BB+-A+—-+A-+–A+—-A-+—A+—+A–+AAA+–A+AAA——– Lev=52/64
    -En- sullen- myne -ziel- best-ricke-n ’t -gee—ner- —stonden;
    Noch ha–et, noch twist, noch nijt, noch smaet, noch achterklap,
    Score=0.365677
    ./needlmanw “`cat een`” “`cat vier`”
    —A+A-+AA+-B—+-A–+-A+AAA+–A-A+A–A+A–+—+A-A+——–++- Lev=49/63
    Dat- -de– geest d-utte-n— sa-l- -in- -liefden-s- eygenschap:
    Noch haet, n-och twist, noch nijt, noch smaet, noch achterklap,
    Score=0.407037
    ./needlmanw “`cat twee`” “`cat drie`”
    A–A+—A-+++-+–AA+–A–A+++B—++B-+AA–+A-A+—-A—+++++- Lev=42/61
    -En- sul-len myne– zi-el- bestricken –’t -g-eener- stonden;
    Noch wat een nydigh mensch be-denck-t voor schelmsche vonden,
    Score=0.445295
    ./needlmanw “`cat twee`” “`cat vier`”
    —A+–A+B++B-+AA+–AA-++B+–+AAA-+AAA+—AA–A+A-+—B——– Lev=49/63
    Dat- de- geest –dut–ten sal —in— lie–fd-e-ns eygenschap:
    Noch wat -ee-n nydigh men-sch bedenckt voor schelmsche- vonden,
    Score=0.402248
    ./needlmanw “`cat drie`” “`cat vier`”
    B–+–B–+B-+–B-+B+-A-++A—-+B–++AA-+AA+A–A——– Lev=43/55
    Dat de geest dutten s-al -in liefden–s –e-yg-enschap:
    -En su-lle-n my-ne- ziel bestri-cken ’t geener stonden;
    Score=0.387962

    Het idee is dus om twee te vergelijken zinnen tegen elkaar uit te zetten: de ene op de X as, de andere is Y. Een “trace” gaat van Noordwest naar Zuidoost (de Y-as loopt van boven naar onder). De gekozen trace is degene met de minste kosten.

    Punt blijft: daar is heel veel tuning voor nodig (bijv klinkers matchen *een beetje* aan andere klinkers, D en T matchen ook een beetje aan elkaar. etc)

    [ik hoop dat het een proportioneel font is …]
    Verder onderzoek is nodig.

    Beantwoorden

Trackbacks

  1. Automatic Metadata- Text mining – it's all Meta(data) schreef:
    8 maart 2020 om 17:15

    […] Ik was een avondje sonnetten uit de DBNL vissen […]

    Beantwoorden

Laat een reactie achter bij JamesSjaalmanReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Sint Nicolaas

Zie eens, Mietje! wat al lekkers
U, Sint Nicolaas al bragt;
Omdat ge’ als gehoorzaam Meisje,
Uw verpligting hebt volbragt.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

De koeien schemeren door de heg,
het paard is uit taaitaai gesneden,
in ieder duindal ligt dun sneeuw.

De branding vlecht een veren zee
waar zon over omhoog stijgt, licht waarin
geen plaats om uit te vliegen is.

Bron: Uit de hoge boom geschreven, 1967

➔ Bekijk hier alle citaten

Agenda

2 januari 2026: Vlekflits

2 januari 2026: Vlekflits

5 december 2025

➔ Lees meer
11 december 2025: Anne Frank, schrijfster

11 december 2025: Anne Frank, schrijfster

3 december 2025

➔ Lees meer
11 december 2025: Proefcollege Nederlands

11 december 2025: Proefcollege Nederlands

2 december 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1946 Dick Wortel
➔ Neerlandicikalender

Media

Dichter Esther Jansma (24 december 1958-23 januari 2025)

Dichter Esther Jansma (24 december 1958-23 januari 2025)

2 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
De postkoloniale podcast met Remco Raben over Pramoedya Ananta Toer

De postkoloniale podcast met Remco Raben over Pramoedya Ananta Toer

30 november 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Peter van Zonneveld over Tjalie Robinson/Vincent Mahieu (1993)

Peter van Zonneveld over Tjalie Robinson/Vincent Mahieu (1993)

29 november 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d