• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Ik was een avondje sonnetten uit de DBNL vissen

27 februari 2020 door Marc van Oostendorp 7 Reacties

Het feit dat de DBNL nu eindelijk een paar duizend bestanden uit het publieke domein heeft geopenbaard in het xml-formaat waarin ze deze ook zelf gebruikt – zonder opmaak, maar met een duidelijke structuur – heeft de oude computerprogrammeur in me wakker gemaakt. Eindelijk ben je niet langer afhankelijk van de tamelijk elementaire zoekmachine die de DBNL heeft.

Niet dat ik nu zo’n geweldige programmeur ben; maar met wat eenvoudige handgrepen heb ik toch al wat aardigs gevonden: de meer dan 200 canonieke sonnetten (dat wil zeggen: sonnetten die geschreven zijn volgens het schema abba abba ccd eed). Ze staan hier, met een verwijzing naar de bestanden waar ze uit komen.

Het is allemaal betrekkelijk primitief. Een eerste script vist uit al die xml-bestanden de sonnetten die uit veertien regels bestaan. Daar zit nog allerlei onzin bij, wat soms wordt in de DBNL bijvoorbeeld de naam van de auteur onder een gedicht als een normale regel behandeld. Echte sonnetten worden dan te lang (15 regels) terwijl sommige eigenlijk 13-regelige gedichten ineens sonnetten worden. Ik weet niet hoeveel dit er alles zijn, maar ik heb de indruk dat het er niet héél veel zijn.

Het tweede script bepaalt van ieder gedicht het rijmschema. Ook dit werkt behoorlijk primitief: twee woorden rijmen als ze op dezelfde letterreeks eindigen, te beginnen bij enige klinker in de twee woorden. Met allerlei spellingvariatie wordt op enkele uitzonderingen na (kruid ruimt op luit) geen rekening gehouden. Ook hier valt er dus een en ander weg.

Desalniettemin vind je met een avondje knutselen al een aardig resultaat, namelijk dat abba abba ccd eed echt de dominante vorm is van het Nederlandse sonnet, In concreto zijn dit de meest voorkomende rijmschema’s van Nederlandse gedichten (de getallen geven absolute aantallen weer):

aabbccddeeffgg 155
aabbccddeeffgh 21
aabbccdeffgghh 12
aabccbddeffegg 13
ababcdcdefefgg 29
abbaabbaccdccd 28
abbaabbaccdede 22
abbaabbaccdeed 220
abbaabbaccdeef 13
abbaabbaccdefd 11
abbaabbacdecde 14
abbaaccaddeffe 17
abbacbbcddeffe 12
abbacddceffegg 34
abbccbbcddeffe 15
abccbbccbddeffe 16
abccddeeffgghh 14

Zoals te zien is zijn er maar twee echt grote patronen: wat ik daarnet het canonieke sonnet heb genoemd, en aabbccddeeffgg, met andere woorden gepaard rijm. De laatste zijn gedichten die je normaliter geen sonnetten zou noemen.

Er zitten ook nogal wat vormen in die lijken op een van deze twee, met een enkele afwijking van een regel die niet lijkt te rijmen: abbaabbaccdeef en abbaabbaccdefd zijn zulke varianten van het canonieke sonnet, aabbccddeeffgh, aabbccddeefghh, aabbccddefgghh en abccddeeffgghh van het gepaarde rijm. Wat hier waarschijnlijk steeds is gebeurd is dat een echt rijmpaar door een of andere spellingvariatie (geleên rijmt op heen) niet is herkend.

Dan zijn er nog wat rijmschema’s die niet van sonnetten lijken, zoals aabccbddeffegg en dan allerlei variaties op het canonieke sonnet, vooral in het laatste sextet. Wat dit mini-onderzoekje goed laat zien is hoe klein de invloed van het zogeheten Shakespeareaanse sonnet op de Nederlandse dichtkunst is geweest. Dat heeft de vorm abbacddceffegg en daarvan vinden we er maar 34 in dit corpus van 560 sonnetten. Een heleboel daarvan blijken bij nadere inspectie uit hetzelfde bestand te komen (de gevonden Shakespeare-sonnetten staan hier).

Ik ben niet ontevreden over wat je met een beetje prutsen voor elkaar kunt krijgen. Maar er zijn nog allerlei wensen. Er is dus het probleem van de spellingvariatie; bovendien bepaal ik nu het rijm zonder te weten waar de klemtoon ligt. Dit betekent dat er als er geen betere kandidaten zijn kan worden beslist dat haren eindigt op vinden, want ze eindigen beiden op –en. Ook kun je wel de titel en de auteur van het boek bepalen waarin het sonnet staat, maar veel lastiger die van de schrijver van het sonnet zelf, als dit iemand anders is dan de auteur van het boek, zoals in bloemlezingen.

Ik wil mijn vaardigheden in dezen graag perfectioneren, maar ik zou ook eigenlijk graag iedereen willen oproepen om dit soort scripts die de DBNL op wat voor manier dan ook doorvlooien met elkaar te delen. Amateurs zoals ik! Of professionals zoals jij!

Ik zal mijn DBNL-Pythonscripts bij elkaar plaatsen op GitHub.

Delen:

  • Klik om af te drukken (Wordt in een nieuw venster geopend) Print
  • Klik om dit te e-mailen naar een vriend (Wordt in een nieuw venster geopend) E-mail
  • Klik om te delen op Facebook (Wordt in een nieuw venster geopend) Facebook
  • Klik om te delen op WhatsApp (Wordt in een nieuw venster geopend) WhatsApp
  • Klik om te delen op Telegram (Wordt in een nieuw venster geopend) Telegram
  • Klik om op LinkedIn te delen (Wordt in een nieuw venster geopend) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: DBNL, programmeren

Lees Interacties

Reacties

  1. James Sjaalman zegt

    27 februari 2020 om 12:37

    Volgende stap is natuurlijk het metrum. Kan je de scandeermachine weer eens aanzwengelen…
    Mooie bijvangst is dan wellicht het middenrijm.

    Beantwoorden
    • Marc van Oostendorp zegt

      27 februari 2020 om 17:13

      De scandeermachine had al het probleem dat hij alleen werkte met één soort spelling. Daar zit voorlopig ook hier het grootste probleem. .

      Beantwoorden
  2. James Sjaalman zegt

    27 februari 2020 om 18:54

    Ik denk dat je bijna de woordgrenzen kan negeren. En dan met een soort Needleman-Wunch. Maar dan heb je een ander soort tabel nodig. Een naar probleem zijn de d=t=dt en ch=g equivalenties enzo.

    Beantwoorden
  3. C.W. Schoneveld zegt

    28 februari 2020 om 10:44

    Wat een toeval dat, op het moment dat deze lijst van sonnetten hier verschijnt, ik zelf bezig ben met het vertalen in het Engels van 100 Nederlandse sonnetten uit de 17e en 18e eeuw die Kormij had gekozen voor zijn bloemlezing van De Nederlandse poëzie uit die twee eeuwen. Mijn motief is het feit dat na John Milton tot het eind van 18e eeuw in Engeland geen sonnet is geschreven. Mijn titel zal zijn “Scorn not the Sonnet”, het begin van de eerste regel van een sonnet door Wordsworth uit ca. 1800. Ik heb er nu 60 voltooid.
    Cornelis W. Schoneveld

    Beantwoorden
  4. C.W. Schoneveld zegt

    28 februari 2020 om 13:39

    Bij een onderverdeling van types moet op grond van het rijmpatroon en de plaats van de “chute” ook een onderscheid gemaakt worden op grond van het aantal versvoeten per regel. Kijken we naar de opgesomde Shakespeareaanse sonnetten dan vallen er nog weer heel wat af, omdat ze niet het vereiste pentameter metrum toepassen, Op een of twee na gebruikte Shakespeare alleen die vorm. Slechts No 145 is octosyllabisch. Slepend rijm past hier ook niet bij. Shakespeare gebruikt het heel incidenteel in zo’n 20 van de 154 sonnetten, maar in No.78 in 12 van de 14 regels.
    Cornelis W. Schoneveld

    Beantwoorden
  5. JamesSjaalman zegt

    1 maart 2020 om 23:29

    Ik heb dit weekeind ook even met de computer gestoeid. Het https://en.wikipedia.org/wiki/Needleman%E2%80%93Wunsch_algorithm leek een geweldig idee, maar het werkt nauwelijks. De resulterende “traces” zijn wel het vermelden waard:

    ./needlmanw “`cat een`” “`cat twee`”
    +++++-+BB+–++BB–++—+–+—-A+–+A+-+–++–+-AA–++A-AA——-+ Lev=43/66
    Noch wat een nydigh mensch bede-nckt- voor schel–msch-e– vonden,
    Noch ha–et, n–och twist, noch nijt, noch smaet, noch achterklap,
    Score=0.472865
    ./needlmanw “`cat een`” “`cat drie`”
    A–A+–BB+-A+—-+A-+–A+—-A-+—A+—+A–+AAA+–A+AAA——– Lev=52/64
    -En- sullen- myne -ziel- best-ricke-n ’t -gee—ner- —stonden;
    Noch ha–et, noch twist, noch nijt, noch smaet, noch achterklap,
    Score=0.365677
    ./needlmanw “`cat een`” “`cat vier`”
    —A+A-+AA+-B—+-A–+-A+AAA+–A-A+A–A+A–+—+A-A+——–++- Lev=49/63
    Dat- -de– geest d-utte-n— sa-l- -in- -liefden-s- eygenschap:
    Noch haet, n-och twist, noch nijt, noch smaet, noch achterklap,
    Score=0.407037
    ./needlmanw “`cat twee`” “`cat drie`”
    A–A+—A-+++-+–AA+–A–A+++B—++B-+AA–+A-A+—-A—+++++- Lev=42/61
    -En- sul-len myne– zi-el- bestricken –’t -g-eener- stonden;
    Noch wat een nydigh mensch be-denck-t voor schelmsche vonden,
    Score=0.445295
    ./needlmanw “`cat twee`” “`cat vier`”
    —A+–A+B++B-+AA+–AA-++B+–+AAA-+AAA+—AA–A+A-+—B——– Lev=49/63
    Dat- de- geest –dut–ten sal —in— lie–fd-e-ns eygenschap:
    Noch wat -ee-n nydigh men-sch bedenckt voor schelmsche- vonden,
    Score=0.402248
    ./needlmanw “`cat drie`” “`cat vier`”
    B–+–B–+B-+–B-+B+-A-++A—-+B–++AA-+AA+A–A——– Lev=43/55
    Dat de geest dutten s-al -in liefden–s –e-yg-enschap:
    -En su-lle-n my-ne- ziel bestri-cken ’t geener stonden;
    Score=0.387962

    Het idee is dus om twee te vergelijken zinnen tegen elkaar uit te zetten: de ene op de X as, de andere is Y. Een “trace” gaat van Noordwest naar Zuidoost (de Y-as loopt van boven naar onder). De gekozen trace is degene met de minste kosten.

    Punt blijft: daar is heel veel tuning voor nodig (bijv klinkers matchen *een beetje* aan andere klinkers, D en T matchen ook een beetje aan elkaar. etc)

    [ik hoop dat het een proportioneel font is …]
    Verder onderzoek is nodig.

    Beantwoorden

Trackbacks

  1. Automatic Metadata- Text mining – it's all Meta(data) schreef:
    8 maart 2020 om 17:15

    […] Ik was een avondje sonnetten uit de DBNL vissen […]

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Lucebert • Tajiri

Het licht is de liefde is niets
Een gat grijpt naar een ander gat
Het beeld bijt een beeld
De spiegel is bleek en bont

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

LIBELLEN

Hier is de broedplaats, takken in elkaar gehaakt,
manshoge brandnetel slaapt tussen grijze
verdorde armen, dun dood sparrehout.
Libellen paren een snel ogenblik,
bidden in zwermen, zetten zich,
doorzichtige strikken, korte takken,
op taktoppen.

Bron: Dierenalfabet, postuum verschenen, 1978

➔ Bekijk hier alle citaten

Agenda

1 juli – 15 september 2025: Over de grenzen van het boek

1 juli – 15 september 2025: Over de grenzen van het boek

11 juli 2025

➔ Lees meer
26 september 2025: Afscheid Peter-Arno Coppen

26 september 2025: Afscheid Peter-Arno Coppen

10 juli 2025

➔ Lees meer
Augustus: Eetvoorstelling ‘Muzikaal Feestmaal’ op Slot Zuylen en Muiderslot

Augustus: Eetvoorstelling ‘Muzikaal Feestmaal’ op Slot Zuylen en Muiderslot

8 juli 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1881 Maria Kronenberg
sterfdag
2018 Dana Constandse
➔ Neerlandicikalender

Media

De literaire letterenshow 2

De literaire letterenshow 2

12 juli 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
De laatste keuze van Rogi Wieg

De laatste keuze van Rogi Wieg

9 juli 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Van Lacarise den katijf die enen pape sach bruden zijn wijf

Van Lacarise den katijf die enen pape sach bruden zijn wijf

8 juli 2025 Door Vianne Cré Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d