Grafeem‑foneem‑tagging voor Middelnederlandse corpora
Voor de onderzoeksgroep Taalvariatie zoekt het Meertens Instituut van de KNAW en de Universiteit van Antwerpen:
1 stagiair (m/v/d) – reageren kan tot 15 maart 2026
De spelling van het Middelnederlands ziet er voor moderne ogen vaak exotisch uit: vormen als ghelt, bouck of sijn verraden tegelijk regionale uitspraak, historische klankveranderingen en oude schrijftradities. Toch weten we nog weinig systematisch over de manier waarop die premoderne spellingssystemen klankinformatie coderen. Hoe verhouden de geschreven grafemen (lettercombinaties) zich precies tot de onderliggende fonemen? En hoe kunnen we dat op een reproduceerbare, computationele manier vastleggen?
Een grote stap voorwaarts kan worden gezet door bestaande, rijk geannoteerde corpora zoals het Corpus Gysseling en het Corpus Van Reenen–Mulder (CRM) uit te breiden met een grafeem foneem correspondentie (GPC) laag. Daarin wordt voor elke lettercombinatie die voor een klank kan staan (bv. of ) aangegeven welk foneem erachter schuilt (bv. /f/). Die laag maakt het mogelijk om automatisch te analyseren welke klankkenmerken consequent worden geschreven, hoe regionaal en diachroon die patronen zijn, en zal de technische ruggengraat vormen voor het UAntwerpen-project Premoderne Antwerpse spellingtradities: Taalkundig Analyse (PASTA).
Het doel van dit stageproject is om een eerste, semi automatische pipeline te ontwikkelen die GPC informatie toevoegt aan CG en CRM, in de vorm van open source Pythoncode die ook voor andere historische corpora inzetbaar is.
Werkzaamheden
De taken van de stagiair zijn de volgende:
- Je verkent de structuur van het Corpus Gysseling en CRM (bestandsformaten, bestaande lemma en PoS lagen) en maakt een inventaris van relevante Middelnederlandse grafemen.
- Je ontwerpt samen met de begeleiders een annotatieschema voor grafeem foneem correspondenties (incl. segmentatie, onzekerheid, index preservatie) en helpt een geschikte technische representatie (extra kolom, aparte laag…) kiezen.
- Je implementeert een eerste versie van een regelgebaseerde GPC engine in Python, bij voorkeur bovenop een bestaande open source Grapheme2Phoneme bibliotheek, met contextgevoelige regels voor Middelnederlands.
- Je test en evalueert de engine op een kleine goudstandaard (handmatig geannoteerde steekproef uit CG/CRM), voert een foutanalyse uit en verfijnt de regels en eventuele lexicale uitzonderingslijsten.
- Je documenteert en verpakt de code als een herbruikbaar open source pakket (met tests, voorbeeldscripts en korte handleiding), zodat ze later kan worden ingezet voor het PASTA corpus en andere historische data.
Het betreft een onderzoeksstage, waarbij 28 uur als 1 studiepunt telt. De aanbevolen stageduur is drie maanden (12–15 ECTS), in overleg in te vullen (bijvoorbeeld 3 à 4 dagen per week). De begeleiders zijn Chris De Wulf en Dirk Pijpops (Universiteit Antwerpen, CLiPS).
Wat vragen wij?
We nodigen (R)MA studenten uit de volgende studierichtingen van harte uit om te reageren:
- Taal- en Letterkunde / Taalwetenschappen
- Computerlinguïstiek / Taaltechnologie
- Digitale Geesteswetenschappen
- of een verwante opleiding met interesse in historische taaldata
Verder:
- Je hebt basisvaardigheid in Python of in een andere programmeertaal zoals R, Perl of Java en je bent bereid je in Python te verdiepen.
- Je hebt enige kennis van historische taalkunde, je hebt interesse in historische fonologie en fonetiek en bent bereid met klankbeschrijvingen te werken.
- Je leest vlot Nederlands en hebt zin om je in Middelnederlands en oude spellingen in te werken.
- Je bent nauwkeurig, hebt oog voor detail in data en vindt het leuk om zowel taalkundig als technisch te redeneren.
Wat bieden wij?
- Een inhoudelijk uitdagende onderzoeksstage op het snijvlak van historische taalkunde, corpuslinguïstiek en computationele linguïstiek.
- Begeleiding door een interdisciplinair team (historische grafematiek/spelling, corpuslinguïstiek) binnen het Meertens Instituut en de onderzoeksgroep CLiPS aan de Universiteit Antwerpen.
- Een werkplek, toegang tot de relevante corpora en technische ondersteuning. (Zowel bij het Meertens Instituut als bij de Universiteit Antwerpen)
Geïnteresseerd?
Voor meer informatie kun je contact opnemen met Marjo van Koppen. Reageer uiterlijk voor 15 maart 2026.
Laat een reactie achter