Het Limburgs kampt al jaren met een groot tekort aan digitale middelen en technische systemen om de taal en al haar dialecten te ondersteunen, bestuderen en toegankelijk te maken. Dit gebrek belemmert niet alleen wetenschappelijk onderzoek, maar ook de ontwikkeling van digitale toepassingen zoals spraakherkenning, machinevertaling en andere AI-gebaseerde technologieën.
Een nieuw project, uitgevoerd door Andreas Simons onder leiding van Leonie Cornips (leerstoel Taalcultuur in Limburg) en gesubsidieerd door het Huis voor de Kunsten/Hoes veur ’t Limburgs, zet zich nu in om daar verandering in te brengen.
Waarom een Limburgs Corpus?
Moderne technologieën en wetenschappelijk onderzoek op taalgebied zijn afhankelijk van zogenaamde ‘corpora’: grote databases met bronmateriaal zoals boeken, poëzie, internetblogs en gesprekken. Het Limburgs behoort echter tot de slechtst gedocumenteerde Germaanse talen. Dit zorgt ervoor dat de taal nauwelijks toegankelijk is voor onderzoekers, ontwikkelaars, onderwijs en overheden. Het gebrek aan digitale beschikbaarheid leidt tot een vicieuze cirkel waarin de zichtbaarheid, het gebruik en het prestige van het Limburgs verder afnemen.
Ondanks deze uitdagingen is er een groeiende belangstelling voor het Limburgs. Jongeren gebruiken de taal steeds vaker op sociale media, en er bestaan diverse bronnen zoals lokale literatuur, dialectwoordenboeken en theaterscripts. Wat ontbreekt, is een centrale en openbaar toegankelijke opslagplaats voor dit materiaal.
Digitale Infrastructuur in het Hoes veur ’t Limburgs
In een jaar tijd wordt een digitale infrastructuur (digitale middelen en technische systemen om de taal op te slaan, te beheren en toegankelijk te maken) opgezet om een Limburgs Corpus te verzamelen, beheren en aan te vullen. Aan het einde van het project zal een basisversie van het corpus beschikbaar zijn voor verder wetenschappelijk onderzoek en toepassingen in de industrie. Een bewerkte versie van het corpus wordt openbaar beschikbaar gesteld, zodat onderzoekers, studenten en ontwikkelaars met de data aan de slag kunnen. Dit zal een sneeuwbaleffect creëren voor verder onderzoek en het Limburgs positioneren als een ‘bestudeerbare’ taal.
De infrastructuur zal bovendien eenvoudig uitbreidbaar zijn, zodat toekomstige projecten het corpus kunnen aanvullen en verder ontwikkelen. Dit maakt de weg vrij voor het trainen van taalmodellen en andere toepassingen, vergelijkbaar met initiatieven voor andere minderheidstalen.
Hennie Lasker zegt
Mijn naam is Hennie Lasker en woon nu in Appingedam. Op 15 augustus 1945 ben ik in Ysselsteyn in de gemeente Venray in kamp C geboren. Mijn ouders kwamen uit Emmer-Erfscheidenveen in de gemeente Emmen, en zijn daar in juli 1944 getrouwd. Ze gingen op de fiets (12 km)! Op de trouwfoto heeft mijn moeder een mantelpakje aan en een boeket in haar hand. Mijn vader moest voor de tweede wereldoorlog in dienst, maar ging weigeren. Om niet gevangen gezet te worden, ging hij in Limburg bij de boeren langs om werk, en dan kreeg hij wel een slaapplek en een maaltijd. Hij heeft dat zo vaak op verjaardagen verteld, dat ik het nog steeds weet!