Kan een computer dialect herkennen?

Kan een computer begrijpen of een zin Drents, Limburgs of Gronings is? Onderzoekers van het Meertens Instituut besloten die vraag serieus te nemen. Met behulp van meer dan duizend Nederlandse dialectromans en een slim getraind taalmodel laten ze zien dat kunstmatige intelligentie verrassend goed is in het herkennen van streektaal. Dat levert niet alleen technische, maar ook culturele inzichten op.

Omslagen van dialectromans geschreven door Bart Veenstra, uit de collectie van het Meertens Instituut

In de bibliotheek van het Meertens Instituut liggen ruim 1100 dialectromans, geschreven in uiteenlopende streektalen en periodes. “We wisten dat er iets bijzonders in die collectie zat,” vertelt Nikki Beyer, die eerst als stagiair aan het project werkte en inmiddels als PhD-student betrokken is. “Al die dialecten, vastgelegd in literaire vorm, daar moest meer uit te halen zijn.” De eerste stap was het digitaliseren van de boeken, een arbeidsintensief proces dat meer dan een jaar duurde. Pas daarna kon het echte onderzoek beginnen: kan een taalmodel onderscheid maken tussen dialect en Standaardnederlands?

Van BERTje naar Meertje

Voor het experiment gebruikten Beyer en haar collega’s een bestaand taalmodel: BERTje, ontwikkeld aan de Rijksuniversiteit Groningen. Met tienduizenden zinnen uit dialectromans werd het model opnieuw getraind. Het kreeg een nieuwe naam: Meertje. Meertje lijkt misschien op generatieve AI-systemen als ChatGPT, maar werkt heel anders. “Het is geen schrijvend model,” benadrukt Beyer. “Meertje analyseert taal. Het leest zinnen en bepaalt of ze dialect bevatten.”

Om dat te leren, labelde Beyer handmatig zo’n dertigduizend zinnen als ‘dialect’ of ‘geen dialect’. Het model werd eerst getest op het Drents, met teksten van één specifieke schrijver, Bart Veenstra. Al snel bleek dat Meertje patronen begon te herkennen die Drents en Standaardnederlands van elkaar onderscheiden. De echte verrassing kwam daarna: het model herkende ook andere Nederlandse dialecten, van Gronings tot Limburgs, met een nauwkeurigheid van zo’n 95 procent. “Dat was echt een droomuitslag,” zegt Beyer.

Nikki Beyer, eerst als stagiaire en nu as promovendus verbonden aan het project Dialectromans bij het Meertens Instituut

Meer dan spelling alleen

Wat Meertje precies oppikt, gaat verder dan opvallende spelling. Een eenvoudige zin als ‘wat zult dat’ werd door het model direct als dialect herkend. Dat komt doordat het ook let op structuur, ritme en grammaticale patronen. Klinkercombinaties die in het Standaardnederlands zeldzaam zijn, maar in het Drents veel voorkomen, spelen een rol. Net als subtiele verschillen in werkwoordsvormen, naamwoordverbuigingen en zinsvolgorde. Opvallend is dat Meertje leert hoe dialecten afwijken van het Standaardnederlands en die kennis vervolgens kan toepassen op andere streektalen.

Dialect als sociaal signaal

Het onderzoek leverde ook literaire inzichten op. In veel romans spreken hoofdpersonen dialect, terwijl artsen, bestuurders en andere autoriteitsfiguren juist Standaardnederlands gebruiken. “Zelfs bij schrijvers die zelf dialect spreken, zie je dat taalgebruik sociaal geladen is,” vertelt Beyer. Dialect fungeert zo als een marker van nabijheid, identiteit en soms ook ondergeschiktheid, terwijl standaardtaal afstand en gezag kan uitstralen. Het taalmodel maakt die patronen zichtbaar op grote schaal.

Dialect laat zien waar je vandaan komt

Beyer studeerde eerst literatuurwetenschappen en later taalkunde. In dit project komen die werelden samen. “Het zit precies op het snijvlak van waar ik van houd,” zegt ze. “Computationele methoden gebruiken om iets menselijks en cultureels te begrijpen.” Dat menselijke aspect is actueler dan ooit. Dialecten verdwijnen deels uit het dagelijks gebruik, maar keren ook terug. “In Limburg en Friesland zie je dat jongeren juist trots hun streektaal gebruiken,” zegt Beyer. “Dialect is niet ouderwets. Het laat juist zien waar je vandaan komt.” Dialectromans zijn om die reden van speciaal belang, omdat identiteit en cultuur in literaire vorm (kunst) worden uitgedrukt.

Grootschalig digitaal dialectcorpus

De volgende stap in het onderzoek is begrijpen waarom Meertje een zin als dialect herkent. Welke kenmerken wegen het zwaarst? Klanken, grammatica, woordvolgorde? Die zoektocht moet meer inzicht geven in de taalkundige structuur van dialecten zelf.

Daarnaast werken de onderzoekers aan een grootschalig digitaal dialectcorpus. Na het opschonen van digitaliseringsfouten worden teksten verrijkt met metadata over plaats, periode en taalgebruik. Door die te koppelen aan dialectwoordenboeken en andere databanken, kunnen onderzoekers straks beter vergelijken hoe geschreven dialect zich verhoudt tot gesproken taal.

Kan een computer dialect herkennen?

Van BERTje naar Meertje

Meer dan spelling alleen

Dialect als sociaal signaal

Dialect laat zien waar je vandaan komt

Grootschalig digitaal dialectcorpus

Vind ik leuk:

Gerelateerd

Inschrijven voor de Dagpost

Van BERTje naar Meertje

Meer dan spelling alleen

Dialect als sociaal signaal

Dialect laat zien waar je vandaan komt

Grootschalig digitaal dialectcorpus

Delen:

Vind ik leuk:

Gerelateerd

Lees Interacties

Laat een reactie achterReactie annuleren

Footer

Inschrijven voor de Dagpost