DIRT-corpus: informeel gesproken Nederlands uit reality-tv

Het DIRT-corpus (Dutch in Reality TV) bevat transcripties van populaire realityreeksen zoals De Mol, Chateau Meiland en Temptation Island. Omdat in deze programma’s niet geacteerd wordt, vormen ze een waardevolle bron voor taalkundig onderzoek naar spontaan gesproken informeel Nederlands. Een pilootversie van het corpus is bijvoorbeeld met succes gebruikt om te onderzoeken of mannen en vrouwen verschillen in hun gebruik van de hesitation markers uh en uhm en of jongere sprekers anders vloeken dan oudere sprekers.

Het corpus is een initiatief van Ulrike Vogl en Gauthier Delaby (Afdeling Nederlands, UGent). Het is een corpus-in-opbouw, dat regelmatig wordt aangevuld met nieuw getranscribeerd materiaal. Sinds juli 2024 versterkt Lien Hellebaut het team als medewerker aan het DIRT-project. Het corpus wordt verrijkt met metadata zoals herkomst, gender, opleiding en leeftijd van sprekers. Er is materiaal beschikbaar uit zowel België als Nederland, uit oudere en recente realityreeksen.

Sinds 30 oktober 2025 is DIRT versie 1.0 vrij downloadbaar via Zenodo, samen met de DIRT-concordancer, een tool voor het doorzoeken van het corpus. De huidige versie bevat 350.965 woorden.

Meer informatie is te vinden op de projectwebsite van DIRT UGent.