Teksten verrijken met tags van TDN

Tags op een muur in Houston Street, New York. Foto: dandeluca via Creative Commons

Vroeger kon je letterlijk uren zoet zijn met het zoeken naar één specifiek woord in één papieren boek, krant of tijdschrift. Tegenwoordig levert één simpele zoekopdracht in digitale bestanden – vaak in minder dan een seconde – tientallen, honderden, ja zelfs duizenden treffers op. De keerzijde daarvan is dat je nu uren zoet bent om te beoordelen of de gevonden resultaten relevant zijn voor je onderzoek. Als je aan woorden in digitale teksten extra (taalkundige) informatie zou verbinden, kun je veel gerichter zoeken. De Tagset voor Diachroon corpusmateriaal van het Nederlands (TDN) die het Instituut voor de Nederlandse Taal (INT) in samenspraak met tal van (historisch) taalkundigen heeft opgesteld in het kader van de CLARIAH-PLUS taak “infrastructuur voor historisch Nederlands”, kan daarbij goede diensten bewijzen. Wat is het nut en het belang van deze tagset voor taal- en literatuurwetenschappers en andere onderzoekers?

Loop

Als je in de Digitale Bibliotheek voor de Nederlandse Letteren (DBNL) zoekt naar loop in ‘Teksten’, dan vind je maar liefst 12684 teksten in je zoekresultaten, verspreid over 4646 pagina’s. Het woord kan een zelfstandig naamwoord zijn in de zin van tijdsduur (“Zij zijn ook in den loop der eeuwen van tijd tot tijd onder het menschdom opgekomen”) of van vlucht (“Maar de mensen gingen op de loop”). Maar het kan ook verwijzen naar het aan het Engels ontleende loop dat zowel ‘looping’ betekent als ‘lus’, een computerterm waarbij een reeks instructies eindeloos wordt herhaald. Daarnaast kom je in de treffers loop ook tegen als werkwoord, bijvoorbeeld als de eerste persoon enkelvoud tegenwoordige tijd (“ik loop geregeld gevaar door ziekte en worstel met de dood”) en als gebiedende wijs (“En loop naar ’t klippig noordt vol dikbevrooze stroomen”).

Verrijken

Om teksten beter doorzoekbaar en daarmee geschikter te maken voor taal- en letterkundig onderzoek kun je die taalkundig verrijken door aan alle daarin voorkomende woorden een lemma en een woordsoort toe te kennen. Bij het lemmatiseren krijgen bijvoorbeeld loopt, liep en gelopen alle hetzelfde lemma lopen. Om deze woordvormen snel en gemakkelijk te vinden kun je daarna volstaan met één zoekopdracht naar het lemma lopen. Daarnaast kun je de onderzoeksmogelijkheden vergroten door alle woorden in een tekst te voorzien van een woordsoortaanduiding en de daarbij behorende kenmerken. Zo kan de woordvorm loop een werkwoord zijn (eerste persoon enkelvoud tegenwoordige tijd of – in vraagzinnen – tweede persoon enkelvoud tegenwoordige tijd, of gebiedende wijs) of een zelfstandig naamwoord. Een voordeel van taggen is dat je woorden met een gelijke lemmavorm toch kunt onderscheiden. Denk aan leven als werkwoord en leven als zelfstandig naamwoord.

Het toekennen van extra taalkundige informatie (woordsoort, kenmerken als getal, geslacht en tijd) heet taggen. Taggen kan zowel handmatig als automatisch plaatsvinden. Door de bank genomen heeft handmatig taggen een grotere mate van nauwkeurigheid dan automatisch taggen, maar op het gebied van snelheid blijven mensen ver achter bij computers. Door eerst automatisch te taggen en vervolgens die tags met de hand te verifiëren wordt het beste van twee werelden gecombineerd. Teksten die op deze wijze getagd zijn, vormen de zogeheten Gouden Standaard; dat zijn dus teksten waarbij de toegekende tags uitermate betrouwbaar zijn. Zij kunnen vervolgens als trainingsmateriaal gebruikt worden om automatische tagging verder te verbeteren.

Tagsets

Op dit moment zijn er verschillende tagsets om tekstcorpora met historisch en hedendaags Nederlands taalkundig te verrijken, zoals de tagset van GiGaNT (Groot Geïntegreerd lexicon van de Nederlandse Taal), de corpustagsets CGN/D-Coi, de tagset Corpus Gysseling, de tagset Corpus Van Reenen-Mulder, de tagset bij het Corpus Oudnederlands, het Nederlab-project, het project voor negatie bij de brieven voor P.C. Hooft en de historische woordenboeken: het Oudnederlands Woordenboek (ONW) 500-1200, het Vroegmiddelnederlands Woordenboek (VMNW) 1200-1300, het Middelnederlandsch Woordenboek (MNW) 1250-1550 en het Woordenboek der Nederlandsche Taal (WNT) 1500-1976. Deze tagsets verschillen in mate van detail (hoeveel kenmerken zijn benoemd), in benoeming (wat in de ene tagset A heet, wordt in een andere B genoemd) en in de wijze van taggen (lexicaal of functioneel, zie hieronder). Dat maakt de verschillende tagsets moeilijk vergelijkbaar.

TDN

Vanuit de wens over een tagset te beschikken die toepasbaar is op álle taalfasen van het Nederlands – van de zesde eeuw tot nu – heeft het Instituut voor de Nederlandse Taal (INT) op basis van de hierboven genoemde tagsets de Tagset voor Diachroon corpusmateriaal van het Nederlands (TDN) vastgesteld. Dit voorstel is voorgelegd aan een groot aantal (historisch) taalkundigen die kritisch hebben meegelezen en waardevol commentaar hebben gegeven.

Lexicaal versus functioneel

Er zijn twee verschillende manieren waarop je een woordsoort kunt toekennen aan een woord: de ene methode heet lexicaal taggen, de andere functioneel taggen. Het verschil daartussen laat zich het beste duidelijk maken aan de hand van een voorbeeld.

In de woordgroep de opgegeten koek kun je zeggen dat opgegeten de hoofdwoordsoort werkwoord heeft. Het is namelijk het voltooid deelwoord van het werkwoord opeten, dat onder de letter o is opgenomen in woordenboeken. Dit noemen we lexicaal taggen. Daarbij wordt ernaar gestreefd om aan vormen die opgevat worden als hetzelfde woord in verschillende contexten dezelfde woordsoort toe te kennen. Dus zowel de infinitief opeten als het bijvoeglijk gebruikte voltooid deelwoord opgegeten uit het voorbeeld krijgen de tag werkwoord.

Het is ook mogelijk om in het voorbeeld de opgegeten koek aan opgegeten de hoofdwoordsoort bijvoeglijk naamwoord te geven. In dat geval tag je functioneel, want opgegeten geeft hier informatie over het zelfstandig naamwoord koek. Daarbij wordt de woordsoort dus op grond van de functie in de zin toegekend. Dit betekent dus dat je dezelfde woordvorm opgegeten in de zin Hij heeft de koek opgegeten als hoofdwoordsoort de tag werkwoord geeft. In TDN is ervoor gekozen functioneel te taggen.

Kerntagset

Als een tagset heel rijk is – aan elke woordsoort wordt dan een groot aantal kenmerken toegevoegd – dan is het niet haalbaar om een grote hoeveelheid taalmateriaal te taggen die als gouden standaard kan dienen. Maak je gebruik van de uitgebreide tagset van TDN dan moet je namelijk bij elk zelfstandig naamwoord het getal, de naamval en het geslacht aangeven: loop krijgt dan de tag NOU-C(number=sg, case=nom, gender=m). Bij werkwoorden zijn er zelfs nog meer kenmerken te benoemen. Als we alle kenmerken toekennen die de tagset mogelijk maakt, wordt de tag van de werkwoordsvorm loop: VRB(finiteness=fin, tense=pres, mood=ind, number=sg, person=1, valency=intr, type=mai, conjugation=strong, verb class=7, inflection=0). Niet voor niets worden alleen in het relatief kleine corpus Oudnederlands al die kenmerken toegekend.

Daarom bevat de Tagset voor Diachroon corpusmateriaal van het Nederlands na de beschrijving van de complete tagset ook een voorstel voor een kerntagset. De daarin vermelde kenmerken zouden we graag in al het (toekomstig) diachroon taalkundig verrijkt corpusmateriaal willen hebben. Bij gebruikmaking van de kerntagset krijgt loop als zelfstandig naamwoord de tag NOU-C(number=sg) en als werkwoord VRB(finiteness=fin, tense=pres). Aanmerkelijk korter dan de tags uit de vorige alinea.

Bij het vaststellen van de kerntagset is er rekening mee gehouden dat het haalbaar moet zijn om binnen een acceptabel tijdsbestek grote hoeveelheden handmatig nagekeken trainings- en evaluatiemateriaal te maken. Ook is erop gelet dat de kerntagset aanknopingspunten bevat voor uitwisseling met andere tagsets (‘mapping’). Een ander criterium was dat de kerntagset die elementen moest bevatten die bruikbaar zijn voor allerhande onderzoek met behulp van diachrone corpora.

Voorproefje

Wat zou het mooi zijn als alle teksten in de DBNL of alle krantenartikelen op Delpher taalkundig verrijkt zouden zijn met deze kerntagset. Zonder moeite kun je dan bijvoorbeeld voor een onderzoek naar de werkwoordsvorm loop alle zelfstandige naamwoorden loop uitsluiten. Voor bepaalde zoekopdrachten hoef je dan niet meer op de loop te gaan. Natuurlijk is daarvoor een substantiële inspanning nodig; voor het automatisch verrijken van lastig historisch materiaal moet ook nog aan het verbeteren van de techniek gewerkt worden. In elk geval kan bij wijze van voorproefje in bijvoorbeeld het Corpus Gysseling alvast met behulp van de kenmerken van de tagset gezocht worden naar het zelfstandig naamwoord loop in het dertiende-eeuws Nederlands.

Teksten verrijken met tags van TDN

Loop

Verrijken

Tagsets

TDN

Lexicaal versus functioneel

Kerntagset

Voorproefje

Vind ik leuk:

Gerelateerd

Inschrijven voor de Dagpost

Loop

Verrijken

Tagsets

TDN

Lexicaal versus functioneel

Kerntagset

Voorproefje

Delen:

Vind ik leuk:

Gerelateerd

Lees Interacties

Laat een reactie achterReactie annuleren

Footer

Inschrijven voor de Dagpost