• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Teksten verrijken met tags van TDN

5 juni 2021 door Roland de Bonth Reageer

Tags op een muur in Houston Street, New York. Foto: dandeluca  via Creative Commons

Vroeger kon je letterlijk uren zoet zijn met het zoeken naar één specifiek woord in één papieren boek, krant of tijdschrift. Tegenwoordig levert één simpele zoekopdracht in digitale bestanden – vaak in minder dan een seconde – tientallen, honderden, ja zelfs duizenden treffers op. De keerzijde daarvan is dat je nu uren zoet bent om te beoordelen of de gevonden resultaten relevant zijn voor je onderzoek. Als je aan woorden in digitale teksten extra (taalkundige) informatie zou verbinden, kun je veel gerichter zoeken. De Tagset voor Diachroon corpusmateriaal van het Nederlands (TDN) die het Instituut voor de Nederlandse Taal (INT) in samenspraak met tal van (historisch) taalkundigen heeft opgesteld in het kader van de CLARIAH-PLUS taak “infrastructuur voor historisch Nederlands”, kan daarbij goede diensten bewijzen. Wat is het nut en het belang van deze tagset voor taal- en literatuurwetenschappers en andere onderzoekers?

Loop

Als je in de Digitale Bibliotheek voor de Nederlandse Letteren (DBNL) zoekt naar loop in ‘Teksten’, dan vind je maar liefst 12684 teksten in je zoekresultaten, verspreid over 4646 pagina’s. Het woord kan een zelfstandig naamwoord zijn in de zin van tijdsduur (“Zij zijn ook in den loop der eeuwen van tijd tot tijd onder het menschdom opgekomen”) of van vlucht (“Maar de mensen gingen op de loop”). Maar het kan ook verwijzen naar het aan het Engels ontleende loop dat zowel ‘looping’ betekent als ‘lus’, een computerterm waarbij een reeks instructies eindeloos wordt herhaald. Daarnaast kom je in de treffers loop ook tegen als werkwoord, bijvoorbeeld als de eerste persoon enkelvoud tegenwoordige tijd (“ik loop geregeld gevaar door ziekte en worstel met de dood”) en als gebiedende wijs (“En loop naar ’t klippig noordt vol dikbevrooze stroomen”).

Verrijken

Om teksten beter doorzoekbaar en daarmee geschikter te maken voor taal- en letterkundig onderzoek kun je die taalkundig verrijken door aan alle daarin voorkomende woorden een lemma en een woordsoort toe te kennen. Bij het lemmatiseren krijgen bijvoorbeeld loopt, liep en gelopen alle hetzelfde lemma lopen. Om deze woordvormen snel en gemakkelijk te vinden kun je daarna volstaan met één zoekopdracht naar het lemma lopen. Daarnaast kun je de onderzoeksmogelijkheden vergroten door alle woorden in een tekst te voorzien van een woordsoortaanduiding en de daarbij behorende kenmerken. Zo kan de woordvorm loop een werkwoord zijn (eerste persoon enkelvoud tegenwoordige tijd of – in vraagzinnen – tweede persoon enkelvoud tegenwoordige tijd, of gebiedende wijs) of een zelfstandig naamwoord. Een voordeel van taggen is dat je woorden met een gelijke lemmavorm toch kunt onderscheiden. Denk aan leven als werkwoord en leven als zelfstandig naamwoord. 

Het toekennen van extra taalkundige informatie (woordsoort, kenmerken als getal, geslacht en tijd) heet taggen. Taggen kan zowel handmatig als automatisch plaatsvinden. Door de bank genomen heeft handmatig taggen een grotere mate van nauwkeurigheid dan automatisch taggen, maar op het gebied van snelheid blijven mensen ver achter bij computers. Door eerst automatisch te taggen en vervolgens die tags met de hand te verifiëren wordt het beste van twee werelden gecombineerd. Teksten die op deze wijze getagd zijn, vormen de zogeheten Gouden Standaard; dat zijn dus teksten waarbij de toegekende tags uitermate betrouwbaar zijn. Zij kunnen vervolgens als trainingsmateriaal gebruikt worden om automatische tagging verder te verbeteren.

Tagsets

Op dit moment zijn er verschillende tagsets om tekstcorpora met historisch en hedendaags Nederlands taalkundig te verrijken, zoals de tagset van GiGaNT (Groot Geïntegreerd lexicon van de Nederlandse Taal), de corpustagsets CGN/D-Coi, de tagset Corpus Gysseling, de tagset Corpus Van Reenen-Mulder, de tagset bij het Corpus Oudnederlands, het Nederlab-project, het project voor negatie bij de brieven voor P.C. Hooft en de historische woordenboeken: het Oudnederlands Woordenboek (ONW) 500-1200, het Vroegmiddelnederlands Woordenboek (VMNW) 1200-1300, het Middelnederlandsch Woordenboek (MNW) 1250-1550 en het Woordenboek der Nederlandsche Taal (WNT) 1500-1976. Deze tagsets verschillen in mate van detail (hoeveel kenmerken zijn benoemd), in benoeming (wat in de ene tagset A heet, wordt in een andere B genoemd) en in de wijze van taggen (lexicaal of functioneel, zie hieronder). Dat maakt de verschillende tagsets moeilijk vergelijkbaar. 

TDN 

Vanuit de wens over een tagset te beschikken die toepasbaar is op álle taalfasen van het Nederlands – van de zesde eeuw tot nu – heeft het Instituut voor de Nederlandse Taal (INT) op basis van de hierboven genoemde tagsets de Tagset voor Diachroon corpusmateriaal van het Nederlands (TDN) vastgesteld. Dit voorstel is voorgelegd aan een groot aantal (historisch) taalkundigen die kritisch hebben meegelezen en waardevol commentaar hebben gegeven.   

Lexicaal versus functioneel

Er zijn twee verschillende manieren waarop je een woordsoort kunt toekennen aan een woord: de ene methode heet lexicaal taggen, de andere functioneel taggen. Het verschil daartussen laat zich het beste duidelijk maken aan de hand van een voorbeeld. 

In de woordgroep de opgegeten koek kun je zeggen dat opgegeten de hoofdwoordsoort werkwoord heeft. Het is namelijk het voltooid deelwoord van het werkwoord opeten, dat onder de letter o is opgenomen in woordenboeken. Dit noemen we lexicaal taggen. Daarbij wordt ernaar gestreefd om aan vormen die opgevat worden als hetzelfde woord in verschillende contexten dezelfde woordsoort toe te kennen. Dus zowel de infinitief opeten als het bijvoeglijk gebruikte voltooid deelwoord opgegeten uit het voorbeeld krijgen de tag werkwoord. 

Het is ook mogelijk om in het voorbeeld de opgegeten koek aan opgegeten de hoofdwoordsoort bijvoeglijk naamwoord te geven. In dat geval tag je functioneel, want opgegeten geeft hier informatie over het zelfstandig naamwoord koek. Daarbij wordt de woordsoort dus op grond van de functie in de zin toegekend. Dit betekent dus dat je dezelfde woordvorm opgegeten in de zin Hij heeft de koek opgegeten als hoofdwoordsoort de tag werkwoord geeft. In TDN is ervoor gekozen functioneel te taggen. 

Kerntagset

Als een tagset heel rijk is – aan elke woordsoort wordt dan een groot aantal kenmerken toegevoegd – dan is het niet haalbaar om een grote hoeveelheid taalmateriaal te taggen die als gouden standaard kan dienen. Maak je gebruik van de uitgebreide tagset van TDN dan moet je namelijk bij elk zelfstandig naamwoord het getal, de naamval en het geslacht aangeven: loop krijgt dan de tag NOU-C(number=sg, case=nom, gender=m). Bij werkwoorden zijn er zelfs nog meer kenmerken te benoemen. Als we alle kenmerken toekennen die de tagset mogelijk maakt, wordt de tag van de werkwoordsvorm loop: VRB(finiteness=fin, tense=pres, mood=ind, number=sg, person=1, valency=intr, type=mai, conjugation=strong, verb class=7, inflection=0). Niet voor niets worden alleen in het relatief kleine corpus Oudnederlands al die kenmerken toegekend.

Daarom bevat de Tagset voor Diachroon corpusmateriaal van het Nederlands na de beschrijving van de complete tagset ook een voorstel voor een kerntagset. De daarin vermelde kenmerken zouden we graag in al het (toekomstig) diachroon taalkundig verrijkt corpusmateriaal willen hebben. Bij gebruikmaking van de kerntagset krijgt loop als zelfstandig naamwoord de tag NOU-C(number=sg) en als werkwoord VRB(finiteness=fin, tense=pres). Aanmerkelijk korter dan de tags uit de vorige alinea.

Bij het vaststellen van de kerntagset is er rekening mee gehouden dat het haalbaar moet zijn om binnen een acceptabel tijdsbestek grote hoeveelheden handmatig nagekeken trainings- en evaluatiemateriaal te maken. Ook is erop gelet dat de kerntagset aanknopingspunten bevat voor uitwisseling met andere tagsets (‘mapping’). Een ander criterium was dat de kerntagset die elementen moest bevatten die bruikbaar zijn voor allerhande onderzoek met behulp van diachrone corpora.

Voorproefje

Wat zou het mooi zijn als alle teksten in de DBNL of alle krantenartikelen op Delpher taalkundig verrijkt zouden zijn met deze kerntagset. Zonder moeite kun je dan bijvoorbeeld voor een onderzoek naar de werkwoordsvorm loop alle zelfstandige naamwoorden loop uitsluiten. Voor bepaalde zoekopdrachten hoef je dan niet meer op de loop te gaan. Natuurlijk is daarvoor een substantiële inspanning nodig; voor het automatisch verrijken van lastig historisch materiaal moet ook nog aan het verbeteren van de techniek gewerkt worden. In elk geval kan bij wijze van voorproefje in bijvoorbeeld het Corpus Gysseling alvast met behulp van de kenmerken van de tagset gezocht worden naar het zelfstandig naamwoord loop in het dertiende-eeuws Nederlands.

Delen:

  • Klik om af te drukken (Wordt in een nieuw venster geopend) Print
  • Klik om dit te e-mailen naar een vriend (Wordt in een nieuw venster geopend) E-mail
  • Klik om te delen op Facebook (Wordt in een nieuw venster geopend) Facebook
  • Klik om te delen op WhatsApp (Wordt in een nieuw venster geopend) WhatsApp
  • Klik om te delen op Telegram (Wordt in een nieuw venster geopend) Telegram
  • Klik om op LinkedIn te delen (Wordt in een nieuw venster geopend) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Nieuws Tags: kerntagset, tags, tagset, TDN

Lees Interacties

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Willem Bilderdijk • De Noordsche taal

U, Zustertaal der echt Germaansche spranken,
Uit eenen wel met de onze voortgevloeid,
U vlieten ook mijn Nederlandsche klanken;
Herbloei ook gy, als onze rank herbloeit!

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Agenda

Online (zomer)cursus Dutch for Reading Knowledge

Online (zomer)cursus Dutch for Reading Knowledge

24 mei 2025

➔ Lees meer
31 oktober 2025: Nedersaksisch symposium

31 oktober 2025: Nedersaksisch symposium

23 mei 2025

➔ Lees meer
26 mei 2025: promotie Viorica Van der Roest

26 mei 2025: promotie Viorica Van der Roest

22 mei 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

sterfdag
1986 Anton Reichling
➔ Neerlandicikalender

Media

Memory, War and Translation

Memory, War and Translation

22 mei 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Van Hogwarts naar Zweinstein

Van Hogwarts naar Zweinstein

20 mei 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Verschenen: Romanreuzen

Verschenen: Romanreuzen

15 mei 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d