• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Handmatig data opschonen tot ik een ons weeg

31 juli 2018 door Redactie Neerlandistiek 2 Reacties

Door Marten van der Meulen

Ik vertel met liefde niet alleen over de keuzes die ik maak binnen mijn onderzoek: over temporele afbakening bijvoorbeeld, maar ook over de dagelijkse praktijk van mijn wetenschappelijke bedrijf (bijvoorbeeld over data maken). Vandaag iets over data schoonmaken.

Mijn promotieonderzoek gaat over de relaties tussen taaladvies en taalgebruik. De eerste poot, taaladvies, heb ik voorlopig afgerond: ik heb een grote verzameling aangelegd van taaladviezen gedurende de twintigste eeuw, en daarover gepresenteerd (publicaties zijn onderweg). Nu ben ik sinds een tijdje bezig met het in kaart brengen van taalgebruik zelf. Zo kan ik advies en gebruik vergelijken. Maar bij het verzamelen van dat taalgebruik loop ik tegen een aantal problemen op. Hoe kom je aan een corpus bijvoorbeeld. Dat is ingewikkelder dan je zou denken (maar daarover een andere keer meer). Nu eerst iets over het schoonmaken van data.

Vieze data

Stel, je hebt een verzameling tekst. Je wil daarin (ik roep maar wat) kijken hoe de verhouding is tussen wil en wilt bij tweede persoon enkelvoud. Bekend is namelijk dat zowel je wil voorkomt als je wilt. Allereerst moet je dan een zoekopdracht (query in het Engels, ik ben gek op dat woord, het klinkt zo koddig) formuleren waarmee je in principe alle relevante gevallen te pakken krijgt. In het geval van wil/wilt kun je natuurlijk alleen op die woorden zoeken. Dan krijg je echter ook alle eerste (ik wil) en derde persoon (hij wil) vormen. Bovendien krijg je ook het zelfstandig naamwoord wil (De wil om verder te werken ontbreekt me). Dat wil je (hoera) allemaal niet. Wel wil je gevallen vinden met waar bijvoorbeeld het werkwoord vóór het persoonlijk voornaamwoord staat (wil je), en ook zijn jij en u natuurlijk boeiend.

De juiste zin

Afhankelijk van het corpus dat je gebruikt krijg je op basis van bovenstaande query een set zinnen. Voor de corpora in Nederlab moet je je dan nog door een heleboel zinnen heenwerken die niet goed zijn gedigitaliseerd. Heel frustrerend en tijdrovend, maar ja, schoonmaken van deze data is door een betrokkene “onmogelijk” genoemd en “niet onze prioriteit”. Bovendien “kunnen ook bij vieze data wel onderzoeksvragen gesteld worden.” Ook in de toekomst zullen onderzoekers dus blijven zitten met data als onderstaande:

1928: voldoende ingelicht men weet het . En hier hebben wij een o . ommisSe . ïn vo ” £ & trng tot wie verschillende mensehen , die met de wet te maken hebben , om inlichtingen vragen , en

1947: “gebleken . I k krijg nl. vele verzoeken , die Handelingen dar Staten-GteneBaaL . – . 1 & 46—1947 . — L 44ste VEBGADEEING . — 8 MEI 1947 . eigenlijk op iets anders dan”

1947: “< ” ” ‘ DElFr ; ö .. UNK wr UNK UNK ROTTERDAM / ‘ ‘ f / s / i ‘ » * v w- ” W ” ” ” M i « ia g « • » m—p m « 2 $ Jt * V « V é & * Z * V <* 4 * 2B M * V 2 & * . SQ t J / i Ar / tfus / ltJ UNK óer tóWWRBBlÖKSV ‘ V — ‘”

1958: “het eigenlijk geen woorden van Plato zijn . De geachte afgevaardigde kent dat citaat natuurlijk : „ & iïog fisv Zcoxgarrj ? , aXXa ( piXxeqa r ) dArjêeia ” , hetgeen te vinden is”

Goed, gelukkig zijn er ook corpora die wel schoon zijn, zoals het Corpus Gesproken Nederlands. Daaruit kun je dan op een gegeven moment op basis van je query een set zinnen krijgen die in principe leesbaar is. Dan is het nog zaak om er zeker van te zijn dat die zinnen ook echt kloppen. Hoe specifiek je zoekopdracht ook is, het blijft mogelijk dat er gevallen in zitten die eigenlijk niet aan je opdracht voldoen. Wat betreft wil/wilt kom je bijvoorbeeld dit tegen:

je kan je kunt willen je wil je wilt . zullen jij (praatje over vervoeging)

dat ik uh dat ik je wil … oké . ik zou (wil slaat terug op ik)

klopt . ja of wil je wil je d’r wel heen ? (in principe goed, maar komt zowel als resultaat bij wil je als bij je wil, dus dubbele weggooien)

Van Gent . mevrouw Bussemaker wil u ook nog een vraag stellen (wil slaat terug op mevrouw Bussemaker en is dus derde persoon)

Heel erg goed met programmeren ben ik niet, maar ik denk toch wel te kunnen weten dat het lastig is om dit soort gevallen eruit te halen. Het is moeilijk formaliseren namelijk. Je zou kunnen denken: als ik voor je wil staat, dan slaat wil altijd terug op ik. Maar dat is niet per se zo. Je kunt ook de zin hebben: “Toen zei ik je wil toch niet zeggen dat je een hond bent?” Zelfs als je iets zou kunnen formaliseren, dan gaat het volgens mij om vrij veel condities met weinig resultaten. De vraag is dus of je niet langer bezig bent met condities bedenken dan met handmatig opschonen.

Stravinsky

Dat is wat ik nu aan het doen ben: handmatig opschonen tot ik een ons weeg. De komende maanden zal ik daar nog wel mee bezig blijven. Zo is het nou eenmaal: je zult geen wetenschapper vinden die niet toch nog eentonig handwerk moet doen. In publicaties blijft dat vaak heel impliciet, maar er zitten echt uren van betrekkelijk saaie arbeid achter. Helemaal niet erg, maar wel goed om te weten. Het heeft bovendien wel twee voordelen: ik leer mijn data heel intiem kennen, en ik kom weer eens toe aan het herluisteren van klassieke muziek. De symfonieën van Brahms heb ik gehad, vandaag en morgen staat het verzameld orkestwerk van Stravinsky op het programma. Dat is dan tenminste iets.

Delen:

  • Klik om af te drukken (Wordt in een nieuw venster geopend) Print
  • Klik om dit te e-mailen naar een vriend (Wordt in een nieuw venster geopend) E-mail
  • Klik om te delen op Facebook (Wordt in een nieuw venster geopend) Facebook
  • Klik om te delen op WhatsApp (Wordt in een nieuw venster geopend) WhatsApp
  • Klik om te delen op Telegram (Wordt in een nieuw venster geopend) Telegram
  • Klik om op LinkedIn te delen (Wordt in een nieuw venster geopend) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: big data, corpusonderzoek, methodologie

Lees Interacties

Reacties

  1. Alex Reuneker zegt

    1 augustus 2018 om 14:11

    Je bent niet alleen, Marten. Ik spoor nu patronen op in het CGN en het SoNaR en zelfs met reguliere expressies moet ik nog een hoop handmatig werk verrichten. Je leert daardoor inderdaad goed de data kennen, patronen herkennen en je komt geweldige voorbeelden tegen. Zo zag ik laatst het voegwoord ‘mits’ op een plek staan waar dat m.i. helemaal niet kon. Bleek het, na inspectie van de context, te gaan om een poes die ‘Mitsie’ — ‘Mits’ voor intimi — heet. Ook leuk zijn de expliciete verwijzingen naar het corpus zelf; mensen die zeggen zich in te houden omdat ‘dit op band komt.’ (En je leert koken: zoek maar eens op imperatieven en de recepten vliegen je om de oren.)

    Beantwoorden
    • msvandermeulen zegt

      2 augustus 2018 om 08:20

      Ha Alex, goed om te horen 🙂 Ik vind het ook heel leuk om namen te spotten, ik weet dat een aantal collega’s (die inmiddels soms hoge posities her en der hebben) eraan hebben meegewerkt. Recepten ben ik nog niet tegengekomen, daar zal ik naar uitkijken!

      Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

E. du Perron • Reisverhaal

De ander, die dikwijls sprak over de dood,
roemde de natuur, doorzocht alle hoeken,
en ademde diep; de een las in boeken
gedachten van derden, zijn dagelijks brood.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

Als in de verte de zee zich verliefd toont,
heldere golven steeds nemen elkaar,
denk ik vol spijt aan het plein waar mijn lief woont:
zeeheldenbuurt waar geen viking meer vaart.

Bron: datering: 1948-1955; postuum gepubliceerd, in Tijdrovertje, 1992

➔ Bekijk hier alle citaten

Agenda

25 mei & 21 juni 2025: Leidse Zang voor Kerk en Kroeg

25 mei & 21 juni 2025: Leidse Zang voor Kerk en Kroeg

21 mei 2025

➔ Lees meer
21 juni 2025: J.H. Leopold-lezing

21 juni 2025: J.H. Leopold-lezing

19 mei 2025

➔ Lees meer
20 juni 2025: Lezingenmiddag Indische Letteren

20 juni 2025: Lezingenmiddag Indische Letteren

19 mei 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1920 Sonja Witstein
sterfdag
1997 Herman de Coninck
➔ Neerlandicikalender

Media

Van Hogwarts naar Zweinstein

Van Hogwarts naar Zweinstein

20 mei 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Verschenen: Romanreuzen

Verschenen: Romanreuzen

15 mei 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
25. alkalommal rendezték meg a Magyarországi Néderlandisztika Napját

25. alkalommal rendezték meg a Magyarországi Néderlandisztika Napját

15 mei 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
%d