Door Marten van der Meulen
Ik vertel met liefde niet alleen over de keuzes die ik maak binnen mijn onderzoek: over temporele afbakening bijvoorbeeld, maar ook over de dagelijkse praktijk van mijn wetenschappelijke bedrijf (bijvoorbeeld over data maken). Vandaag iets over data schoonmaken.
Mijn promotieonderzoek gaat over de relaties tussen taaladvies en taalgebruik. De eerste poot, taaladvies, heb ik voorlopig afgerond: ik heb een grote verzameling aangelegd van taaladviezen gedurende de twintigste eeuw, en daarover gepresenteerd (publicaties zijn onderweg). Nu ben ik sinds een tijdje bezig met het in kaart brengen van taalgebruik zelf. Zo kan ik advies en gebruik vergelijken. Maar bij het verzamelen van dat taalgebruik loop ik tegen een aantal problemen op. Hoe kom je aan een corpus bijvoorbeeld. Dat is ingewikkelder dan je zou denken (maar daarover een andere keer meer). Nu eerst iets over het schoonmaken van data.
Vieze data
Stel, je hebt een verzameling tekst. Je wil daarin (ik roep maar wat) kijken hoe de verhouding is tussen wil en wilt bij tweede persoon enkelvoud. Bekend is namelijk dat zowel je wil voorkomt als je wilt. Allereerst moet je dan een zoekopdracht (query in het Engels, ik ben gek op dat woord, het klinkt zo koddig) formuleren waarmee je in principe alle relevante gevallen te pakken krijgt. In het geval van wil/wilt kun je natuurlijk alleen op die woorden zoeken. Dan krijg je echter ook alle eerste (ik wil) en derde persoon (hij wil) vormen. Bovendien krijg je ook het zelfstandig naamwoord wil (De wil om verder te werken ontbreekt me). Dat wil je (hoera) allemaal niet. Wel wil je gevallen vinden met waar bijvoorbeeld het werkwoord vóór het persoonlijk voornaamwoord staat (wil je), en ook zijn jij en u natuurlijk boeiend.
De juiste zin
Afhankelijk van het corpus dat je gebruikt krijg je op basis van bovenstaande query een set zinnen. Voor de corpora in Nederlab moet je je dan nog door een heleboel zinnen heenwerken die niet goed zijn gedigitaliseerd. Heel frustrerend en tijdrovend, maar ja, schoonmaken van deze data is door een betrokkene “onmogelijk” genoemd en “niet onze prioriteit”. Bovendien “kunnen ook bij vieze data wel onderzoeksvragen gesteld worden.” Ook in de toekomst zullen onderzoekers dus blijven zitten met data als onderstaande:
1928: voldoende ingelicht men weet het . En hier hebben wij een o . ommisSe . ïn vo ” £ & trng tot wie verschillende mensehen , die met de wet te maken hebben , om inlichtingen vragen , en
1947: “gebleken . I k krijg nl. vele verzoeken , die Handelingen dar Staten-GteneBaaL . – . 1 & 46—1947 . — L 44ste VEBGADEEING . — 8 MEI 1947 . eigenlijk op iets anders dan”
1947: “< ” ” ‘ DElFr ; ö .. UNK wr UNK UNK ROTTERDAM / ‘ ‘ f / s / i ‘ » * v w- ” W ” ” ” M i « ia g « • » m—p m « 2 $ Jt * V « V é & * Z * V <* 4 * 2B M * V 2 & * . SQ t J / i Ar / tfus / ltJ UNK óer tóWWRBBlÖKSV ‘ V — ‘”
1958: “het eigenlijk geen woorden van Plato zijn . De geachte afgevaardigde kent dat citaat natuurlijk : „ & iïog fisv Zcoxgarrj ? , aXXa ( piXxeqa r ) dArjêeia ” , hetgeen te vinden is”
Goed, gelukkig zijn er ook corpora die wel schoon zijn, zoals het Corpus Gesproken Nederlands. Daaruit kun je dan op een gegeven moment op basis van je query een set zinnen krijgen die in principe leesbaar is. Dan is het nog zaak om er zeker van te zijn dat die zinnen ook echt kloppen. Hoe specifiek je zoekopdracht ook is, het blijft mogelijk dat er gevallen in zitten die eigenlijk niet aan je opdracht voldoen. Wat betreft wil/wilt kom je bijvoorbeeld dit tegen:
je kan je kunt willen je wil je wilt . zullen jij (praatje over vervoeging)
dat ik uh dat ik je wil … oké . ik zou (wil slaat terug op ik)
klopt . ja of wil je wil je d’r wel heen ? (in principe goed, maar komt zowel als resultaat bij wil je als bij je wil, dus dubbele weggooien)
Van Gent . mevrouw Bussemaker wil u ook nog een vraag stellen (wil slaat terug op mevrouw Bussemaker en is dus derde persoon)
Heel erg goed met programmeren ben ik niet, maar ik denk toch wel te kunnen weten dat het lastig is om dit soort gevallen eruit te halen. Het is moeilijk formaliseren namelijk. Je zou kunnen denken: als ik voor je wil staat, dan slaat wil altijd terug op ik. Maar dat is niet per se zo. Je kunt ook de zin hebben: “Toen zei ik je wil toch niet zeggen dat je een hond bent?” Zelfs als je iets zou kunnen formaliseren, dan gaat het volgens mij om vrij veel condities met weinig resultaten. De vraag is dus of je niet langer bezig bent met condities bedenken dan met handmatig opschonen.
Stravinsky
Dat is wat ik nu aan het doen ben: handmatig opschonen tot ik een ons weeg. De komende maanden zal ik daar nog wel mee bezig blijven. Zo is het nou eenmaal: je zult geen wetenschapper vinden die niet toch nog eentonig handwerk moet doen. In publicaties blijft dat vaak heel impliciet, maar er zitten echt uren van betrekkelijk saaie arbeid achter. Helemaal niet erg, maar wel goed om te weten. Het heeft bovendien wel twee voordelen: ik leer mijn data heel intiem kennen, en ik kom weer eens toe aan het herluisteren van klassieke muziek. De symfonieën van Brahms heb ik gehad, vandaag en morgen staat het verzameld orkestwerk van Stravinsky op het programma. Dat is dan tenminste iets.
Alex Reuneker zegt
Je bent niet alleen, Marten. Ik spoor nu patronen op in het CGN en het SoNaR en zelfs met reguliere expressies moet ik nog een hoop handmatig werk verrichten. Je leert daardoor inderdaad goed de data kennen, patronen herkennen en je komt geweldige voorbeelden tegen. Zo zag ik laatst het voegwoord ‘mits’ op een plek staan waar dat m.i. helemaal niet kon. Bleek het, na inspectie van de context, te gaan om een poes die ‘Mitsie’ — ‘Mits’ voor intimi — heet. Ook leuk zijn de expliciete verwijzingen naar het corpus zelf; mensen die zeggen zich in te houden omdat ‘dit op band komt.’ (En je leert koken: zoek maar eens op imperatieven en de recepten vliegen je om de oren.)
msvandermeulen zegt
Ha Alex, goed om te horen 🙂 Ik vind het ook heel leuk om namen te spotten, ik weet dat een aantal collega’s (die inmiddels soms hoge posities her en der hebben) eraan hebben meegewerkt. Recepten ben ik nog niet tegengekomen, daar zal ik naar uitkijken!