Wat moet je bestuderen als je Nederlands bestudeert? Wat zijn de data precies? Hoort het werk van Jacob van Lennep, een zeer populaire schrijver uit de negentiende eeuw, er bijvoorbeeld bij? Die vragen hebben me sinds gisteren in hun greep
Dat computers alles veranderen in de taalkunde, daaraan zullen mensen twijfelen. Neem de studie van de zinsbouw. Twintig jaar geleden moesten taalkundigen noodgedwongen eigenlijk wel zelf de zinnen construeren die ze bestudeerden: waarom is Jan ziet zich niet goed (moet zijn: Jan ziet zichzelf) en Jan schiet zich in de voet wel? Het vak van syntacticus vereiste een zekere creativiteit in het bedenken van dat soort voorbeelden; Peter-Arno Coppen schreef er onlangs nog een miniatuurtje over.
Nu kun je met wat handigheid en een internetverbinding zo honderden, duizenden, tienduizenden voorbeeldzinnen opslorpen. Je kunt er statistische analyses op uitvoeren (“Jan ziet zich komt wel voor, maar significant minder dan Jan ziet zichzelf“). Je kunt op ideeën komen waar je anders nooit op gekomen bent.
Daar moet je natuurlijk enthousiast over zijn: het opent prachtige nieuwe mogelijkheden. Maar om nu te zeggen dat we nu ineens beschikken over ‘echte data’, alsof die eerder data allemaal onzin waren, dat gaat toch wel ver.
Het klinkt misschien wel aannemelijk: die eerdere data waren immers ‘verzonnen’. Maar ze waren natuurlijk niet zomaar verzonnen, ze waren geconstrueerd door moedertaalsprekers – net als de zinnen uit het corpus en trouwens alle zinnen die ooit zijn uitgesproken. Alle taal is immers op een bepaalde manier ‘verzonnen’.
Die ‘verzonnen’ data hadden allerlei beperkingen, maar ze hadden ook een voordeel dat de taalkundige met een fijne neus en zinnen kan construeren die voor iedere lezer meteen grammaticaal of ongrammaticaal aanvoelen maar die je met geen mogelijkheid in het corpus kan vinden. Is dat effect dan minder reëel? (Je zou wel kunnen vragen dat iemand echt test of andere mensen die zinnen ook zo acceptabel vinden.)
De kwestie komt aan de orde in een proefschrift dat Jozefien Sweep volgende maand aan de Universiteit van Amsterdam gaat verdedigen. Dat proefschrift gaat over een interessante kwestie: werkwoorden die verschillende soorten lijdend voorwerp kunnen hebben:
1.- Ik smeerde pindakaas op mijn brood.
2.- Ik smeerde mijn brood (met pindakaas).
Aan dat soort zinnen is in het verleden veel aandacht besteed, bijvoorbeeld door Teun Hoekstra (1953-1998; zie bijvoorbeeld dit boek). Ik vind het jammer dat Sweep, die in haar inleiding nogal hamert op het gebruik van ‘echte data’, het niet nodig vindt om Hoekstra zelfs maar te noemen, ik heb naar aanleiding van haar proefschrift zijn artikelen over dit onderwerp nog eens gelezen en ze zijn helder als kristal en ook wat betreft de gegevens uitermate zorgvuldig, ook al kon Hoekstra dan niet met een computer in grote stapels kranten zoeken.
Nu ja, sic transit gloria mundi. Sweep brengt aan de andere kant zelf uit haar gegevensbestanden wel allerlei andere interessante feiten naar boven. Ik hoop dat ze er nog eens toe komt om die feiten ook te toetsen aan ideeën zoals die van Hoekstra.
Maar toch, wat is eigenlijk ‘het Nederlands’? In hoeverre kun je nu zeggen dat de bestanden van Sweep het ‘echte Nederlands’ representeren? De promovenda beweert bijvoorbeeld nogal stellig (p. 198) dat ruimen niet net zoiets is als smeren: naast zin 3 kun je niet zin 4 hebben:
3. – Ik ruimde de rommel van de tafel.
4.- Ik ruimde de tafel.
De verklaring hiervan is volgens Sweep dat 4 dubbelzinnig is, hij zou ook kunnen betekenen dat de tafel zelf wordt opgeborgen. (Je kunt wel zeggen Ik ruimde de stoep naast Ik ruimde sneeuw van de stoep omdat zich in dat geval de verwarring niet voordoet.)
Nu is het helemaal niet moeilijk om voorbeelden te vinden van de constructie die volgens Sweep op basis van haar ‘echte data’ onmogelijk zijn, zelfs bij gerespecteerde schrijvers zoals Jacob van Lennep (in zijn veelgelezen roman De lotgevallen van Ferdinand Huyck):
Of zij uitgepraat had, weet ik niet; althands zij had de tafel geruimd en verliet mij, met de belofte van in een ommezientje met het eten terug te wezen.
Het lijkt me uit de context duidelijk dat hier niet bedoeld wordt dat de tafel opgeborgen was; hij was afgeruimd. (Er wordt bijvoorbeeld niet gemeld dat voor het eten de tafel weer tevoorschijn moest worden gehaald.)
Wat moet je daar nu van zeggen? Je kunt toch niet beweren dat dit geen echt Nederlands is. Het probleem is natuurlijk dat iedere verzameling zinnen die je maakt eindig is en er altijd zaken buitenvallen. Kun je dan wel zeggen dat jouw verzameling data ‘echt’ is waar het om taalzaken gaat?
Laat een reactie achter