Door Riny Huijbregts
Een korte reactie op drie elementen uit de bijdrage van Freek van de Veldes “Hoe vernietigend zijn parasitaire gaten voor de gebruiksgebaseerde taalkunde?”
Kwestie een. Ingesnoerde ambiguïteit. Hoe krijg je uit gebruiksgebaseerd taalonderzoek ooit relevante informatie over ambiguïteiten en speciaal over ingesnoerde ambiguïteit (“constrained ambiguity”)? Zinnen in corpora verschijnen niet met hun betekenis op de mouw gespeld. Neem bijvoorbeeld de zin Jan heeft er daar vaak over gesproken (een variant van een van Freeks voorbeelden). “Daar” kan alleen maar als een locatief bijwoord worden geïnterpreteerd. De vraag Waar heeft Jan er vaak over gesproken kan worden beantwoord met In z’n TIN-praatjes. Niet met Over evolutie van taal. Waarom is dat? Niet echt triviaal want Waar heeft Jan in z’n TIN-praatjes vaak over gesproken? is volkomen acceptabel naast Waar heeft Jan vaak over evolutie van taal gesproken? Tsja, Freek, wat doe je hieraan? Of valt deze vraag buiten je onderzoeksgebied, en is het probleem er eigenlijk niet? Lijkt mij het type vraag waar iedereen die zich professioneel met taal bezig houdt serieus over zou moeten nadenken.
Ik zal je de moeite besparen. Dit probleem is in de zeventiger jaren door Henk van Riemsdijk voor het eerst op de kaart gezet. En hij kon deze asymmetrische eigenschappen afleiden uit een eenvoudig localiteitsprincipe dat ook het stranden van preposities in het Nederlands verklaarde. Maar het gaat mij hier vooral om het type “verklaring” (niet echt onbelangrijk in wetenschap) en niet om de specifieke “token” verklaring (wel onveranderlijk belangrijk). Het is niet goed in te zien hoe je deze ingeperkte ambiguiteit (laat staan een verklaring voor deze beperking) uit een corpus kunt halen. Dit lijkt me overigens allemaal erg basale kost. Als ik het mis heb laat ik me graag overtuigen.
Maar zeg nu niet dat contekst hier zaligmakend is. Dat maakt het probleem alleen nog meer complex, mogelijk zelfs onhandelbaar. Vraag maar aan Google Translate, de experts van nu. Het probleem hier ligt anders dan bv. het geval is in de Groucho Marx grap Time flies like an arrow and fruit flies like a banana. Deze zin kwam in geen enkel corpus voor voordat iemand hem uitsprak. Maar het “garden path” effect werd wel onmiddellijk geapprecieerd (misschien niet door iedereen, een kwestie van performatieve input/output systemen). Hier speelt encyclopedische kennis van de wereld een rol en niet frequentie in een corpus. Corpus is hulpeloos hier. Geheel anders in ons geval. Ook hier is corpus hulpeloos maar op een inverse manier. Geen enkele contekst en geen enkele frequentie in een bestaand corpus zal het effect teweeg brengen dat “er” in Waar heeft Jan er vaak over gesproken? locatief geïnterpreteerd gaat worden. Is dit ook niet iets om wakker van te liggen?
Sterker nog, construeer een omvangrijk corpus Nederlandse teksten maar nu enkel met eenduidig asymmetrische maar “verkeerde” contexten voor de zinnen waar het hier om gaat (bv. Jan praat altijd en alleen maar in z’n stamkroeg. Hij kletst er vaak over buitenaardse ontvoeringen, over complot theorieen en zijn ontmoetingen met Elvis. Waar heeft hij er nog meer over gesproken? Over evolutie van taal maar ik begreep zijn verhaal over Elvis beter). Voer delen van dit corpus in een leerexperiment aan kinderen of volwassenen. En toets dan de Van Riemsdijk zinnen. Bv. Waar heeft hij er nog meer over gesproken? Antwoord: Over evolutie van taal of In de kroeg. Zou de uitkomst omgekeerd zijn aan de “constrained ambiguity” gevallen die de empirische basis vormde van het oorspronkelijk onderzoek? Ik denk dat ik het antwoord al weet….
Kwestie twee. Analogie. Een geschikt voorbeeld van “Saussurean arbitrarines.” Gewoon een klankvorm zonder enige betekenis van zichzelf. Analogie betekent helemaal niets als je niet expliciet maakt hoe dit operationeel werkzaam is bij het oplossen van een puzzle. Van de Velde maakt handgebaren maar legt eerlijk gezegd niets uit. Volgens hem heeft de welgevormde PG-zin Guess which politician your interest in — clearly appeals to —? een “analoge” verklaring (symmetrie: tweemaal een gestrand voorzetsel), die ontbreekt voor de onwelgevormde zin Guess which politician — clearly loves your interest in —? waar we met een subject-object asymmetrie te maken hebben.
Hier zal ik proberen een vorm van “analogie” expliciet te maken en te laten zien hoe die wel werkt. We zullen dit unificatie noemen. Even tussendoor, waarom zouden de oordelen niet omgekeerd kunnen zijn voor deze zinnen? Bijvoorbeeld, symmetrie (twee van hetzelfde) is verkeerd maar een asymmetrie is goed? Hier speelt Van de Veldes analogie dezelfde rol maar in omgekeerde richting. Dit alleen al laat zien dat een conceptuele basis ontbreekt.
Verwijderen we deze complicatie en richten we ons – zonder verlies aan generalisatie – op een PG contrast dat deze bijkomstigheid mijdt.
(1) Here’s someone who everyone who meets PG will immediately like RG
(2) * Here’s someone who RG will immediately like everyone who meets PG
Analogie in “intuitive” zin speelt hier geen enkele rol. In elke zin heb een subject-object asymmetrie maar slechts een van deze zinnen is onwelgevormd. De vraag is, Waarom is er überhaupt een zin onwelgevormd? En waarom zou het niet omgekeerd kunnen zijn dat (2) wel maar (1) niet welgevormd is? Geen onaardige vragen. Zullen statistische analyses van gebruiksgebaseerd taalcorpus onderzoek die ooit kunnen oplossen? Je kunt eenvoudig met een formeel bewijs aantonen dat geen enkele strictly local grammar (een subreguliere automaat die alleen in staat is om bepaalde lineaire volgordes te accepteren) het Nederlands kan genereren. Dat betekent dat zuiver statistische benaderingen die berekeningen uitvoeren over uitsluitend lineaire volgorde restricties (n-grams) altijd tekort zullen schieten. Misschien later meer daarover.
Waar komen dan deze intuities over (1)-(2) vandaan? Zij zijn niet aangeleerd maar lopen wel uniform door de hele Engelse taalpopulatie heen. Statistische overwegingen zijn nooit aangetoond en als ik gelijk heb zullen die ook nooit aangetoond kunnen worden (zie kwestie drie). Hoe dan wel?
Een taallerend kind kan geen PG leren maar hoeft dat ook niet. Hij kent ze al voordat hij ze tegenkomt of uitspreekt. Hij heeft al namelijk al door dat Hij zei dat iedereen mij gezien had nooit kan betekenen “Voor alle personen x geldt: x zei dat x mij gezien had”. Een interpretatie die wel past bij Iedereen zei dat hij mij gezien had. Dit is een bekend resultaat van een bindingsconditie laten we zeggen. Precies hetzelfde principe verklaart de asymmetrie van Wie zei hij dat mij gezien had? vs. Wie zei dat hij mij gezien had? Alleen de eerste zin is onwelgevormd als “hij” gebonden is aan “wie.” Dit volgt uit ditzelfde bindingsprincipe. De asymmetrie van beide laatste zinnen kan dan herleid worden tot die van de eerste twee zinnen. Deze gevallen worden zo verenigd onder een enkele noemer. Je zou kunnen zeggen dat unificatie een meer expliciete en wetenschappelijke inhoud geeft aan wat hier losjes ‘analogie’ genoemd wordt.
Maar unificatie gaat nog verder en lost gratis, meteen, en zonder enige bijkomstigheid het probleem op dat dit deel van de discussie aanwakkerde. De onwelgevormheid van (2) is principieel en volgt uit een schending van precies dezelfde bindingsconditie die werkzaam is in Wie zei hij dat wie mij gezien had? en Hij zegt dat ik iedereen gezien heb. Het kwantor element “iedereen” mag niet gebonden zijn aan een element dat hierarchisch hoger in de structuur zit maar is het wel (gebonden aan “hij”). Dit is ook het geval in de vraagzin: het doorgehaalde “spoor” van “wie” (de positie waar “wie” geinterpreteerd wordt als subject van de ingebedde zin) wordt gebonden aan “hij” en schendt de conditie. Tenslotte sluit hetzelfde principe in ongewijzigde vorm ook de parasitaire gap zin (2) uit. De parasitaire gap in de betrekkelijke bijzin wordt gebonden aan de hogere subjectpositie in de hoofzin, and schendt ipso facto de bindingsconditie.
De conclusie is dat we ons een bijkomstige en vage notie van analogie kunnen besparen en kunnen volstaan met een paar concepten (hier bindingscondities, verplaatsing) die onafhankelijk van PG gemotiveerd zijn. Dit betekent dat het taallerend kind al individuele, geinternaliseerde en intensionele [met een “s” en niet met een “t”] kennis heeft van een constructie die hij nog nooit eerder gehoord heeft. Hij hoeft ze nooit te zijn tegengekomen om toch over perfecte kennis te beschikken. Over analogie en Poverty of Stimulus gesproken…. Een conceptueel argument dat ijzersterk is. Het is zelfs moeilijk voorstelbaar dat er een empirisch argument geformuleerd kan worden dat dit conceptueel argument onderuit haalt. Zie kwestie drie.
Kwestie drie. Poverty of Stimulus. Het grote thema is niet of “Poverty of Stimulus” (PoS) bestaat. Dat is een min of meer een onontkoombaar en universeel gegeven dat inherent is aan biologische systemen. Die hebben een genetiche component die automatisch PoS insluit (in ons geval “Plato’s probleem” toegespitst op taalverwerving). Dit is een belangrijke uitkomst van een zorgvuldige studie van Berwick, R.C. et al. (2011), “Poverty of the stimulus revisited” in Cogn. Sci. 35, 1207-1242.
De grote vraag is, Hoe wordt dit POS probleem opgelost? Dat is voor één geval hierboven besproken. Nu de kwantitatieve empirische ondersteuning.
We geven hier een eenvoudig kwantitatief argument voor PoS dat m.i. volstaat. Het laat zien dat PG constructies niet geleerd kunnen worden in een fysieke werkelijkheid die “time travel” uitsluit. Het argument maakt een aantal assumpties die elk kunnen worden aangevochten (precieze gegevens ontbreken over het algemeen). Je kunt de getallen wat veranderen maar bijstelling versterkt het argument in bijna alle gevallen voor zover ik kan zien en ondergraaft het nergens. In ieder geval wordt zo duidelijker gemaakt waarover we praten.
Laat OP ….. P1 ec1 ….. P2 ec2 ….. een welgevormd PG-type constructie zijn.
OP is de operator waar de twee variabelen – de lege categorieën ec die de functionele objecten van de gestrande voorzetsels P zijn – strikt lokaal aan gebonden zijn.
Empirische assumpties
- het kind/hoorder hoort 5,000 zinnen per dag
- 0.2 % PG-aanwezigheid in het kind/hoorder-gerichte taalaanbod is nodig voor een leersucces
- 4 P1 × 25 P2 × 12 occurrences per (P1 × P2) paar in het NL COW corpus
- gemiddelde zinslengte | s | ≤ 20
- PGs zijn gelijkelijk verdeeld in de data van het corpus (en in het kind-gerichte taalaanbod)
- NL COW corpus (webtexts) met 4.5 miljard woorden (http://corporafromtheweb.org/nlcow14/)
Hieruit leiden we af:
- 4.5 * 109 / 20 = 2.25 * 108 zinnen in het NL COW corpus
- 4 * 25 * 12 = 1200 token-frequentie in 2.25 * 108 zinnen, i.e. 1 per 187,500 zinnen
- 0.002 * 5000 = 10 token-frequentie per dag in het kind-gerichte aanbod, i.e. 1 per 500 zinnen
Er is dus één treffer (“token”) per 187,500 zinnen in het corpus (i.e. 0.00000533) maar wil leren succesvol zijn moet er minstens één keer een PG constructie per 500 zinnen (i.e. 0.002) worden aangeboden aan het taallerend kind. De kloof tussen deze grootheden is een factor 375. We hebben 10 zinnen per dag nodig maar krijgen slechts 1 zin elke 37 dagen aangereikt. De conclusie lijkt onvermijdelijk dat PG-type constructies onleerbaar zijn op grond van data alleen. Kennis van PG moet zijn verworven door middel van interne hulpbronnen anders dan algemene domein-neutrale leerstrategieën gebaseerd op frequency rankings.
Dit lijkt mij een behoorlijk eenduidig kwantitatief argument dat krachtige steun verleent aan het PoS probleem voor taal. De vraag of taal bestaat is daarmee equivalent met de vraag of UG-gebaseerde principes bestaan. Ontken je de laatste, ontken je het bestaan van taal en wordt het helemaal onduidelijk waar gebruiksgebaseerde taalonderzoek over gaat. Dus de vraag, “Hoe vernietigend zijn parasitaire gaten voor de gebruiksgebaseerde taalkunde?” lijkt mij afdoende beantwoord. Behoorlijk!
Als zinnen gemiddeld korter zijn (waarschijnlijk zijn ze dat), of als het kind-gerichte aanbod minder dan 5000 zinnen per dag is (zou zo maar kunnen), of als het aantal zinnen in het corpus hoger is (dat is feitelijk zo, nl. 259.717.960), dan versterkt dit het argument alleen maar. Het aantal gestrande voorzetselparen (#100) is waarschijnlijk een overschatting die ook in ons voordeel werkt. Het gemiddeld aantal treffers van elk paar is een extrapolatie van één geval (Gosse Bouma’s eerste vluchtige onderzoek) maar lijkt niet onzinnig. De 0,2% aanwezigheid van relevant data in het kind-gerichte taalaanbod om leersucces te garanderen lijkt conservatief en is gebaseerd op Yang’s “Universal Grammar, statistics or both?” in TiCS 8 (2004), 451-456, en Legate & Yang’s “Empirical re-assessment of stimulus poverty arguments” in TLR 19 (2002), 151-162.
De studie van taal houdt dus minstens de studie van UG-gebaseerde principes in, heel specifiek de studie van de simpelste computationele procedure, Merge, een recursieve functie die verantwoordelijk is voor de discrete oneindigheid van hierarchisch gestructureerde expressies, elk met een systematische interpretatie aan de sensomotorische en conceptuele interfaces. Dit is een bescheiden conclusie met grote gevolgen voor de leerbaarheid, veranderlijkheid en evolutie van taal. Negeren is mogelijk, ontkennen moeilijk. Dus, Freek. Hoe vernietigend? Behoorlijk!
Freek Van de Velde zegt
Bedankt voor de uitvoerige reactie. Er komt een weerwoord van mij, maar dat is wat langer uitgevallen dan ik eerst gedacht had, dus ik heb er maar een aparte Neder-L blogpost van gemaakt. Verschijnt maandag, vertelt Marc vO me.
Jan Stroop zegt
Moet 't deze kant op met Neder-L?