Onverwachte vragen in de wetenschapsagenda (12)
Kun je talen met elkaar vergelijken? En nog belangrijker kun je ze dan op een ranglijst plaatsen? Het is in ieder geval iets dat mensen graag doen. Ze vragen dan: is het Nederlands een moeilijke taal? Wat is de mooiste taal die u kent? En raken danig sip wanneer je ze het enig juiste antwoord geeft: dat hangt er maar vanaf.
Het Nederlands is een uiterst moeilijke en lelijke taal voor een niet zo snuggere Chinees die geen enkel nut ziet in het leren van die taal, en heel makkelijk en schoon voor een taalgevoelige Duitse jongeling die verliefd is op een eentalig meisje uit Arnhem. Wie er gelijk heeft valt bij de huidige stand van de wetenschap niet uit te maken.
In de hoorn des interrogatieven overvloeds die de wetenschapsagenda is, vinden we dan weer een heel andere vraag over de ordening der talen:
- Bestaat er zoiets als de meest efficiënte taal en zo ja welke?Ik heb het vermoeden dat de ene taal zich beter leent om je uit te drukken dan andere. Helaas spreek ik niet voldoende talen om dit te toetsen.
Jaap Dronkers zegt
Sommige talen zijn op sommige aspecten wel handiger: het chinees is handiger voor rekenen in een 10-talig stelsel dan het Frans (quatre-vingt-dix). Het is een van de mogelijke verklaringen waarom Chinese 2-taligen (engels/chinees) in het chinees een groter getal kunnen onthouden dan in het engels. Zie verder dit blog Dronkers, J. & M. de Heus. The higher educational achievement of Chinese pupils, inside and outside of Asia: the higher transparency of Chinese numbers or a higher value of learning within Chinese culture? http://apps.eui.eu/Personal/Dronkers/English/Heus3.pdf
mark zegt
Bob Dixon heeft net een boek geschreven dat over deze vraag gaat: Are some languages better than others?.
Hans Broekhuis zegt
De vraag is van een ander type dan de vraag wie de langste mens is. Efficiëntie van een object kan alleen bepaald worden als je weet waarvoor het gebruikt wordt: een schroevendraaier is niet erg bruikbaar voor het inslaan van spijkers en hamers zijn niet erg efficiënt voor het indraaien van schroeven.
Hetzelfde geldt voor biologisch ontwikkelde instrumenten. Mussen en Pinguïns hebben beide vleugels, maar de vraag welke van die vleugels het meest efficiënt zijn, kan alleen beantwoord worden als je weet of het gaat om vliegen of zwemmen. En een vergelijking tussen de poten van een wolf en de vleugels van een pinguïn lijkt ook niet zinvol omdat hun prooien zich in een andere omgeving bevinden: een hond doorgaans op het land en een pinguïn in het water. Ze zijn beiden optimaal aangepast aan hun omgeving.
Voordat we bijvoorbeeld kunnen bepalen of een taal met lidwoorden efficiënter is dan een taal zonder lidwoorden, moeten we eerst zien uit te vinden wat de functie van lidwoorden is. Vervolgens zullen we een groot aantal talen zonder lidwoorden moeten onderzoeken om uit te vinden of er alternatieve middelen zijn om dezelfde functie te vervullen en tenslotte moeten we een maatstaf ontwikkelen om de verschillende middelen te vergelijken.
Er zijn al allerlei theorieën over de functie van lidwoorden en we weten ook dat bijvoorbeeld naamval een deel van deze functie kan overnemen. In principe kan Marcs methode (vraag het tweetalige sprekers) dus wel gebruikt worden om te bepalen of bijvoorbeeld het onderscheid bepaald/onbepaald beter met lidwoorden dan met naamval uitgedrukt kan worden. Miljarden zijn voor een dergelijk onderzoek waarschijnlijk niet nodig (wel wenselijk natuurlijk), ook niet als dat om duizenden eigenschappen zou gaan.
Het grote probleem zit hem vooral, denk ik, in de wijze waarop de te onderzoeken verschillen vervolgens in de taalsystemen als geheel ingebed zitten. Zo zijn walvissen geoptimaliseerd voor het leven in het water maar volledig ongeschikt voor het leven op land. Maar hoe weeg je het voordeel tegen het nadeel? Leidt dat niet tot willekeur?
Weia Reinboud zegt
Onbeantwoordbare vragen kunnen wel heel leuk zijn. Eén van de aspecten van efficiëntie is zuinigheid. Is een taal die iets níet heeft en dus zuiniger is qua middelen, is die efficiënter of mist die echt iets? Zoals de lidwoorden waar Hans Broekhuis het over heeft. In het Russisch moet je er een heel aspect van het werkwoord bijleren, maar ik heb niet het gevoel iets te missen in het Nederlands. Idem met de omgang met de verleden tijden, Nederlands is daar wat makkelijker in dan bijvoorbeeld Italiaans en Engels, en stiekem denk ik dan dat zíj iets missen.
Lucas Seuren zegt
Het probleem is dan dus dat taal legio functies heeft op microniveau en ik denk dat je hooguit zult vinden dat er een taal is die gemiddeld het best scoort op al die functies. Dan kun je je afvragen, is het de meest efficiënte taal (ik zou zeggen nee, ook om redenen die je aandraagt). Maar een nog veel groter probleem is dat we helemaal niet weten wat alle functies zijn die taal heeft en potentieel kan hebben; dat is geen vraag, het is een mysterie.
Je kunt natuurlijk op macroniveau gaan kijken en een zeer beperkt aantal functies toekennen aan taal. Maar ik denk niet dat je ooit tot iets wat lijkt op consensus zult komen over wat die functies dan zouden zijn.
De vraag lijkt me dus onbeantwoordbaar.
(Overigens wil ik hier nog wel weer Stephen Fry aanhalen; zou het Duits beter zijn voor Hitlerachtige retorica dan het Engels? Kortom, als je dictator wilt worden, is het Duits dan een efficiëntere taal?)
Taalprof zegt
En dan heb je ook nog eens de afweging tussen mogelijkheden en de inspanning om die allemaal te verwerven. Het kan heel efficiënt zijn om voor elk detail een apart element in je taal te hebben, maar dat moet je dan ook maar weer allemaal leren en dat is dan weer minder efficiënt.
Mee eens dus: in zijn algemeenheid onbeantwoordbaar, op onderdelen (dus in relatie tot een functie), en met de nodige beperkingen en slagen om de arm wellicht meetbaar. Ik zou zeggen: niet efficiënt te beantwoorden.
Taalprof zegt
Even off topic: ik vind in de titel van dit stukje iets geks aan de samentrekking 'en zo ja welke?' Ik heb sterk de neiging om daarvan te maken 'en zo ja welke is dat dan?' Ook in andere gevallen heb ik dat: 'Bestaat er een echte leider en zo ja wie ??(is dat dan)?' Bestaan er mensen die dat ook hebben en zo ja wie?
Lucas Seuren zegt
Ik ben het voor dit specifieke voorbeeld met je eens (al vind ik hem niet bizar: gewoon merkwaardig) maar je leider-voorbeeld vind ik volstrekt normaal. Ook zinnen als "Ga je naar de film en zo ja, welke/hoe laat/wanneer?" heb ik geen enkele moeite mee. Mogelijk een pragmatisch effect bij de titel van dit artikel?
Marc van Oostendorp zegt
Ja, ik vind het ook een beetje raar. (De titels van deze stukjes zijn een kwestie van de vraag knippen en plakken uit de Wetenschapsagenda, ik zou het zelf geloof ik niet snel zo formuleren. Ook ik zou de neiging hebben het aan te vullen, op de manier die jij geeft. Vreemd.
Marc van Oostendorp zegt
Beste Hans, Je zegt dat er geen miljarden mogelijk zijn, maar dat is omdat je ervan uitgaat dat alleen de eerste deelvraag ('bestaat er zoiets als een efficiëntste taal') beantwoord moet worden. Het is natuurlijk met name de tweede vraag ('welke is dat') die heel duur gaat worden, want daarvoor moet je toch echt iedere taal in detail gaan onderzoeken.
Hans zegt
@Marc. Je bedoelt natuurlijk 'nodig' ipv 'mogelijk". Ik ben het met Lucas eens dat je ook graag op microniveau zou willen kijken. En we zijn het ook met elkaar eens dat we met een vraag zitten die in het beste geval een grote verzameling van antwoorden oplevert: eigenschap A is het meest efficiënt voor X; eigenschap B voor Y, eigenschap C voor Z, etc. Dit sluit aan bij de mening van Taalprof dat de vraag in zijn algemeenheid niet echt te beantwoorden is, maar alleen op onderdelen. En daar zijn er vele van. Dergelijk onderzoek levert ongetwijfeld wel veel bruikbare kennis op, dus als iemand nog een paar miljard beschikbaar heeft, zal de taalkundige gemeenschap die in dank aanvaarden en nuttig besteden. En wellicht levert dat uiteindelijk dan toch een soort antwoord op.
Gosse Bouma zegt
Language modelling is de tak van sport die probeert modellen op te stellen die het volgende woord in een zin voorspellen. Als je spraakherkenning doet, is dit van belang om op basis van een onzeker akoestisch signaal een zo goed mogelijke voorspelling te doen.
Voor een taal die erg redundant is, kun je een goed model opstellen. Een taal die helemaal niet redundant is, dus erg efficient, laat zich veel moeilijker in een model vangen.
De maat voor de kwaliteit van een model is perplexity. Dus de taal met de hoogste perplexity score is het meest efficienkt.
Nu nog even zoeken in de fonetische literatuur naar betrouwbare vergelijkingen. (scores hangen natuurlijk erg af van de gebruikte technieken en de aard van het corpus)
Hans zegt
Bijzonder interessant, maar is efficiëntie hetzelfde als niet-redundant? Misschien geldt dat voor de productie, maar geldt dat ook voor de perceptie? Oeps, ik verval in dezelfde fout als jij: geldt dat zowel voor het verstaan als voor het begrijpen van taal. Probeer je reactie te schrijven in een taal die normale mensen ook verstaan en leg me even uit wat 'perplexity' is want daar raak ik je kwijt. Dit is geen kritiek, hoor, want ik verval zelf binnen de kortste keren in dezelfde fout als jij, zoals Jan Stroop mij (en een aantal anderen) onlangs verweet.
maar wil je ook in normale mensentaal uitleggen hoe dit samenhangt met de discussie; ik ken je werk goed genoeg om te weten dat je dat kan.
Hans zegt
Ik moet echt nog leren om te gaan met dit soort van primitieve tekstverwerkers waarin publiceren publiceren is: ik doe mijn best mezelf te verbeteren. Dit is een reactie op Gosse (gebruik van verkeerde knop) en het laatste fragment is een restant van een eerdere versie waarin ik Gosse een verwijt maak over iets waar ik mezelf maar al te vaak schuldig aan maak: het gebruik van onbegrijpelijke vaktaal, Negeer dat dus maar.
Lucas Seuren zegt
Kwam toevallig dit voorbeeld tegen in een paper: "If you were to compile a list of the most significant books or articles to appear recently in his field, would any of the candidate's publications be on your list? Which ones? Why?"
Geen "and if so", maar het lijkt me hetzelfde principe. (tevens, Engels heeft "if so" and niet "if yes", ook wel interessant in deze kwestie).
Gosse Bouma zegt
Mijn stelling dat je efficientie kunt reduceren tot language modelling was natuurlijk ook provocerend bedoeld, maar ook niet helemaal onzinnig dacht ik. Ik las de taalkundige overwegingen van de overige reacties, of de zoektocht naar perfecte tweetaligen, en ik dacht zo gaan we natuurlijk nooit een ranking krijgen.
Voor perpexity, zie wikipedia. Het is domweg een maat die aangeeft heo goed je model de data (het corpus) modeleert. Wordt meestal gebruikt om verschillende modellen over hetzelfde corpus te evalueren, maar je kunt het natuurlijk ook gebruiken om met htetzelfde model verschillende corpora (talen) te vergelijken.
Practisch probleem is dan nog wel dat corpora ook nooit echt identiek zijn, maar je zou bv europarl proceedings in verschillende europese talen met elkaar kunnen vergelijken 😉
Hans zegt
Bedankt voor je uitleg. Maar is mijn oorspronkelijke vraag nu beantwoord? Quote: Is efficiëntie hetzelfde als niet-redundant? Misschien geldt dat voor de productie, maar geldt dat ook voor de perceptie?
Lucas Seuren zegt
Kan het een zonder het ander? Productie wordt gedaan met oog op perceptie, en de meest efficiënte productie is dan dus de productie die leidt tot de meest efficiënte perceptie.