We gaan een tijdperk tegemoet van ontspecialisatie: het wordt steeds minder nodig dat een wetenschapper gedetailleerde kennis nodig heeft over een eigen ‘vakgebied’, zoals deeltjesfysica of de Nederlandse letterkunde van de negentiende eeuw. De opleiding voor die twee vakken zal steeds meer op elkaar gaan lijken tot er misschien ooit alleen nog maar ‘wetenschappers’ zijn.
Dat komt dan doordat alle wetenschappers hun onderzoeksmateriaal steeds meer als ‘big data’ gaat zien: grote verzamelingen gegevens waarin je door slim te programmeren en geavanceerde statistiek te bedrijven vanzelf patronen in ontdekt. Voor de computer zijn alle data uiteindelijk nullen en enen: het maakt daarbij niet uit of het observatiegegevens van een satelliet betreft, of een corpus van romans en gedichten. De hele wereld bestaat uit nullen en enen – vandaar dat het weinig zin heeft je nog te specialiseren.
Dat is de conclusie die je kunt trekken uit twee blogposts die ik deze week toevallig tegelijkertijd tegenkwam op het internet en die de situatie van verschillende kanten beschrijven: positief en kritisch, vanuit de astrofysica en de taalkunde.
De astrofysicus, een zekere Jake Vanderplas, is wat makkelijker te lezen. Vanderplas vraagt zich in de kop van zijn stuk weliswaar af ‘why science is in trouble’, maar zijn antwoord daarop is: omdat de universiteiten het nog niet doorhebben, en ijzerenheinig veel te gespecialiseerd bezig blijven, zodat briljante jonge onderzoekers massaal door bedrijven (als Google) worden weggekocht. Die bedrijven zien het namelijk wel. Over de ontwikkeling zelf is Vanderplas positief (mijn vertaling):
Wat we kunnen verwachten is een situatie waarin domeinspecifieke kennis meer en meer wordt vervangen door ‘naakte’ data-miningvaardigheden. Ik zou willen zeggen dat deze voorspelling al uit begint te komen: in heel veel academische gebieden, vervangt de vaardigheid om effectief data te verwerken andere, klassiekere, vormen van onderzoek.
De andere blogpost is van een jonge Amerikaanse wiskundig taalkundige. Misschien omdat hij juist wel in domeinspecifieke kennis gelooft is zijn blogpost misschien wat minder makkelijk te lezen voor de niet-specialist. Hij beweert het omgekeerde van wat Vanderplas zegt: ook de universiteiten hebben juist meer en meer voorkeur voor taalkundigen die ’taalkunde met getallen’ ‘ doen, en dus in grote databestanden gaan kijken om te zien of er een relatie is tussen iemands geboortejaar en hoe vaak die persoon ik zegt. Zulke mensen krijgen, volgens Graf, in Amerika inmiddels makkelijker een baan dat deskundigen van (bijvoorbeeld) het soort werk dat hem interesseert: de wiskundige analyse van grammaticale theorieën, waarvoor specialistische kennis van die theorieën nodig is. (Overigens heeft hij zelf kennelijk wel net een baan gevonden.)
De reden daarvoor is, volgens Graf: taalkunde met getallen is makkelijker uit te leggen. De onderzoeker heeft een enorme hoeveelheid gegevens bestudeerd en kan dus nu met aan zekerheid grenzende waarschijnlijkheid vaststellen dat mensen die in een jaar van de geit geboren zijn vaker het woord ik gebruiken. Mensen die het soort werk doen dat Graf interesseert, zijn daarentegen jarenlang bezig en krijgen er hooguit ooit een abstract resultaat uit – dit is het soort rekenkracht dat de menselijke geest kennelijk moet hebben om met taal te kunnen omgaan. Ze krijgen dat nauwelijks gepubliceerd, ze kunnen er niet met collega’s over praten.
Geen van de twee schrijvers voorspelt overigens op korte termijn een radicaal verdwijnen van alle spcialistische kennis, zelfs Vanderbilt niet (‘de 15 terabyte aan ruwe beelddata die er iedere nacht wordt geproduceerd door de Large Synoptic Survey Telescope heeft ons weinig over kosmologie te vertellen buiten het theoretisch inzicht in de fysische processen die de expansie van het universum veroorzaken’).
Toch roepen de twee stukken samen de vraag op waar het stopt. Samen laten ze zien wat de attracties zijn van de big data-benadering: het is relatief makkelijk te begrijpen, in ieder geval voor andere big data-onderzoekers, ook al werken die in heel andere gebieden. Omdat computers nooit zo krachtig waren als nu, kun je er betrekkelijk makkelijk nieuwe ontdekkingen mee doen. Er zijn allerlei industriële toepassingen voor.
De ontspecialisatie komt als een vloed over ons heen gespoeld. Het is belangrijk om na te denken welke delen van de specialistische zandkastelen die we in de loop der tijd hebben gebouwd bewaard moeten blijven en welke we moeten prijsgeven aan de golven.
Bert Cappelle zegt
Ik herinner me een congres in 2009 over 'Rethinking synonymy', waar ik enkele sprekers de hun toebemeten tijd in de gaten moest helpen houden en wat moest modereren bij de vragen achteraf. Welnu, die vragen gingen allemaal over de procedures die de sprekers hadden gebruikt. Welke knopjes hadden ze wel of niet ingedrukt toen ze hun big data door de grote rekenmolen haalden, wilden de statistisch onderlegde luisteraars weten. Tot het me te veel werd en ik het publiek vroeg of er toevallig ook nog iemand een taalkundige vraag wou stellen.
Antal van den Bosch zegt
Waar jij ontspecialisatie ziet, zie ik prachtige specialisaties binnen de empirische methoden tot bloei komen. Het gaat alleen om een ander type specialisatie. Schaar het desnoods allemaal onder 'patronen zoeken in data', maar het is net zo goed structuur zoeken in taal. It's linguistics, Jim, but not as we know it.
Marc van Oostendorp zegt
Ik breng hier eigenlijk alleen maar verslag uit van wat die twee auteurs zeggen, hè, Antal. En de teneur is in ieder van de twee gevallen dat domeinspecifieke kennis verdwijnt. Nu weet ik eigenlijk niet zo goed wat je bedoelt met 'specialisaties binnen de empirische methoden'; ik vind de term 'empirische methoden' op zich al verwarrend, want ook onderzoek dat niet op big data gericht is, is natuurlijk in de meeste gevallen empirisch. Zelfs het onderzoek van Graf is dat, zij het op enkele tientallen stappen verwijderd van het corpus; uiteindelijk streven ook hij en zijn collega's naar verifieerbare uitspraken.
Maar enfin, als ik ervan uitga dat je bedoelt dat er specialisaties ontstaan binnen het big-data-onderzoek, wil ik dat graag geloven. Maar wat bedoel je daarmee? Je laatste opmerking lijkt te suggereren dat er wel degelijk domeinspecifieke kennis aan het ontstaan is. Kun je daar een voorbeeld van geven? Dat kan het voor mij in ieder geval verhelderen.
Antal van den Bosch zegt
Met empirische methoden bedoel ik inderdaad niet alleen big-data-methoden. Ik geef Graf niet ongelijk over zijn observaties, trouwens. Mijn boodschap was: dingen veranderen, er zijn new kids on the block, die aan knoppen draaien van een rekenmolen. Maar als je je verdiept in wat ze doen, dan zie je daarin hele interessante variaties.
Ik heb het over bijvoorbeeld
– computationele stylometrie [inzicht: gebruik van functiewoorden en letter-n-grammen zijn verrassend sterke voorspellers van individuele schrijfstijl];
– latente en gedistribueerde modellen van lexicale semantiek [inzicht: we kunnen modellen afleiden waarmee je letterlijk rekensommen kunt maken als movie + producer + film = Steven Spielberg, zoals Folgert Karsdorp gisteren Facebookte];
– geheugengebaseerde modellen [inzicht: veel taaluitingen kunnen worden voorspeld uit een puur exemplaar-gebaseerd model, waarbij het model de data is, en analoog redeneren het simpele mechaniek];
– statistische frase-gebaseerde vertaalmodellen [inzicht: parallelle meerwoordsfrasen die gevonden worden in een statistisch vertaalmodel incorporeren syntax en semantiek op een hele originele manier].
Dit zijn geen eendagsvlieg-resultaten, maar gewone, echte hypothesen die iets wezenlijks te zeggen hebben over taal.
Marc van Oostendorp zegt
Ik ben het ermee eens dat dit echte gegevens zijn die iets zeggen over taal. Ik denk (hoop) dat jij het er omgekeerd niet mee oneens zou zijn dat we een en ander moeten integreren met inzichten die je uit anderssoortige data kunt verkrijgen. Zoals het werk van Graf, of psycholinguïstische experimenten, of de inzichten die in regelgebaseerde modellen worden uitgedrukt. Hoe dat allemaal geïntegreerd moet worden is nog een enorme puzzel.
Ik vind het overigens moeilijk in te schatten in hoeverre dit alles nu 'specialisatie' inhoudt – de toets lijkt mij: hoe moeilijk is het voor iemand uit een andere tak van big data, laten we zeggen Jake V. om dit werk te gaan doen?
Antal van den Bosch zegt
Marc, natuurlijk moeten we verschillende inzichten integreren. En dat gebeurt ook. Sla maar eens een proceedings van de ACL open. Graf is daar veel te negatief over; hij lijkt te denken dat de 'data'-papers en statistische methoden een soort trucje gebruiken. Dat is denigrerend en onjuist. Verdiep je er eens in, zou ik hem zeggen. Misschien steek je er wat van op, maar pas op, het is best pittige kost.
Je andere vraag: Als je een steekproef van, zeg, 100 personen neemt die de laatste 20 jaar in Nederland en Vlaanderen empirische methoden hebben toegepast op taal, dan had denk ik 1/4 van die mensen een taalkundige of anderszins alfa-achtergrond, 1/2 een gemixte achtergrond (bv. een opleiding 'taal en informatica' ;-)), en 1/4 een achtergrond als informaticus. Natuurlijk hebben informatici in zo'n context wat bij te leren over taalkunde, net als andersom, maar in de praktijk komen de succesverhalen uit alle drie de groepen, met wat aardige accentverschillen (je achtergrond draag je toch altijd mee).
Wildplasser zegt
Domeinkennis verdwijnt niet. Het grootste gedeelte van de tijd van computerjongens(m/v) wordt besteed aan het bevragen van de "expert": de man (m/v) met de domeinkennis, en het vormen van een model van dat domein. En bij astrofysica of microbiologie is dat niet anders dan bij taalkunde of psychologie.
Voor wiskunde en statistiek geldt iets soortgelijks, artsen en biologen hebben het vak "wel gehad", maar hebben voor "echte" toepassingen toch
altijd hulp nodig. Zeker als ze gaan publiceren.
En het is nog erger: wiskundigen kunnen niet programmeren. Althans niet allemaal. De meesten hebben voldoende vaardigheid om programmaatjes in SPSS, SAS of R in te tikken, en de resultaten te begrijpen en te verifieren.
En het is nog erger: computermensen kunnen geen wiskunde en geen taalkunde. Nou ja: net genoeg om met die disciplines te praten en samen te werken.
Dat er een verschuiving optreedt, dat is duidelijk. Maar ik geloof niet dat de hele bestaande wetenschappelijke praktijk overgenomen zal worden door het analyseren van big data. Innovatie komt nog steeds uit een reageerbuis. Niet uit een glasbak
Anoniem zegt
Off topic: het Engels schemert nogal door de vertaalde passage heen. Dit klinkt denk ik natuurlijker:
"Wat we kunnen verwachten is een situatie waarin domeinspecifieke kennis meer en meer het veld moet ruimen voor 'simpele' data-miningvaardigheden. Volgens mij begint deze voorspelling al uit te komen: in allerlei academische gebieden verdringt de vaardigheid om effectief data te verwerken andere, klassiekere, vormen van onderzoek."