We weten niet wat we met al die gegevens aanmoeten
We beschikken over een schat aan informatie, een gigantische schat, een dankzij het internet almaar groter wordende schat. En we hebben geen idee wat we in hemelsnaam met die schat moeten doen. Dat is de indruk die je krijgt van het boek Uncharted. Big Data as a Lens on Human Culture van Erez Aiden en Jean-Baptiste Michel.
Niet dat het hun bedoeling is om die suggestie te wekken. Althans, ze willen wel graag dat de lezer overtuigd raakt van die schat. Zij zijn de ontwerpers van Ngram, waarmee je in de tientallen miljoenen boeken kunt zoeken die Google in de afgelopen tien jaar heeft gescand. Maar dat ze eigenlijk ook zelf geen idee hebben van wat wij, de mensheid, nu eigenlijk met die schat aanmoeten – dat zeggen ze niet zo expliciet.
Terwijl het uit hun eigen boek vrij gemakkelijk te bewijzen is.
Begin 2011 publiceerden Aiden en Michel met enkele anderen een artikel in Science over hetzelfde onderwerp, met enkele voorbeelden wat je allemaal zou kunnen onderzoeken. In Uncharted zijn sommige van die onderwerpen wat meer uitgewerkt, een boek biedt nu eenmaal wat meer ruimte. Maar er is niets bijgekomen, geen enkel nieuw onderzoeksidee, geen enkele bevinding boven de bestaande, wat flauwe lijst.
De nieuwe Einstein
En dat terwijl die voorbeelden zelf nu niet echt wereldschokkend zijn. In de tijd dat Hitler aan de macht was, werd er in Duitsland weinig over de Joodse schilder Marc Chagall gepubliceerd. In geen enkel jaar in de geschiedenis van de mensheid werd er zoveel geschreven over het jaar 1950 als in 1950. Het aantal onregelmatige werkwoorden in het Engels neemt in de loop van de geschiedenis gestaag af, waarbij de frequentste werkwoorden het langst blijven bestaan.
Het wordt allemaal gestaafd met fraaie grafieken, en het is opgeschreven in een stijl die groots enthousiasme suggereert over de nieuwe mogelijkheden . Maar dat het je nu het idee geeft dat er een nieuw tijdperk is aangebroken, een tijdperk waarin de geesteswetenschappen eindelijk serieus kunnen worden, zich eindelijk kunnen meten met de natuurwetenschappen, is zoiets als denken dat de nieuwe Einstein is opgestaan omdat je driejarige peuter de eerste letter van zijn naam kan schrijven. Ja, dat is knap.
Dezelfde woorden
Aiden en Michel geven over de minder triviale feiten bovendien eigenlijk steeds toe dat we geen idee hebben hoe we een en ander moeten interpreteren.
Neem bijvoorbeeld de Wet van Zipf. Ze vertellen smeuig het verhaal over hoe de literatuurwetenschapper George Kingsley Zipf iets merkwaardigs ontdekte over de verdeling van woorden over teksten. Wanneer je die woorden ordent op frequentie (het meest voorkomende woord bovenaan, het woord dat slechts eenmaal voorkomt onderaan) doet zich het volgende voor: de frequentie van een woord is omgekeerd evenredig aan hoeveel andere woorden er zijn met diezelfde frequentie. Wanneer het frequentste woord 10.000 keer voorkomt, dan staan daar 10.000 woorden tegenover die maar een keer voorkomen, 5.000 die twee keer voorkomen, enz.
De consequentie hiervan is dat er enorm veel woorden zijn die maar heel weinig voorkomen, terwijl tegelijkertijd de gemiddelde tekst grotendeels bestaat uit steeds weer dezelfde woorden.
Handomdraai
Zipfs inderdaad opmerkelijke bevinding is later vaak bevestigd, voor allerlei talen en allerlei genres. Maar het is in de eerste plaats wel een bevinding van lang voor Google Books, één die gebaseerd is op handmatig tellen, en één die vooral raadselachtig is. Waarom werken talen zo? Wat moeten al die zeldzame woorden? Waarom bestaat een taal niet uit, zeg, zesduizend woorden die allemaal ongeveer even vaak voorkomen, in plaats van uit honderdduizenden die je grotendeels zelden of nooit hoort?
Dát lijkt me een interessante vraag, maar Aiden en Michel geven niet het begin van een antwoord, sterker nog, niet het begin van een aanwijzing dat die vraag beantwoord gaat worden. In plaats daarvan zijn ze laaiend enthousiast over het feit dat je Zipfs telwerk nu in een handomdraai kunt overdoen, terwijl het hem maanden werk moet hebben gekost.
Fijngeslepen lenzen
Het lijkt mij duidelijk dat er écht een schat aan gegevens ligt te wachten in Google Books en op het internet. Of, om een andere beeldspraak te gebruiken die Aiden en Michel ook aanhalen: dat de mogelijkheid om te zoeken als een telescoop kan zijn voor sommige geesteswetenschappelijke vragen. Het probleem is alleen dat niemand een idee lijkt te hebben hoe we met die telescoop om moeten gaan, wat die vlekjes eigenlijk geacht worden te betekenen die we aan het firmament zien als we door al die dure fijngeslepen lenzen turen.
Er is meer nodig dan alleen maar tellen om big data belangrijk te maken. Maar wat? Aiden en Michel zijn er in ieder geval in de afgelopen drie jaar niet achtergekomen. Misschien hadden ze beter kunnen wachten met dit boek toevoegen aan de gigantische lijst tot ze wel iets konden laten zien.
Wildplasser zegt
Zipf heeft het turfwerk niet zelf gedaan maar het familiekapitaal verbrast door turvers in dienst te nemen.
Samuel Morse deed hetzelfde op alfabetnivo door zelf *een* krantenpagina te turven (de E en de T zijn de meest-voorkomende letters en vergen slechts een punt of een streep in het Morse-alfabet), maar hij wist natuurlijk al hoe groot het alfabet was. Zipf wist niet tevoren hoe groot de totale aantal woorden zou gaan worden.