• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Hitler hield niet van joodse kunstenaars

6 april 2014 door Marc van Oostendorp 1 Reactie

We weten niet wat we met al die gegevens aanmoeten

Door Marc van Oostendorp

We beschikken over een schat aan informatie, een gigantische schat, een dankzij het internet almaar groter wordende schat. En we hebben geen idee wat we in hemelsnaam met die schat moeten doen. Dat is de indruk die je krijgt van het boek Uncharted. Big Data as a Lens on Human Culture van Erez Aiden en Jean-Baptiste Michel.

Niet dat het hun bedoeling is om die suggestie te wekken. Althans, ze willen wel graag dat de lezer overtuigd raakt van die schat. Zij zijn de ontwerpers van Ngram, waarmee je in de tientallen miljoenen boeken kunt zoeken die Google in de afgelopen tien jaar heeft gescand. Maar dat ze eigenlijk ook zelf geen idee hebben van wat wij, de mensheid, nu eigenlijk met die schat aanmoeten – dat zeggen ze niet zo expliciet.

Terwijl het uit hun eigen boek vrij gemakkelijk te bewijzen is.

Begin 2011 publiceerden Aiden en Michel met enkele anderen een artikel in Science over hetzelfde onderwerp, met enkele voorbeelden wat je allemaal zou kunnen onderzoeken. In Uncharted zijn sommige van die onderwerpen wat meer uitgewerkt, een boek biedt nu eenmaal wat meer ruimte. Maar er is niets bijgekomen, geen enkel nieuw onderzoeksidee, geen enkele bevinding boven de bestaande, wat flauwe lijst.

De nieuwe Einstein

En dat terwijl die voorbeelden zelf nu niet echt wereldschokkend zijn. In de tijd dat Hitler aan de macht was, werd er in Duitsland weinig over de Joodse schilder Marc Chagall gepubliceerd. In geen enkel jaar in de geschiedenis van de mensheid werd er zoveel geschreven over het jaar 1950 als in 1950. Het aantal onregelmatige werkwoorden in het Engels neemt in de loop van de geschiedenis gestaag af, waarbij de frequentste werkwoorden het langst blijven bestaan.

Het wordt allemaal gestaafd met fraaie grafieken, en het is opgeschreven in een stijl die groots enthousiasme suggereert over de nieuwe mogelijkheden . Maar dat het je nu het idee geeft dat er een nieuw tijdperk is aangebroken, een tijdperk waarin de geesteswetenschappen eindelijk serieus kunnen worden, zich eindelijk kunnen meten met de natuurwetenschappen, is zoiets als denken dat de nieuwe Einstein is opgestaan omdat je driejarige peuter de eerste letter van zijn naam kan schrijven. Ja, dat is knap.

Dezelfde woorden

Aiden en Michel geven over de minder triviale feiten bovendien eigenlijk steeds toe dat we geen idee hebben hoe we een en ander moeten interpreteren.

Neem bijvoorbeeld de Wet van Zipf. Ze vertellen smeuig het verhaal over hoe de literatuurwetenschapper George Kingsley Zipf iets merkwaardigs ontdekte over de verdeling van woorden over teksten. Wanneer je die woorden ordent op frequentie (het meest voorkomende woord bovenaan, het woord dat slechts eenmaal voorkomt onderaan) doet zich het volgende voor: de frequentie van een woord is omgekeerd evenredig aan hoeveel andere woorden er zijn met diezelfde frequentie. Wanneer het frequentste woord 10.000 keer voorkomt, dan staan daar 10.000 woorden tegenover die maar een keer voorkomen, 5.000 die twee keer voorkomen, enz.

De consequentie hiervan is dat er enorm veel woorden zijn die maar heel weinig voorkomen, terwijl tegelijkertijd de gemiddelde tekst grotendeels bestaat uit steeds weer dezelfde woorden.

Handomdraai

Zipfs inderdaad opmerkelijke bevinding is later vaak bevestigd, voor allerlei talen en allerlei genres. Maar het is in de eerste plaats wel een bevinding van lang voor Google Books, één die gebaseerd is op handmatig tellen, en één die vooral raadselachtig is. Waarom werken talen zo? Wat moeten al die zeldzame woorden? Waarom bestaat een taal niet uit, zeg, zesduizend woorden die allemaal ongeveer even vaak voorkomen, in plaats van uit honderdduizenden die je grotendeels zelden of nooit hoort?

Dát lijkt me een interessante vraag, maar Aiden en Michel geven niet het begin van een antwoord, sterker nog, niet het begin van een aanwijzing dat die vraag beantwoord gaat worden. In plaats daarvan zijn ze laaiend enthousiast over het feit dat je Zipfs telwerk nu in een handomdraai kunt overdoen, terwijl het hem maanden werk moet hebben gekost.

Fijngeslepen lenzen

Het lijkt mij duidelijk dat er écht een schat aan gegevens ligt te wachten in Google Books en op het internet. Of, om een andere beeldspraak te gebruiken die Aiden en Michel ook aanhalen: dat de mogelijkheid om te zoeken als een telescoop kan zijn voor sommige geesteswetenschappelijke vragen. Het probleem is alleen dat niemand een idee lijkt te hebben hoe we met die telescoop om moeten gaan, wat die vlekjes eigenlijk geacht worden te betekenen die we aan het firmament zien als we door al die dure fijngeslepen lenzen turen.

Er is meer nodig dan alleen maar tellen om big data belangrijk te maken. Maar wat? Aiden en Michel zijn er in ieder geval in de afgelopen drie jaar niet achtergekomen. Misschien hadden ze beter kunnen wachten met dit boek toevoegen aan de gigantische lijst tot ze wel iets konden laten zien.

Erez Aiden en Jean-Baptiste Michel. Uncharted. Big Data as a Lens on Human Culture. Riverhead Books, 2013.

 

Delen:

  • Klik om af te drukken (Wordt in een nieuw venster geopend) Print
  • Klik om dit te e-mailen naar een vriend (Wordt in een nieuw venster geopend) E-mail
  • Klik om te delen op Facebook (Wordt in een nieuw venster geopend) Facebook
  • Klik om te delen op WhatsApp (Wordt in een nieuw venster geopend) WhatsApp
  • Klik om te delen op Telegram (Wordt in een nieuw venster geopend) Telegram
  • Klik om op LinkedIn te delen (Wordt in een nieuw venster geopend) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: digitalisering, e-humanities, frequentie, Wet van Zipf

Lees Interacties

Reacties

  1. Wildplasser zegt

    6 april 2014 om 16:52

    Zipf heeft het turfwerk niet zelf gedaan maar het familiekapitaal verbrast door turvers in dienst te nemen.

    Samuel Morse deed hetzelfde op alfabetnivo door zelf *een* krantenpagina te turven (de E en de T zijn de meest-voorkomende letters en vergen slechts een punt of een streep in het Morse-alfabet), maar hij wist natuurlijk al hoe groot het alfabet was. Zipf wist niet tevoren hoe groot de totale aantal woorden zou gaan worden.

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

W.L. Penning • Het monster

Doller dan ooit is ’t monster losgebroken,
En menschen worden wilde beesten;
Helsch viert het kwaad zijn gloriefeesten –
Tot de overmacht heeft rechtgesproken

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

HONDSDAGEN

Niet groen rijpt het gras dit jaar,
bomen dragen hun bladeren wit,
het licht is niet uit het veld
te slaan, de dag reikt aan
de dag, in dromen zoeken
de nachten onderdak.

Bron: Uit de hoge boom geschreven, 1967

➔ Bekijk hier alle citaten

Agenda

7 oktober 2025: een cadeautje voor secties Nederlands

7 oktober 2025: een cadeautje voor secties Nederlands

18 juli 2025

➔ Lees meer
19 september 2025: Afscheidscollege Fred Weerman

19 september 2025: Afscheidscollege Fred Weerman

15 juli 2025

➔ Lees meer
1 juli – 15 september 2025: Over de grenzen van het boek

1 juli – 15 september 2025: Over de grenzen van het boek

11 juli 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1949 Jeroen Groenendijk
sterfdag
1963 Jan Naarding
2008 Rein Bloem
➔ Neerlandicikalender

Media

The form of the adjective in Dutch

The form of the adjective in Dutch

20 juli 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
De Literaire Letterenshow met Mustafa Stitou en Auke Hulst

De Literaire Letterenshow met Mustafa Stitou en Auke Hulst

19 juli 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Inclusive Dutch: Between Norm and Variation

Inclusive Dutch: Between Norm and Variation

15 juli 2025 Door Redactie Neerlandistiek 3 Reacties

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
%d