Lancering Nederlab en wedstrijd
Het antwoord op bovenstaande vraag weten we ook nog niet. Afgelopen vrijdag 26 oktober lanceerden het Meertens Instituut en het Instituut voor de Nederlandse Taal de zoekmachine Nederlab. Van het vroegste Middelnederlands tot Nederlands uit de eenentwintigste eeuw: in Nederlab zijn miljoenen oude en nieuwe Nederlandse teksten voor het eerst op één plek doorzoekbaar gemaakt.
41 miljoen teksten en 18 miljard woorden
Om precies te zijn: Nederlab bevat 41 miljoen teksten en 18 miljard woorden. Het betreft tekstcollecties in diverse genres die voor het merendeel al digitaal beschikbaar waren en die nu ook gezamenlijk doorzoekbaar zijn gemaakt. Met historische kranten uit de periode 1700 – 1940, romans, Bijbelteksten, dagboekfragmenten, briefwisselingen, oorkonden, gebeden – en zelfs bioscoopadvertenties – vormt Nederlab een grote bron voor taalkundig, letterkundig en historisch onderzoek.
Met Nederlab kun je bijvoorbeeld onderzoeken vanaf welk moment ‘pop’ als woord voor popmuziek gebruikt werd. Of sinds wanneer kranten ‘een postuum’ schrijven. En wanneer werd mensch eigenlijk mens? De data uit Nederlab vertellen iets dat de kenners wel weten: dat het gebruik van ‘mensch’ afnam toen in 1947 een spellingshervorming de schrijfwijze ‘mens’ voorschreef.
Eerste Nederlandse zoekmachine met zoveel data en zoekmogelijkheden
Aan de totstandkoming van Nederlab hebben het Meertens Instituut en het Instituut van de Nederlandse Taal vijf jaar gewerkt met samenwerkingspartners het Huygens ING, de Radboud Universiteit en de Rijksuniversiteit Groningen. Instellingen zoals het Huygens ING en de Koninklijke Bibliotheek hebben toegang tot diverse collecties mogelijk gemaakt.
Om alle teksten gezamenlijk doorzoekbaar te maken, moesten bestanden geüniformeerd worden. Ook zijn data taalkundig verrijkt met lemma en woordsoort. Je kunt bijvoorbeeld zoeken naar het bijvoeglijk naamwoord arm. De machine negeert dan alle plaatsen waar arm verwijst naar het lichaamsdeel (zelfstandig naamwoord). Ook zoekt Nederlab op spellingsvarianten. De zoekmachine biedt als eerste tool zulk een grote hoeveelheid doorzoekbare data, geavanceerde zoek- en analysemogelijkheden, visualisaties en statistieken voor het Nederlands.
Hoe zit het nou met die popmuziek?
Zoals gezegd, we weten het nog niet. Het Meertens Instituut en het INT schrijven een wedstrijd uit voor degene die het beste antwoord geeft op deze vraag. De deadline is 15 november 2018; in Neerlandistiek zullen we terugkomen op het beste antwoord, dat u kunt insturen naar communicatie@meertens.knaw.nl.
DirkJan zegt
Ik heb begrepen dat deze op zich fraaie en rijke databank niet in zijn geheel voor iedereen vrij toegankelijk is. Het auteursrechtelijk beschermd materiaal is alleen voor instellingen te doorzoeken met een inlogcode. Ik weet niet om hoeveel data het gaat, maar kennelijk ook om een aanzienlijke hoeveelheid kranten na 1900. Onduidelijk in vergelijking met Delpher. Is de hele collectie van Delpher ook opgenomen?
En zo heb ik een paar jaar geleden al eens kort onderzoek gedaan naar de intrede van het woord ‘popmuziek’ in Nederland, maar dan gezocht via Delpher. Hopelijk geeft Nederlab dezelfde resultaten, maar daar twijfel ik nu aan in verband met de auteursrechten.