• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Zoeken in grote hoeveelheden geschreven en gesproken Nederlands met OpenSoNaR

14 april 2019 door Roland de Bonth 2 Reacties

Door Instituut voor de Nederlandse Taal

Dinsdag 9 april heeft het Instituut voor de Nederlandse Taal een nieuwe versie van de OpenSoNaR webapplicatie gelanceerd, waarmee je kunt zoeken in grote hoeveelheden geschreven en gesproken Nederlands. De applicatie geeft toegang tot data uit het SoNaR-corpus, een verzameling geschreven teksten van meer dan 500 miljoen woorden, en het Corpus Gesproken Nederlands (CGN), een verzameling van 900 uur Nederlandse spraak.

De nieuwe webapplicatie maakt het mogelijk om te zoeken in alle data van de twee verzamelingen (corpora). De grote hoeveelheden tekst zijn voorzien van extra taalkundige informatie zoals woordsoort en lemma, en bovendien zijn van het Corpus Gesproken Nederlands ook de geluidsfragmenten te beluisteren. In de applicatie kun je eenvoudig zoeken op een woord, of een complexere zoekactie doen door te selecteren op een specifieke annotatie of door reguliere expressies te gebruiken. Daarnaast is het mogelijk om de zoekresultaten op te slaan, de zoekgeschiedenis te raadplegen en frequentielijsten te bekijken.

Het CGN en SoNaR

Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaags Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn voorzien van diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Het SoNaR-corpus bevat meer dan 500 miljoen woorden tekst afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden automatisch getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld.

OpenSoNaR is gratis toegankelijk met een gebruikersaccount van een universiteit, of met een CLARIN-account. De applicatie is ontwikkeld door een team van het Instituut voor de Nederlandse Taal, Tilburg University en de Radboud Universiteit, binnen de projecten CLARIN-NL en CLARIAH.

Vanuit CLARIAH zullen bij voldoende belangstelling op nog nader aan te kondigen tijdstippen cursussen gegeven worden in het gebruik van deze en andere corpora. Belangstellenden kunnen zich opgeven door te mailen naar clariah@huygens.knaw.nl.

  • Ga naar OpenSoNaR
  • Meer informatie over het Corpus Gesproken Nederlands
  • Meer informatie over het SoNaR-corpus
  • Lees meer over CLARIN en CLARIAH

Delen:

  • Klik om af te drukken (Opent in een nieuw venster) Print
  • Klik om dit te e-mailen naar een vriend (Opent in een nieuw venster) E-mail
  • Klik om te delen op Facebook (Opent in een nieuw venster) Facebook
  • Klik om te delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Klik om te delen op Telegram (Opent in een nieuw venster) Telegram
  • Klik om op LinkedIn te delen (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: corpusonderzoek, gesproken taal, webapplicatie

Lees Interacties

Reacties

  1. DirkJan zegt

    14 april 2019 om 18:02

    Jammer dat het geen algemeen toegankelijke database is zonder inlogaccount.

    Beantwoorden
  2. Miet Ooms zegt

    15 april 2019 om 08:36

    Al enkele keren gebruikt voor variatieonderzoek België-Nederland, en heel tevreden met de resultaten. Ik ben vooral blij dat het CGN er nu bij zit, dat is echt een verrijking. Zijn er intussen plannen om de databanken te updaten?

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Jan Elemans • De jaren twintig

Veel aardappelen,
zeer zoute boter
en bitterheid aan tafel,
de boer vaak en ver van huis,
de boerin alleen.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

VLIEGEN

Als je vliegen een stevige mep verkoopt terwijl ze in de kamer rondvliegen (fel naar hun slaat met een vliegenklapper/mepper) en je zet dan een raam of deur open naar buiten, dan weten ze ineens heel gauw de weg naar buiten te vinden, heb ik vaak gemerkt.

Hanlo

Bron: Barbarber, april 1970

➔ Bekijk hier alle citaten

Agenda

11 februari 2026: Het vergeten taalwonder Giacomo Prampolini

11 februari 2026: Het vergeten taalwonder Giacomo Prampolini

14 januari 2026

➔ Lees meer
23 en 24 april 2026: Neerlandistiekdagen

23 en 24 april 2026: Neerlandistiekdagen

14 januari 2026

➔ Lees meer
10 februari 2026: Nascholingsmiddag Lezen voor waarden

10 februari 2026: Nascholingsmiddag Lezen voor waarden

13 januari 2026

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

sterfdag
1991 Jan de Zanger
➔ Neerlandicikalender

Media

Vertel het iemand van Rachida Lamrabet

Vertel het iemand van Rachida Lamrabet

13 januari 2026 Door Vlogboek Reageer

➔ Lees meer
In gesprek met auteur Jeroen Theunissen

In gesprek met auteur Jeroen Theunissen

12 januari 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Ik zie op tegen interviews…

Ik zie op tegen interviews…

11 januari 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2026 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d