• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Zoeken in grote hoeveelheden geschreven en gesproken Nederlands met OpenSoNaR

14 april 2019 door Roland de Bonth 2 Reacties

Door Instituut voor de Nederlandse Taal

Dinsdag 9 april heeft het Instituut voor de Nederlandse Taal een nieuwe versie van de OpenSoNaR webapplicatie gelanceerd, waarmee je kunt zoeken in grote hoeveelheden geschreven en gesproken Nederlands. De applicatie geeft toegang tot data uit het SoNaR-corpus, een verzameling geschreven teksten van meer dan 500 miljoen woorden, en het Corpus Gesproken Nederlands (CGN), een verzameling van 900 uur Nederlandse spraak.

De nieuwe webapplicatie maakt het mogelijk om te zoeken in alle data van de twee verzamelingen (corpora). De grote hoeveelheden tekst zijn voorzien van extra taalkundige informatie zoals woordsoort en lemma, en bovendien zijn van het Corpus Gesproken Nederlands ook de geluidsfragmenten te beluisteren. In de applicatie kun je eenvoudig zoeken op een woord, of een complexere zoekactie doen door te selecteren op een specifieke annotatie of door reguliere expressies te gebruiken. Daarnaast is het mogelijk om de zoekresultaten op te slaan, de zoekgeschiedenis te raadplegen en frequentielijsten te bekijken.

Het CGN en SoNaR

Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaags Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn voorzien van diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Het SoNaR-corpus bevat meer dan 500 miljoen woorden tekst afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden automatisch getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld.

OpenSoNaR is gratis toegankelijk met een gebruikersaccount van een universiteit, of met een CLARIN-account. De applicatie is ontwikkeld door een team van het Instituut voor de Nederlandse Taal, Tilburg University en de Radboud Universiteit, binnen de projecten CLARIN-NL en CLARIAH.

Vanuit CLARIAH zullen bij voldoende belangstelling op nog nader aan te kondigen tijdstippen cursussen gegeven worden in het gebruik van deze en andere corpora. Belangstellenden kunnen zich opgeven door te mailen naar clariah@huygens.knaw.nl.

  • Ga naar OpenSoNaR
  • Meer informatie over het Corpus Gesproken Nederlands
  • Meer informatie over het SoNaR-corpus
  • Lees meer over CLARIN en CLARIAH

Delen:

  • Klik om af te drukken (Opent in een nieuw venster) Print
  • Klik om dit te e-mailen naar een vriend (Opent in een nieuw venster) E-mail
  • Klik om te delen op Facebook (Opent in een nieuw venster) Facebook
  • Klik om te delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Klik om te delen op Telegram (Opent in een nieuw venster) Telegram
  • Klik om op LinkedIn te delen (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: corpusonderzoek, gesproken taal, webapplicatie

Lees Interacties

Reacties

  1. DirkJan zegt

    14 april 2019 om 18:02

    Jammer dat het geen algemeen toegankelijke database is zonder inlogaccount.

    Beantwoorden
  2. Miet Ooms zegt

    15 april 2019 om 08:36

    Al enkele keren gebruikt voor variatieonderzoek België-Nederland, en heel tevreden met de resultaten. Ik ben vooral blij dat het CGN er nu bij zit, dat is echt een verrijking. Zijn er intussen plannen om de databanken te updaten?

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Frans Budé • Parkscènes

Hij begroet de bomen, zwaait naar de eenden
in de vijver, de blinkende kiezels op de bodem.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

De koeien schemeren door de heg,
het paard is uit taaitaai gesneden,
in ieder duindal ligt dun sneeuw.

De branding vlecht een veren zee
waar zon over omhoog stijgt, licht waarin
geen plaats om uit te vliegen is.

Bron: Uit de hoge boom geschreven, 1967

➔ Bekijk hier alle citaten

Agenda

11 december 2025: Anne Frank, schrijfster

11 december 2025: Anne Frank, schrijfster

3 december 2025

➔ Lees meer
11 december 2025: Proefcollege Nederlands

11 december 2025: Proefcollege Nederlands

2 december 2025

➔ Lees meer
5 december 2025: Intreerede Jolyn Philips

5 december 2025: Intreerede Jolyn Philips

28 november 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1946 Dick Wortel
➔ Neerlandicikalender

Media

Dichter Esther Jansma (24 december 1958-23 januari 2025)

Dichter Esther Jansma (24 december 1958-23 januari 2025)

2 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
De postkoloniale podcast met Remco Raben over Pramoedya Ananta Toer

De postkoloniale podcast met Remco Raben over Pramoedya Ananta Toer

30 november 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Peter van Zonneveld over Tjalie Robinson/Vincent Mahieu (1993)

Peter van Zonneveld over Tjalie Robinson/Vincent Mahieu (1993)

29 november 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d