• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Zoeken in grote hoeveelheden geschreven en gesproken Nederlands met OpenSoNaR

14 april 2019 door Roland de Bonth 2 Reacties

Door Instituut voor de Nederlandse Taal

Dinsdag 9 april heeft het Instituut voor de Nederlandse Taal een nieuwe versie van de OpenSoNaR webapplicatie gelanceerd, waarmee je kunt zoeken in grote hoeveelheden geschreven en gesproken Nederlands. De applicatie geeft toegang tot data uit het SoNaR-corpus, een verzameling geschreven teksten van meer dan 500 miljoen woorden, en het Corpus Gesproken Nederlands (CGN), een verzameling van 900 uur Nederlandse spraak.

De nieuwe webapplicatie maakt het mogelijk om te zoeken in alle data van de twee verzamelingen (corpora). De grote hoeveelheden tekst zijn voorzien van extra taalkundige informatie zoals woordsoort en lemma, en bovendien zijn van het Corpus Gesproken Nederlands ook de geluidsfragmenten te beluisteren. In de applicatie kun je eenvoudig zoeken op een woord, of een complexere zoekactie doen door te selecteren op een specifieke annotatie of door reguliere expressies te gebruiken. Daarnaast is het mogelijk om de zoekresultaten op te slaan, de zoekgeschiedenis te raadplegen en frequentielijsten te bekijken.

Het CGN en SoNaR

Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaags Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn voorzien van diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Het SoNaR-corpus bevat meer dan 500 miljoen woorden tekst afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden automatisch getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld.

OpenSoNaR is gratis toegankelijk met een gebruikersaccount van een universiteit, of met een CLARIN-account. De applicatie is ontwikkeld door een team van het Instituut voor de Nederlandse Taal, Tilburg University en de Radboud Universiteit, binnen de projecten CLARIN-NL en CLARIAH.

Vanuit CLARIAH zullen bij voldoende belangstelling op nog nader aan te kondigen tijdstippen cursussen gegeven worden in het gebruik van deze en andere corpora. Belangstellenden kunnen zich opgeven door te mailen naar clariah@huygens.knaw.nl.

  • Ga naar OpenSoNaR
  • Meer informatie over het Corpus Gesproken Nederlands
  • Meer informatie over het SoNaR-corpus
  • Lees meer over CLARIN en CLARIAH

Delen:

  • Afdrukken (Opent in een nieuw venster) Print
  • E-mail een link naar een vriend (Opent in een nieuw venster) E-mail
  • Share op Facebook (Opent in een nieuw venster) Facebook
  • Delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Delen op Telegram (Opent in een nieuw venster) Telegram
  • Delen op LinkedIn (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: corpusonderzoek, gesproken taal, webapplicatie

Lees Interacties

Reacties

  1. DirkJan zegt

    14 april 2019 om 18:02

    Jammer dat het geen algemeen toegankelijke database is zonder inlogaccount.

    Beantwoorden
  2. Miet Ooms zegt

    15 april 2019 om 08:36

    Al enkele keren gebruikt voor variatieonderzoek België-Nederland, en heel tevreden met de resultaten. Ik ben vooral blij dat het CGN er nu bij zit, dat is echt een verrijking. Zijn er intussen plannen om de databanken te updaten?

    Beantwoorden

Laat een reactie achter bij Miet OomsReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Dean Bowen • een leugen doorspookt …

een leugen doorspookt de welving waarin je jezelf thuis waant, dus verlaat je het huis in een poging terug te vinden wat je in kinderlijke onschuld moest achterlaten.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

VOORUITGANG

Precisie is de grondslag van de moderne industrialisatie.
– Zo is de poëzie nog ergens goed voor.

Bron: Barbarber, januari 1968

➔ Bekijk hier alle citaten

Agenda

27 februari 2026: Vriendenlezing – Leren met boeken

27 februari 2026: Vriendenlezing – Leren met boeken

24 februari 2026

➔ Lees meer
1 maart 2026: Voorleesmarathon uit het oeuvre van Astrid H. Roemer

1 maart 2026: Voorleesmarathon uit het oeuvre van Astrid H. Roemer

24 februari 2026

➔ Lees meer
27 maart 2026: Culturele verbeeldingen van het Waddengebied

27 maart 2026: Culturele verbeeldingen van het Waddengebied

23 februari 2026

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

sterfdag
1966 Arie Bouman
➔ Neerlandicikalender

Media

Sinte Franciscus Leven van Jacob van Maerlant

Sinte Franciscus Leven van Jacob van Maerlant

24 februari 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Waarom voelt prima zo passief aggressief?

Waarom voelt prima zo passief aggressief?

23 februari 2026 Door Redactie Neerlandistiek 1 Reactie

➔ Lees meer
De Twintigers: Juicy

De Twintigers: Juicy

22 februari 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Gebruiksvoorwaarden
  • Privacy­verklaring
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2026 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d