• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Zoeken in grote hoeveelheden geschreven en gesproken Nederlands met OpenSoNaR

14 april 2019 door Roland de Bonth 2 Reacties

Door Instituut voor de Nederlandse Taal

Dinsdag 9 april heeft het Instituut voor de Nederlandse Taal een nieuwe versie van de OpenSoNaR webapplicatie gelanceerd, waarmee je kunt zoeken in grote hoeveelheden geschreven en gesproken Nederlands. De applicatie geeft toegang tot data uit het SoNaR-corpus, een verzameling geschreven teksten van meer dan 500 miljoen woorden, en het Corpus Gesproken Nederlands (CGN), een verzameling van 900 uur Nederlandse spraak.

De nieuwe webapplicatie maakt het mogelijk om te zoeken in alle data van de twee verzamelingen (corpora). De grote hoeveelheden tekst zijn voorzien van extra taalkundige informatie zoals woordsoort en lemma, en bovendien zijn van het Corpus Gesproken Nederlands ook de geluidsfragmenten te beluisteren. In de applicatie kun je eenvoudig zoeken op een woord, of een complexere zoekactie doen door te selecteren op een specifieke annotatie of door reguliere expressies te gebruiken. Daarnaast is het mogelijk om de zoekresultaten op te slaan, de zoekgeschiedenis te raadplegen en frequentielijsten te bekijken.

Het CGN en SoNaR

Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaags Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn voorzien van diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Het SoNaR-corpus bevat meer dan 500 miljoen woorden tekst afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden automatisch getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld.

OpenSoNaR is gratis toegankelijk met een gebruikersaccount van een universiteit, of met een CLARIN-account. De applicatie is ontwikkeld door een team van het Instituut voor de Nederlandse Taal, Tilburg University en de Radboud Universiteit, binnen de projecten CLARIN-NL en CLARIAH.

Vanuit CLARIAH zullen bij voldoende belangstelling op nog nader aan te kondigen tijdstippen cursussen gegeven worden in het gebruik van deze en andere corpora. Belangstellenden kunnen zich opgeven door te mailen naar clariah@huygens.knaw.nl.

  • Ga naar OpenSoNaR
  • Meer informatie over het Corpus Gesproken Nederlands
  • Meer informatie over het SoNaR-corpus
  • Lees meer over CLARIN en CLARIAH

Delen:

  • Afdrukken (Opent in een nieuw venster) Print
  • E-mail een link naar een vriend (Opent in een nieuw venster) E-mail
  • Share op Facebook (Opent in een nieuw venster) Facebook
  • Delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Delen op Telegram (Opent in een nieuw venster) Telegram
  • Delen op LinkedIn (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: corpusonderzoek, gesproken taal, webapplicatie

Lees Interacties

Reacties

  1. DirkJan zegt

    14 april 2019 om 18:02

    Jammer dat het geen algemeen toegankelijke database is zonder inlogaccount.

    Beantwoorden
  2. Miet Ooms zegt

    15 april 2019 om 08:36

    Al enkele keren gebruikt voor variatieonderzoek België-Nederland, en heel tevreden met de resultaten. Ik ben vooral blij dat het CGN er nu bij zit, dat is echt een verrijking. Zijn er intussen plannen om de databanken te updaten?

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Annemarie Estor • Twee gedichten

‘Kersen in Slaap’,
‘Aardbeien in Woede’,
‘Maangedroogde Tomaatjes’,
‘Rozen in Remlicht’.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

KREUPELBOS

Barbaars en onbegaanbaar is
beregend struikgewas.
Iedere tak voert naar de grond,
schiet straks in vuur
een bloem op schoot. [lees meer]

Bron: Uit de hoge boom geschreven, 1967

➔ Bekijk hier alle citaten

Agenda

22 mei 2026: Dutch Studies 26 jaar!

22 mei 2026: Dutch Studies 26 jaar!

16 maart 2026

➔ Lees meer
24 maart 2026: Inauguration de la Chaire Isabelle de Charrière

24 maart 2026: Inauguration de la Chaire Isabelle de Charrière

13 maart 2026

➔ Lees meer
15 maart 2026: Documentaire The World Behind Words

15 maart 2026: Documentaire The World Behind Words

13 maart 2026

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

sterfdag
1917 Willem van Helten
➔ Neerlandicikalender

Media

Babs Gons en Imre Besanger over Lucretia van Merken

Babs Gons en Imre Besanger over Lucretia van Merken

16 maart 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Hoe leer je het beste een taal?

Hoe leer je het beste een taal?

14 maart 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
15 maart 2026: Documentaire The World Behind Words

15 maart 2026: Documentaire The World Behind Words

13 maart 2026 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Gebruiksvoorwaarden
  • Privacy­verklaring
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2026 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d