• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

Zoeken in grote hoeveelheden geschreven en gesproken Nederlands met OpenSoNaR

14 april 2019 door Roland de Bonth 2 Reacties

Door Instituut voor de Nederlandse Taal

Dinsdag 9 april heeft het Instituut voor de Nederlandse Taal een nieuwe versie van de OpenSoNaR webapplicatie gelanceerd, waarmee je kunt zoeken in grote hoeveelheden geschreven en gesproken Nederlands. De applicatie geeft toegang tot data uit het SoNaR-corpus, een verzameling geschreven teksten van meer dan 500 miljoen woorden, en het Corpus Gesproken Nederlands (CGN), een verzameling van 900 uur Nederlandse spraak.

De nieuwe webapplicatie maakt het mogelijk om te zoeken in alle data van de twee verzamelingen (corpora). De grote hoeveelheden tekst zijn voorzien van extra taalkundige informatie zoals woordsoort en lemma, en bovendien zijn van het Corpus Gesproken Nederlands ook de geluidsfragmenten te beluisteren. In de applicatie kun je eenvoudig zoeken op een woord, of een complexere zoekactie doen door te selecteren op een specifieke annotatie of door reguliere expressies te gebruiken. Daarnaast is het mogelijk om de zoekresultaten op te slaan, de zoekgeschiedenis te raadplegen en frequentielijsten te bekijken.

Het CGN en SoNaR

Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaags Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn voorzien van diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Het SoNaR-corpus bevat meer dan 500 miljoen woorden tekst afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden automatisch getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld.

OpenSoNaR is gratis toegankelijk met een gebruikersaccount van een universiteit, of met een CLARIN-account. De applicatie is ontwikkeld door een team van het Instituut voor de Nederlandse Taal, Tilburg University en de Radboud Universiteit, binnen de projecten CLARIN-NL en CLARIAH.

Vanuit CLARIAH zullen bij voldoende belangstelling op nog nader aan te kondigen tijdstippen cursussen gegeven worden in het gebruik van deze en andere corpora. Belangstellenden kunnen zich opgeven door te mailen naar clariah@huygens.knaw.nl.

  • Ga naar OpenSoNaR
  • Meer informatie over het Corpus Gesproken Nederlands
  • Meer informatie over het SoNaR-corpus
  • Lees meer over CLARIN en CLARIAH

Delen:

  • Klik om af te drukken (Wordt in een nieuw venster geopend) Print
  • Klik om dit te e-mailen naar een vriend (Wordt in een nieuw venster geopend) E-mail
  • Klik om te delen op Facebook (Wordt in een nieuw venster geopend) Facebook
  • Klik om te delen op WhatsApp (Wordt in een nieuw venster geopend) WhatsApp
  • Klik om te delen op Telegram (Wordt in een nieuw venster geopend) Telegram
  • Klik om op LinkedIn te delen (Wordt in een nieuw venster geopend) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: corpusonderzoek, gesproken taal, webapplicatie

Lees Interacties

Reacties

  1. DirkJan zegt

    14 april 2019 om 18:02

    Jammer dat het geen algemeen toegankelijke database is zonder inlogaccount.

    Beantwoorden
  2. Miet Ooms zegt

    15 april 2019 om 08:36

    Al enkele keren gebruikt voor variatieonderzoek België-Nederland, en heel tevreden met de resultaten. Ik ben vooral blij dat het CGN er nu bij zit, dat is echt een verrijking. Zijn er intussen plannen om de databanken te updaten?

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Christine D’haen • Vijfde grafgedicht voor Kira van Kasteel

Al wat de moestuin gunt, de groenten van het jaar;
het boerenhof, de boter, room en schuimige melk;
de herfstelijke boomgaard peer- en appelzwaar;
’t fijn kruid uit wei en tuin, uit ’t bos de kantharel

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

BEDELDEUN

“’k Heb kalk in m’n hoofd,
hoor je ’t rammelen,
hoor je ’t rammelen,
maak je ’t goed?

Heb je niet een paar kousen,
niet een lapje of een hoed,
hoor je ’t rammelen,
hoor je ’t goed?”

(Bedeldeun)

Bron: Barbarber, januari 1961

➔ Bekijk hier alle citaten

Agenda

12 september 2025: Dag van de Nederlandse partikels

12 september 2025: Dag van de Nederlandse partikels

7 juli 2025

➔ Lees meer
10 juli 2025: Hofwijck en het lezen van maakbaar landschap

10 juli 2025: Hofwijck en het lezen van maakbaar landschap

4 juli 2025

➔ Lees meer
29-30 september 2025: Struggling Sovereignty

29-30 september 2025: Struggling Sovereignty

3 juli 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1871 Kornelis ter Laan
1912 Félicien de Tollenaere
➔ Neerlandicikalender

Media

‘Pipi, paradoxen en leermomenten’

‘Pipi, paradoxen en leermomenten’

5 juli 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Plein Publiek: Nadia de Vries

Plein Publiek: Nadia de Vries

5 juli 2025 Door Redactie Neerlandistiek 1 Reactie

➔ Lees meer
Van Tamazight tot straattaal – met Khalid Mourigh

Van Tamazight tot straattaal – met Khalid Mourigh

2 juli 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d