Translations:Corpus querying/4/nl

From Clarin K-Centre
Revision as of 09:09, 4 April 2024 by Floyd (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

OpenSonar

De huidige applicatie bevat twee corpora:

  • Het SoNaR corpus (Zie Referentiecorpora voor meer informatie.)
  • Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers, zie

hier.