Translations:Corpus querying/4/nl: Difference between revisions

From Clarin K-Centre
Jump to navigation Jump to search
No edit summary
No edit summary
 
Line 2: Line 2:
De huidige applicatie bevat twee corpora:
De huidige applicatie bevat twee corpora:
*Het SoNaR corpus (Zie [[Referentiecorpora]] voor meer informatie.)
*Het SoNaR corpus (Zie [[Referentiecorpora]] voor meer informatie.)
*Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers,  
*Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers, zie
[http://hdl.handle.net/10032/tm-a2-k6 hier].
[http://hdl.handle.net/10032/tm-a2-k6 hier].

Latest revision as of 09:09, 4 April 2024

Information about message (contribute)
This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
Message definition (Corpus querying)
==[https://opensonar.ivdnt.org/ OpenSonar]==
The current application contains two corpora:
*The SoNaR corpus (See [[Reference corpora]] for more information.)
*The Corpus of Spoken Dutch (Corpus Gesproken Nederlands, CGN) is a collection of 900 hours (almost 9 million words) of contemporary Dutch speech, originating from Flemish and Dutch speakers. The speech fragments (spontaneous and prepared) are aligned with various transcriptions (including orthographic, phonetic) and annotations (lemma, POS tags). All annotations have been verified manually, except for the phonetic transcription: only 11,3% was verified. The corpus data are available for researchers, see [http://hdl.handle.net/10032/tm-a2-k6 here].

OpenSonar

De huidige applicatie bevat twee corpora:

  • Het SoNaR corpus (Zie Referentiecorpora voor meer informatie.)
  • Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers, zie

hier.