Translations:Corpus querying/4/nl: Difference between revisions
Jump to navigation
Jump to search
(Created page with "==[https://opensonar.ivdnt.org/ OpenSonar]== De huidige applicatie bevat twee corpora: *Het SoNaR corpus (Zie Referentiecorpora voor meer informatie.) *Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-t...") |
No edit summary |
||
Line 2: | Line 2: | ||
De huidige applicatie bevat twee corpora: | De huidige applicatie bevat twee corpora: | ||
*Het SoNaR corpus (Zie [[Referentiecorpora]] voor meer informatie.) | *Het SoNaR corpus (Zie [[Referentiecorpora]] voor meer informatie.) | ||
*Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers,[http://hdl.handle.net/10032/tm-a2-k6 hier]. | *Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers, | ||
[http://hdl.handle.net/10032/tm-a2-k6 hier]. |
Revision as of 09:09, 4 April 2024
OpenSonar
De huidige applicatie bevat twee corpora:
- Het SoNaR corpus (Zie Referentiecorpora voor meer informatie.)
- Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers,
hier.