Translations:Corpus querying/4/nl: Difference between revisions
Jump to navigation
Jump to search
No edit summary |
No edit summary |
||
(3 intermediate revisions by 2 users not shown) | |||
Line 1: | Line 1: | ||
== | == OpenSonar == | ||
De huidige applicatie bevat twee corpora: | De huidige applicatie bevat twee corpora: | ||
*Het SoNaR corpus (Zie [[Referentiecorpora]] voor meer informatie.) | *Het SoNaR-corpus (Zie [[Referentiecorpora]] voor meer informatie.) | ||
*Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers, | *Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers, zie | ||
[http://hdl.handle.net/10032/tm-a2-k6 hier]. |
Latest revision as of 14:49, 6 August 2024
OpenSonar
De huidige applicatie bevat twee corpora:
- Het SoNaR-corpus (Zie Referentiecorpora voor meer informatie.)
- Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers, zie
hier.