Translations:Other corpora/39/nl: Difference between revisions
Jump to navigation
Jump to search
(Created page with "== Dutch Gigacorpus == Met 234GB aan gevarieerde platte tekst, maarliefst 40 miljard tokens, is dit in ieder geval het grootste Nederlandse corpus. Maar daarnaast is dit corpus ook vrij beschikbaar en de kwaliteit is relatief hoog voor zijn omvang, zorg is gedragen voor het zo schoon mogelijk krijgen van de data. Ook bevat het corpus 400 miljoen forumposts in 10 miljoen threads met hun timestamp intact voor taalkundig onderzoek.") |
No edit summary |
||
Line 1: | Line 1: | ||
== Dutch Gigacorpus == | == Dutch Gigacorpus == | ||
Met 234GB aan gevarieerde platte tekst, | Met 234GB aan gevarieerde platte tekst, en met maar liefst 40 miljard tokens, is dit in ieder geval het grootste Nederlandse corpus. Het corpus is vrij beschikbaar en de kwaliteit is relatief hoog voor zijn omvang, er is voor gezorgd dat de data zo schoon mogelijk is. Ook bevat het corpus 400 miljoen forumberichten in 10 miljoen threads met hun tijdstempel intact voor taalkundig onderzoek. |
Latest revision as of 10:50, 26 March 2024
Dutch Gigacorpus
Met 234GB aan gevarieerde platte tekst, en met maar liefst 40 miljard tokens, is dit in ieder geval het grootste Nederlandse corpus. Het corpus is vrij beschikbaar en de kwaliteit is relatief hoog voor zijn omvang, er is voor gezorgd dat de data zo schoon mogelijk is. Ook bevat het corpus 400 miljoen forumberichten in 10 miljoen threads met hun tijdstempel intact voor taalkundig onderzoek.