Translations:Other corpora/39/nl

From Clarin K-Centre
Jump to navigation Jump to search

Dutch Gigacorpus

Met 234GB aan gevarieerde platte tekst, en met maar liefst 40 miljard tokens, is dit in ieder geval het grootste Nederlandse corpus. Het corpus is vrij beschikbaar en de kwaliteit is relatief hoog voor zijn omvang, er is voor gezorgd dat de data zo schoon mogelijk is. Ook bevat het corpus 400 miljoen forumberichten in 10 miljoen threads met hun tijdstempel intact voor taalkundig onderzoek.