Translations:Other corpora/37/nl

From Clarin K-Centre
Jump to navigation Jump to search

CC-100 Corpus

Dit corpus is een poging om de dataset die wordt gebruikt voor het trainen van XLM-R opnieuw te creëren. Dit corpus bestaat uit eentalige data voor 100+ talen en bevat daarnaast data voor geromaniseerde talen (aangegeven door *_rom)