Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
Help about MediaWiki
Clarin K-Centre
Search
Search
English
Appearance
Log in
Personal tools
Log in
Export translations
Translate
English
Language statistics
Message group statistics
Export
Tools
Tools
move to sidebar
hide
Actions
Language statistics
Message group statistics
Export
General
Special pages
Printable version
Appearance
move to sidebar
hide
Settings
Group
Basic language processing
Best practice documents and guidelines
Character N-grams
CLARIN
CLARIN projects
Clinical NLP
Compound splitting
Computer-mediated communication corpora
Conceptual resources
Consulting
Coreference resolution
Corpora
Corpora of academic texts
Corpus querying
Deep parsing
Dictionaries
Embeddings
Format conversion
Grammar
Historical corpora
Internships
K-Dutch
L2 learner corpora
Language Learning Resources
Language modeling
Lexica
Lexica of terminology
Lexicography
Machine translation
Manually annotated corpora
Multimodal corpora
Newspaper corpora
Ontologies
Other corpora
Parallel corpora
Parallel Monolingual Corpora
Parallel Multilingual Corpora
Parliamentary corpora
Propbanks
Q&A
Readability
Reference corpora
Sentiment analysis
Sign Language corpora
Simplification Data
Social media corpora
Speech recognition
Speech synthesis
Spell checking
Spelling
Spoken corpora
Spoken language recognition
Syllabification
Terminology
Text classification
Text simplification
Treebank querying
Treebanks
Word sense disambiguation
Wordlists
Language
aa - Afar
aae - Arbëresh
ab - Abkhazian
abs - Ambonese Malay
ace - Achinese
acf - Kwéyòl Sent Lisi
acm - Iraqi Arabic
ady - Adyghe
ady-cyrl - Adyghe (Cyrillic script)
aeb - Tunisian Arabic
aeb-arab - Tunisian Arabic (Arabic script)
aeb-latn - Tunisian Arabic (Latin script)
af - Afrikaans
aln - Gheg Albanian
alt - Southern Altai
am - Amharic
ami - Amis
an - Aragonese
ang - Old English
ann - Obolo
anp - Angika
apc - Levantine Arabic
ar - Arabic
arc - Aramaic
arn - Mapuche
arq - Algerian Arabic
ary - Moroccan Arabic
arz - Egyptian Arabic
as - Assamese
ase - American Sign Language
ast - Asturian
atj - Atikamekw
av - Avaric
avk - Kotava
awa - Awadhi
ay - Aymara
az - Azerbaijani
azb - South Azerbaijani
ba - Bashkir
ban - Balinese
ban-bali - Balinese (Balinese script)
bar - Bavarian
bbc - Batak Toba
bbc-latn - Batak Toba (Latin script)
bcc - Southern Balochi
bci - Baoulé
bcl - Central Bikol
bdr - West Coast Bajau
be - Belarusian
be-tarask - Belarusian (Taraškievica orthography)
bew - Betawi
bg - Bulgarian
bgc - Haryanvi
bgn - Western Balochi
bh - Bhojpuri
bho - Bhojpuri
bi - Bislama
bjn - Banjar
blk - Pa'O
bm - Bambara
bn - Bangla
bo - Tibetan
bpy - Bishnupriya
bqi - Bakhtiari
br - Breton
brh - Brahui
bs - Bosnian
btm - Batak Mandailing
bto - Iriga Bicolano
bug - Buginese
bxr - Russia Buriat
ca - Catalan
cbk-zam - Chavacano
ccp - Chakma
cdo - Mindong
ce - Chechen
ceb - Cebuano
ch - Chamorro
chn - Chinook Jargon
cho - Choctaw
chr - Cherokee
chy - Cheyenne
ckb - Central Kurdish
co - Corsican
cps - Capiznon
cpx - Pu–Xian Min
cpx-hans - Pu–Xian Min (Simplified Han script)
cpx-hant - Pu–Xian Min (Traditional Han script)
cpx-latn - Pu–Xian Min (Latin script)
cr - Cree
crh - Crimean Tatar
crh-cyrl - Crimean Tatar (Cyrillic script)
crh-latn - Crimean Tatar (Latin script)
crh-ro - Dobrujan Tatar
cs - Czech
csb - Kashubian
cu - Church Slavic
cv - Chuvash
cy - Welsh
da - Danish
dag - Dagbani
de - German
de-at - Austrian German
de-ch - Swiss High German
de-formal - German (formal address)
dga - Dagaare
din - Dinka
diq - Zazaki
dsb - Lower Sorbian
dtp - Central Dusun
dty - Doteli
dua - Duala
dv - Divehi
dz - Dzongkha
ee - Ewe
efi - Efik
egl - Emilian
el - Greek
eml - Emiliano-Romagnolo
en - English
en-ca - Canadian English
en-gb - British English
eo - Esperanto
es - Spanish
es-419 - Latin American Spanish
es-formal - Spanish (formal address)
et - Estonian
eu - Basque
ext - Extremaduran
fa - Persian
fat - Fanti
ff - Fula
fi - Finnish
fit - Tornedalen Finnish
fj - Fijian
fo - Faroese
fon - Fon
fr - French
frc - Cajun French
frp - Arpitan
frr - Northern Frisian
fur - Friulian
fy - Western Frisian
ga - Irish
gaa - Ga
gag - Gagauz
gan - Gan
gan-hans - Gan (Simplified Han script)
gan-hant - Gan (Traditional Han script)
gcf - Guadeloupean Creole
gcr - Guianan Creole
gd - Scottish Gaelic
gl - Galician
gld - Nanai
glk - Gilaki
gn - Guarani
gom - Goan Konkani
gom-deva - Goan Konkani (Devanagari script)
gom-latn - Goan Konkani (Latin script)
gor - Gorontalo
got - Gothic
gpe - Ghanaian Pidgin
grc - Ancient Greek
gsw - Alemannic
gu - Gujarati
guc - Wayuu
gur - Frafra
guw - Gun
gv - Manx
ha - Hausa
hak - Hakka Chinese
hak-hans - Hakka (Simplified Han script)
hak-hant - Hakka (Traditional Han script)
hak-latn - Hak-kâ-ngî (Pha̍k-fa-sṳ)
haw - Hawaiian
he - Hebrew
hi - Hindi
hif - Fiji Hindi
hif-latn - Fiji Hindi (Latin script)
hil - Hiligaynon
hno - Northern Hindko
ho - Hiri Motu
hr - Croatian
hrx - Hunsrik
hsb - Upper Sorbian
hsn - Xiang
ht - Haitian Creole
hu - Hungarian
hu-formal - Hungarian (formal address)
hy - Armenian
hyw - Western Armenian
hz - Herero
ia - Interlingua
iba - Iban
ibb - Ibibio
id - Indonesian
ie - Interlingue
ig - Igbo
igl - Igala
ii - Sichuan Yi
ik - Inupiaq
ike-cans - Eastern Canadian (Aboriginal syllabics)
ike-latn - Eastern Canadian (Latin script)
ilo - Iloko
inh - Ingush
io - Ido
is - Icelandic
isv-cyrl - меджусловјанскы
isv-latn - Interslavic (Latin script)
it - Italian
iu - Inuktitut
ja - Japanese
jam - Jamaican Creole English
jbo - Lojban
jut - Jutish
jv - Javanese
ka - Georgian
kaa - Kara-Kalpak
kab - Kabyle
kai - Karekare
kbd - Kabardian
kbd-cyrl - Kabardian (Cyrillic script)
kbp - Kabiye
kcg - Tyap
kea - Kabuverdianu
kg - Kongo
kge - Komering
khw - Khowar
ki - Kikuyu
kiu - Kirmanjki
kj - Kuanyama
kjh - Khakas
kjp - Eastern Pwo
kk - Kazakh
kk-arab - Kazakh (Arabic script)
kk-cn - Kazakh (China)
kk-cyrl - Kazakh (Cyrillic script)
kk-kz - Kazakh (Kazakhstan)
kk-latn - Kazakh (Latin script)
kk-tr - Kazakh (Turkey)
kl - Kalaallisut
km - Khmer
kn - Kannada
knc - Yerwa Kanuri
ko - Korean
ko-kp - Korean (North Korea)
koi - Komi-Permyak
kr - Kanuri
krc - Karachay-Balkar
kri - Krio
krj - Kinaray-a
krl - Karelian
ks - Kashmiri
ks-arab - Kashmiri (Arabic script)
ks-deva - Kashmiri (Devanagari script)
ksh - Colognian
ksw - S'gaw Karen
ku - Kurdish
ku-arab - Kurdish (Arabic script)
ku-latn - Kurdish (Latin script)
kum - Kumyk
kus - Kʋsaal
kv - Komi
kw - Cornish
ky - Kyrgyz
la - Latin
lad - Ladino
lb - Luxembourgish
lbe - Lak
lez - Lezghian
lfn - Lingua Franca Nova
lg - Ganda
li - Limburgish
lij - Ligurian
liv - Livonian
lki - Laki
lld - Ladin
lmo - Lombard
ln - Lingala
lo - Lao
loz - Lozi
lrc - Northern Luri
lt - Lithuanian
ltg - Latgalian
lua - Luba-Lulua
lus - Mizo
luz - Southern Luri
lv - Latvian
lzh - Literary Chinese
lzz - Laz
mad - Madurese
mag - Magahi
mai - Maithili
map-bms - Basa Banyumasan
mdf - Moksha
mg - Malagasy
mh - Marshallese
mhr - Eastern Mari
mi - Māori
min - Minangkabau
mk - Macedonian
ml - Malayalam
mn - Mongolian
mnc - Manchu
mnc-latn - Manchu (Latin script)
mnc-mong - Manchu (Mongolian script)
mni - Manipuri
mnw - Mon
mo - Moldovan
mos - Mossi
mr - Marathi
mrh - Mara
mrj - Western Mari
ms - Malay
ms-arab - Malay (Jawi script)
mt - Maltese
mui - Musi
mus - Muscogee
mwl - Mirandese
my - Burmese
myv - Erzya
mzn - Mazanderani
na - Nauru
nah - Nāhuatl
nan - Minnan
nan-hant - Minnan (Traditional Han script)
nan-latn-pehoeji - Minnan (Pe̍h-ōe-jī)
nan-latn-tailo - Minnan (Tâi-lô)
nap - Neapolitan
nb - Norwegian Bokmål
nds - Low German
nds-nl - Low Saxon
ne - Nepali
new - Newari
ng - Ndonga
nia - Nias
nit - కొలామి
niu - Niuean
nl - Dutch
nl-informal - Dutch (informal address)
nmz - Nawdm
nn - Norwegian Nynorsk
no - Norwegian
nod - Northern Thai
nog - Nogai
nov - Novial
nqo - N’Ko
nr - South Ndebele
nrm - Norman
nso - Northern Sotho
nup - Nupe
nv - Navajo
ny - Nyanja
nyn - Nyankole
nyo - Nyoro
nys - Nyungar
oc - Occitan
ojb - Northwestern Ojibwa
olo - Livvi-Karelian
om - Oromo
or - Odia
os - Ossetic
pa - Punjabi
pag - Pangasinan
pam - Pampanga
pap - Papiamento
pcd - Picard
pcm - Nigerian Pidgin
pdc - Pennsylvania German
pdt - Plautdietsch
pfl - Palatine German
pi - Pali
pih - Norfuk / Pitkern
pl - Polish
pms - Piedmontese
pnb - Western Punjabi
pnt - Pontic
prg - Prussian
ps - Pashto
pt - Portuguese
pt-br - Brazilian Portuguese
pwn - Paiwan
qqq - Message documentation
qu - Quechua
qug - Chimborazo Highland Quichua
rgn - Romagnol
rif - Riffian
rki - Arakanese
rm - Romansh
rmc - Carpathian Romani
rmy - Vlax Romani
rn - Rundi
ro - Romanian
roa-tara - Tarantino
rsk - Pannonian Rusyn
ru - Russian
rue - Rusyn
rup - Aromanian
ruq - Megleno-Romanian
ruq-cyrl - Megleno-Romanian (Cyrillic script)
ruq-latn - Megleno-Romanian (Latin script)
rut - Rutul
rw - Kinyarwanda
ryu - Okinawan
sa - Sanskrit
sah - Yakut
sat - Santali
sc - Sardinian
scn - Sicilian
sco - Scots
sd - Sindhi
sdc - Sassarese Sardinian
sdh - Southern Kurdish
se - Northern Sami
se-fi - Northern Sami (Finland)
se-no - Northern Sami (Norway)
se-se - Northern Sami (Sweden)
sei - Seri
ses - Koyraboro Senni
sg - Sango
sgs - Samogitian
sh - Serbo-Croatian
sh-cyrl - Serbo-Croatian (Cyrillic script)
sh-latn - Serbo-Croatian (Latin script)
shi - Tachelhit
shi-latn - Tachelhit (Latin script)
shi-tfng - Tachelhit (Tifinagh script)
shn - Shan
shy - Shawiya
shy-latn - Shawiya (Latin script)
si - Sinhala
simple - Simple English
sjd - Kildin Sami
sje - Pite Sami
sk - Slovak
skr - Saraiki
skr-arab - Saraiki (Arabic script)
sl - Slovenian
sli - Lower Silesian
sm - Samoan
sma - Southern Sami
smn - Inari Sami
sms - Skolt Sami
sn - Shona
so - Somali
sq - Albanian
sr - Serbian
sr-ec - Serbian (Cyrillic script)
sr-el - Serbian (Latin script)
srn - Sranan Tongo
sro - Campidanese Sardinian
ss - Swati
st - Southern Sotho
stq - Saterland Frisian
sty - Siberian Tatar
su - Sundanese
sv - Swedish
sw - Swahili
syl - Sylheti
szl - Silesian
szy - Sakizaya
ta - Tamil
tay - Tayal
tcy - Tulu
tdd - Tai Nuea
te - Telugu
tet - Tetum
tg - Tajik
tg-cyrl - Tajik (Cyrillic script)
tg-latn - Tajik (Latin script)
th - Thai
ti - Tigrinya
tig - Tigre
tk - Turkmen
tl - Tagalog
tly - Talysh
tly-cyrl - Talysh (Cyrillic script)
tn - Tswana
to - Tongan
tok - Toki Pona
tpi - Tok Pisin
tr - Turkish
tru - Turoyo
trv - Taroko
ts - Tsonga
tt - Tatar
tt-cyrl - Tatar (Cyrillic script)
tt-latn - Tatar (Latin script)
ttj - Tooro
tum - Tumbuka
tw - Twi
ty - Tahitian
tyv - Tuvinian
tzm - Central Atlas Tamazight
udm - Udmurt
ug - Uyghur
ug-arab - Uyghur (Arabic script)
ug-latn - Uyghur (Latin script)
uk - Ukrainian
ur - Urdu
uz - Uzbek
uz-cyrl - Uzbek (Cyrillic script)
uz-latn - Uzbek (Latin script)
ve - Venda
vec - Venetian
vep - Veps
vi - Vietnamese
vls - West Flemish
vmf - Main-Franconian
vmw - Makhuwa
vo - Volapük
vot - Votic
vro - Võro
wa - Walloon
wal - Wolaytta
war - Waray
wls - Wallisian
wo - Wolof
wuu - Wu
wuu-hans - Wu (Simplified Han script)
wuu-hant - Wu (Traditional Han script)
xal - Kalmyk
xh - Xhosa
xmf - Mingrelian
xsy - Saisiyat
yi - Yiddish
yo - Yoruba
yrl - Nheengatu
yue - Cantonese
yue-hans - Cantonese (Simplified Han script)
yue-hant - Cantonese (Traditional Han script)
za - Zhuang
zea - Zeelandic
zgh - Standard Moroccan Tamazight
zgh-latn - tamaziɣt tanawayt
zh - Chinese
zh-cn - Chinese (China)
zh-hans - Simplified Chinese
zh-hant - Traditional Chinese
zh-hk - Chinese (Hong Kong)
zh-mo - Chinese (Macau)
zh-my - Chinese (Malaysia)
zh-sg - Chinese (Singapore)
zh-tw - Chinese (Taiwan)
zu - Zulu
Format
Export for off-line translation
Export in native format
Export in CSV format
Fetch
{{DISPLAYTITLE:Andere corpora}}<languages/> ==CLiPS Stylometry Investigation (CSI) Corpus== Het CSI-corpus is een jaarlijks uitgebreid corpus van studententeksten in twee genres: essays en reviews. Het doel van dit corpus is vooral stylometrisch onderzoek, maar andere toepassingen zijn ook mogelijk. Er is een grote hoeveelheid metadata beschikbaar, zowel over de auteur (gender, leeftijd, seksuele oriëntatie, regio van herkomst, persoonlijkheidsprofiel), als ook over het document (tijdsvermelding, genre, waarheidsgetrouwheid, sentiment, cijfer). De huidige versie van het corpus is samengesteld in februari 2016. Eerdere versies van het corpus zijn per e-mail op te vragen bij de auteurs. * [https://zenodo.org/record/4639616#.Ya4sX9DMLZR Downloadpagina] ==CONDIV-corpus== Het CONDIV-corpus is een elektronisch toegankelijke, regionaal, stilistisch en diachroon gecontroleerde materiaalverzameling van ongeveer 47.000.000 woorden geschreven Nederlands, die speciaal ten behoeve van het CONDIV-project ontwikkeld werd. Om toegang te krijgen tot de data, dient u contact op te nemen met [https://www.kuleuven.be/wieiswie/nl/person/00013279 Dirk Speelman van de KU Leuven] * [https://neon.niederlandistik.fu-berlin.de/static/digitaal/digitaal-11.html Corpuswebsite] ==COREA-coreferentiecorpus== Het COREA-coreferentiecorpus (circa 150.000 woorden) bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn. De teksten bestaan uit krantenartikelen (D-Coi), getranscribeerde spraak (CGN) en lemma's uit de Spectrum (Winkler Prins) Medische Encyclopedie. *Versie 1.0.1 (2014) *[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/corea_lrec08_en.pdf Paper] *[http://hdl.handle.net/10032/tm-a2-f9 Downloadpagina] ==D-Tuna-corpus== Het D-TUNA-corpus bestaat uit 2.400 geschreven en (getranscribeerde) gesproken referentiële expressies. De semantische annotatie van alle expressies (xml-formaat) maakt het corpus bruikbaar als input voor taalgeneratiesystemen. De samenstelling van het D-TUNA-corpus is geïnspireerd op het Engelse TUNA Corpus. *versie 1.0 (2009) *[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/dtuna_documentatie_en.pdf Paper] *[http://hdl.handle.net/10032/tm-a2-k5 Downloadpagina] ==DBRD== De DBRD (uitgesproken als 'dee-bird') dataset bevat meer dan 110.000 boekreviews, waarvan 22.000 met bijbehorende binaire sentimentpolariteitslabels. De dataset is bedoeld als een benchmark voor sentimentclassificatie in het Nederlands. De dataset kan worden gebruikt om een model te trainen voor sequentiemodellering, in het specifiek taalmodellering en daarnaast kan de data worden gebruikt om een model te trainen voor tekstclassificatie, in het bijzonder sentimentclassificatie, met gebruik van de aangeboden positieve/negatieve sentimentpolariteitslabels. *[https://benjaminvdb.github.io/DBRD/ Homepagina] *[https://github.com/benjaminvdb/DBRD GitHub] ==deLearyous== De deLearyous dataset is een Nederlands (Vlaamse) dataset voor emotieclassificatie volgens het framework van Leary's Rose, beter bekend als het Interpersonal Circumplex. De dataset bestaat uit 11 gesprekken die zijn geannoteerd op zinsniveau met hun positie op Leary's Rose, in functie van de twee kenmerkende dimensies: 'dominantie', en 'affiniteit'. * [https://zenodo.org/record/4643731#.YgKUSurMLZR Downloadpagina] ==Dutch Idiom Database: Native Speakers (DID-NS)== Een database met beoordelingen van 390 moedertaalsprekers van 374 Nederlandse uitdrukkingen. In een online onderzoek hebben de deelnemers de idiomatsche uitdrukkingen beoordeeld op een aantal aspecten: frequentie, gebruik, bekendheid, voorstelbaarheid en transparantie. Ook is onderzocht of ze de juiste betekenis van de uitdrukkingen kenden. * Versie 1.0 (2018) *[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/Methodology.pdf Methodologie] *[http://hdl.handle.net/10032/tm-a2-r7 Downloadpagina] ==NAMES Corpus == Het NAMES Corpus bevat een verzameling van 189.707 voornamen (61,9 miljoen tokens) en 562.676 achternamen (54,6 miljoen tokens) zoals gevonden in 19de-eeuwse geboorte-, huwelijks- en overlijdensakten (toegankelijk via wiewaswie.nl in de versie van 2011). Het is een resultaat van het CLARIAH-project 'NAMES' dat als doel had naamstandaarden te ontwikkelen voor het beheersen van variaties in persoonsnamen. De clustering van namen onder een standaard is gebaseerd op bestaande kennis van varianten en op spellingsovereenkomst. Er is gebruikgemaakt van zowel automatische als handmatige gegevensverwerking. Praktische bruikbaarheid van een standaard (met verschillende kwaliteitsniveaus) had de voorkeur boven een etymologisch verantwoorde afleiding die vaak niet te maken is. * Versie 1.1 (2020) *[http://hdl.handle.net/10032/tm-a2-r6 Downloadpagina] *[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/NAMES-corpus-1.1-manual.pdf Documentatie] ==Personae Corpus== Het Personae-corpus is verzameld voor experimenten i.v.m. auteurschaptoekenning en persoonlijkheidsvoorspelling. Het bestaat uit 145 Nederlandstalige essays, geschreven door 145 verschillende studenten (BA in taalkunde en literatuur aan de Universiteit van Antwerpen, België). Elke student deed ook een online MBTI-persoonlijkheidstest, wat persoonlijkheidsvoorspellingsexperimenten mogelijk maakt. Het corpus is gecontroleerd op onderwerp, register, genre, leeftijd, en opleidingsniveau. De originele teksten, een syntactisch geannoteerde versie van de teksten en de metadata zijn beschikbaar. *[https://zenodo.org/record/4643756#.Yl6GBehBzZQ Downloadpagina] ==JASMIN-BLISS-Negation== Een corpusvoorbeeld van Nederlandse mens-machinedialogen, geannoteerde met ontkenningssignalen. *[https://github.com/LanguageMachines/JASMIN-BLISS-Negation Webpagina] == Multimodal ABEA == Multimodale dataset die kan worden gebruikt binnen de context van aspectgebaseerde sentiment-en emotieherkenning. De dataset bestaat uit 4.900 opmerkingen op 175 afbeeldingen op de Adidas Instagram-pagina en is geannoteerd met zowel aspect als emotielabels. *[https://lt3.ugent.be/resources/multimodal-abea/ Informatiepagina] *[https://lt3.ugent.be/media/uploads/tools/Dataset.zip Download] ==MFAQ (Multilingual corpus of Frequently Asked Questions)== Geparseerd van de [https://commoncrawl.org/ Common Crawl]. Het corpus bevat zes miljoen paren van vragen en antwoorden in 21 verschillende talen. *[https://huggingface.co/datasets/clips/mfaq Downloadpagina] *[https://aclanthology.org/2021.mrqa-1.1 Paper] ==VaccinChatNL== Een Belgisch-Nederlandse FAQ-dataset op het gebied van COVID-19-vaccinaties in Vlaanderen. Het bestaat uit 12.833 gebruikersvragen, verdeeld over 181 antwoordlabels, waardoor grote groepen semantisch equivalente parafrases ontstaan (een veel-op-één mapping van gebruikersvragen naar antwoordlabels). VaccinChatNL is de eerste Nederlandse Dutch FAQ-dataset van deze grootte. *[https://huggingface.co/datasets/clips/VaccinChatNL Downloadpagina] *[https://aclanthology.org/2022.coling-1.312 Paper] ==MQA (Multilingual corpus of Questions and Answers)== Geparseerd van de [https://commoncrawl.org/ Common Crawl]. Het corpus bestaat uit 234 miljoen paren van vragen en antwoorden in 39 verschillende talen. *[https://huggingface.co/datasets/clips/mqa Webpagina] *[https://aclanthology.org/2021.mrqa-1.1 Paper] ==Dutch Audio Description Corpus== Het Dutch Audio Description-corpus bevat de getranscribeerde teksten van 39 audiobeschreven Nederlandse films en tv-series. In totaal bevat het corpus 154.570 woorden en 3.074 minuten aan video. De data bestaat uit de corpusbestanden (XML-bestanden) van de getranscribeerde audiobeschrijvingen, de multimodale concordantie die is ontwikkeld voor het project en de rauwe data die is geëxtraheerd uit het corpus als onderdeel van het promotieonderzoek dat tijdens het corpus is ontwikkeld. *[https://doi.org/10.5281/zenodo.1035175 Webpagina] *[https://doi.org/10.5281/zenodo.1035175 Paper] ==Named Entity Recognition CoNLL2002== Spaanse en Nederlandse data met named entity labels. De Nederlandse data bestaat uit vier edities van de Belgische krant 'De Morgen' uit 2000 (2 juni, 1 juli, 1 augustus en 1 september). Voor de Nederlandse data heeft de annotator zo goed als mogelijk de MITRE- en SAIC-richtlijnen voor named entity recognition (Chinchor et al.,1999) gevolgd. *[https://huggingface.co/datasets/eriktks/conll2002 CoNLL2002 Dataset] ==CC-100 Corpus== Dit corpus is een poging om de dataset die wordt gebruikt voor het trainen van XLM-R opnieuw te creëren. Dit corpus bestaat uit eentalige data voor 100+ talen en bevat daarnaast data voor geromaniseerde talen (aangegeven door *_rom) *[https://data.statmt.org/cc-100/ Corpus website met downloadlinks per taal] *[https://www.aclweb.org/anthology/2020.acl-main.747 Paperwebpagina] *[https://aclanthology.org/2020.lrec-1.494/ Paperwebpagina] == Dutch Gigacorpus == Met 234GB aan gevarieerde platte tekst, en met maar liefst 40 miljard tokens, is dit in ieder geval het grootste Nederlandse corpus. Het corpus is vrij beschikbaar en de kwaliteit is relatief hoog voor zijn omvang, er is voor gezorgd dat de data zo schoon mogelijk is. Ook bevat het corpus 400 miljoen forumberichten in 10 miljoen threads met hun tijdstempel intact voor taalkundig onderzoek. * [http://gigacorpus.nl/ Projectwebsite] <div lang="en" dir="ltr" class="mw-content-ltr"> == Corpus Juridisch Nederlands == The Corpus Juridisch Nederlands comprises a collection of 5.856 legal texts that could be consulted from the mid-1980s until 1992 as N-Lex, a database of current Dutch legislation. The material has been made available by the Centre for Informatics and Law of the Erasmus University in Rotterdam. </div> <div lang="en" dir="ltr" class="mw-content-ltr"> *[https://corpusjuridischnederlands.ivdnt.org Search online] </div>