Other corpora/nl: Difference between revisions

From Clarin K-Centre
Jump to navigation Jump to search
(Created page with "==DBRD== De DBRD (uitgesproken als 'dee-bird') dataset bevat meer dan 110.000 boekreviews, waarvan 22.000 met bijbehorende binaire sentiment polariteitslabels. Het is bedoeld als een benchmark voor sentimentclassificatie in het Nederlands. De dataset kan worden gebruikt om een model te trainen voor sequentiemodellering, in het specifiek taalmodellering. Daarnaast kan het worden gebruikt om een model te trainen voor tekstclassificatie, in het specifiek sentimentclassifica...")
No edit summary
 
(11 intermediate revisions by one other user not shown)
Line 2: Line 2:
Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd. Het corpus bevat 13,5 miljoen tokens, waarvan 11,5 miljoen woorden. De tokens komen voor ongeveer 40% uit educatieve materialen, 40% uit kinderliteratuur en 20% uit media.
Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd. Het corpus bevat 13,5 miljoen tokens, waarvan 11,5 miljoen woorden. De tokens komen voor ongeveer 40% uit educatieve materialen, 40% uit kinderliteratuur en 20% uit media.


*versie 1.0 (2015)
* versie 1.0 (2015)
* [https://www.clinjournal.org/index.php/clinj/article/view/50 Tellings, A., Hulsbosch, M., Vermeer, A. & van den Bosch, A. (2015). BasiLex: an 11.5-million words corpus of Dutch texts written for children. Computational Linguistics in the Netherlands Journal 4, 191-208]
* [https://www.clinjournal.org/index.php/clinj/article/view/50 Tellings, A., Hulsbosch, M., Vermeer, A. & van den Bosch, A. (2015). BasiLex: an 11.5-million words corpus of Dutch texts written for children. Computational Linguistics in the Netherlands Journal 4, 191-208]
*[http://hdl.handle.net/10032/tm-a2-n4 Download pagina]
*[http://hdl.handle.net/10032/tm-a2-n4 Downloadpagina]


==BasiScript-corpus==
==BasiScript-corpus==
BasiScript is een corpus met 9 miljoen woorden geschreven tekst geproduceerd door leerlingen van de Nederlandse basisschool.
BasiScript is een corpus met 9 miljoen woorden geschreven tekst geproduceerd door leerlingen van de Nederlandse basisschool.


* versie 1.0 (2015)
* Versie 1.0 (2015)
* [https://www.narcis.nl/research/RecordID/OND1347377 Project pagina]
* [https://www.narcis.nl/research/RecordID/OND1347377 Projectpagina]
* [http://hdl.handle.net/10032/tm-a2-p2 Download pagina]
* [http://hdl.handle.net/10032/tm-a2-p2 Downloadpagina]


==CLiPS Stylometry Investigation (CSI) Corpus==
==CLiPS Stylometry Investigation (CSI) Corpus==


Het CSI-corpus is een jaarlijks uitgebreid corpus van studententeksten in twee genres: essays en reviews. Het doel van dit corpus bevindt zich met name in onderzoek naar stylometrie, maar andere toepassingen zijn ook mogelijk. Er is een uitgebreide hoeveelheid metadata beschikbaar, zowel over de auteur (gender, leeftijd, seksuele oriëntatie, regio van oorsprong, persoonlijkheidsprofiel), als ook over het document (tijdsvermelding, genre, echtheid, sentiment, cijfer). De huidige versie van het corpus is samengesteld in februari 2016. Eerdere versies van het corpus zijn verkrijgbaar bij de auteurs via emailaanvraag.
Het CSI-corpus is een jaarlijks uitgebreid corpus van studententeksten in twee genres: essays en reviews. Het doel van dit corpus is vooral stylometrisch onderzoek, maar andere toepassingen zijn ook mogelijk. Er is een grote hoeveelheid metadata beschikbaar, zowel over de auteur (gender, leeftijd, seksuele oriëntatie, regio van herkomst, persoonlijkheidsprofiel), als ook over het document (tijdsvermelding, genre, waarheidsgetrouwheid, sentiment, cijfer). De huidige versie van het corpus is samengesteld in februari 2016. Eerdere versies van het corpus zijn per e-mail op te vragen bij de auteurs.


* [https://zenodo.org/record/4639616#.Ya4sX9DMLZR Download pagina]
* [https://zenodo.org/record/4639616#.Ya4sX9DMLZR Downloadpagina]


==CONDIV-corpus==
==CONDIV-corpus==
Het CONDIV-corpus is een elektronisch toegankelijke, regionaal, stilistisch en diachroon gecontroleerde materiaalverzameling van ongeveer 47.000.000 woorden geschreven Nederlands, die speciaal ten behoeve van het CONDIV-project ontwikkeld werd. Om toegang te krijgen tot de data, dient u contact op te nemen met [https://www.kuleuven.be/wieiswie/nl/person/00013279 Dirk Speelman van de KU Leuven]
Het CONDIV-corpus is een elektronisch toegankelijke, regionaal, stilistisch en diachroon gecontroleerde materiaalverzameling van ongeveer 47.000.000 woorden geschreven Nederlands, die speciaal ten behoeve van het CONDIV-project ontwikkeld werd. Om toegang te krijgen tot de data, dient u contact op te nemen met [https://www.kuleuven.be/wieiswie/nl/person/00013279 Dirk Speelman van de KU Leuven]


* [https://neon.niederlandistik.fu-berlin.de/static/digitaal/digitaal-11.html Corpus website]
* [https://neon.niederlandistik.fu-berlin.de/static/digitaal/digitaal-11.html Corpuswebsite]


==COREA-coreferentiecorpus==
==COREA-coreferentiecorpus==
Het COREA-coreferentiecorpus (circa 150.000 woorden) bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn. De teksten bestaan uit krantenartikelen (D-Coi), getranscribeerde spraak (CGN) en lemma's uit de Spectrum (Winkler Prins) Medische Encyclopedie.
Het COREA-coreferentiecorpus (circa 150.000 woorden) bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn. De teksten bestaan uit krantenartikelen (D-Coi), getranscribeerde spraak (CGN) en lemma's uit de Spectrum (Winkler Prins) Medische Encyclopedie.


*versie 1.0.1 (2014)
*Versie 1.0.1 (2014)
*[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/corea_lrec08_en.pdf Paper]
*[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/corea_lrec08_en.pdf Paper]
*[https://corea.tst-centrale.org/ Demo]
*[https://corea.tst-centrale.org/ Demo]
*[http://hdl.handle.net/10032/tm-a2-f9 Download pagina]
*[http://hdl.handle.net/10032/tm-a2-f9 Downloadpagina]


==D-Tuna-corpus==
==D-Tuna-corpus==
Het D-TUNA-corpus bestaat uit 2400 geschreven en (getranscribeerde) gesproken referentiële expressies. De semantische annotatie van alle expressies (xml-formaat) maakt het corpus bruikbaar als input voor taalgeneratiesystemen. De samenstelling van het D-TUNA-corpus is geïnspireerd op het Engelse TUNA Corpus.
Het D-TUNA-corpus bestaat uit 2.400 geschreven en (getranscribeerde) gesproken referentiële expressies. De semantische annotatie van alle expressies (xml-formaat) maakt het corpus bruikbaar als input voor taalgeneratiesystemen. De samenstelling van het D-TUNA-corpus is geïnspireerd op het Engelse TUNA Corpus.


*versie 1.0 (2009)
*versie 1.0 (2009)
*[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/dtuna_documentatie_en.pdf Paper]
*[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/dtuna_documentatie_en.pdf Paper]
*[http://hdl.handle.net/10032/tm-a2-k5 Download pagina]
*[http://hdl.handle.net/10032/tm-a2-k5 Downloadpagina]


==DBRD==
==DBRD==
De DBRD (uitgesproken als 'dee-bird') dataset bevat meer dan 110.000 boekreviews, waarvan 22.000 met bijbehorende binaire sentiment polariteitslabels. Het is bedoeld als een benchmark voor sentimentclassificatie in het Nederlands. De dataset kan worden gebruikt om een model te trainen voor sequentiemodellering, in het specifiek taalmodellering. Daarnaast kan het worden gebruikt om een model te trainen voor tekstclassificatie, in het specifiek sentimentclassificatie, met gebruik van de aangeboden positieve/negatieve sentiment polariteitslabels.
De DBRD (uitgesproken als 'dee-bird') dataset bevat meer dan 110.000 boekreviews, waarvan 22.000 met bijbehorende binaire sentimentpolariteitslabels. De dataset is bedoeld als een benchmark voor sentimentclassificatie in het Nederlands. De dataset kan worden gebruikt om een model te trainen voor sequentiemodellering, in het specifiek taalmodellering en daarnaast kan de data worden gebruikt om een model te trainen voor tekstclassificatie, in het bijzonder sentimentclassificatie, met gebruik van de aangeboden positieve/negatieve sentimentpolariteitslabels.


*[https://benjaminvdb.github.io/DBRD/ Homepagina]
*[https://benjaminvdb.github.io/DBRD/ Homepagina]
*[https://github.com/benjaminvdb/DBRD GitHub]
*[https://github.com/benjaminvdb/DBRD GitHub]


<div lang="en" dir="ltr" class="mw-content-ltr">
== Dutch Audio Description Corpus ==
== Dutch Audio Description Corpus ==
The Dutch Audio Description corpus includes the transcribed texts of 39 audio described Dutch films and TV series, in total 154,570 words and 3,074 minutes of video. This Dutch AD corpus was used to extract a series of quantitative data regarding the language of AD, namely frequency counts of parts of speech, words, lemmas, collocations and the calculation of other relevant text statistics such as reading speed, word and sentence length, text readability and type token ratios (a statistical measure reflecting lexical variety).
Het Dutch Audio Description-corpus bevat de getranscribeerde teksten van 39 audiobeschreven Nederlandse films en tv-series. In totaal bevat het corpus 154.570 woorden en 3.074 minuten aan video. Het is gebruikt om een reeks kwantitatieve gegevens over de taal van AD te extraheren, nl. frequentietellingen van delen van spraak, woorden, lemma, collocaties en de berekening van andere relevante tekststatistieken zoals leessnelheid, woord-en zinslengte, leesbaarheid en type-tokenratio's (een statistische maat die de lexicale variëteit weergeeft).  
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* [https://zenodo.org/record/1035175#.YfP7IerMLZR Downloadpagina]
* [https://zenodo.org/record/1035175#.YfP7IerMLZR Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==deLearyous==
==deLearyous==
The deLearyous dataset is a Dutch (Flemish) dataset for emotion classification following the framework of Leary's Rose, also known as the Interpersonal Circumplex. The dataset contains 11 conversations that were annotated on the sentence level with their position on Leary's Rose, in function of the two defining dimensions: "dominance", and "affinity".
De deLearyous dataset is een Nederlands (Vlaamse) dataset voor emotieclassificatie volgens het framework van Leary's Rose, beter bekend als het Interpersonal Circumplex. De dataset bestaat uit 11 gesprekken die zijn geannoteerd op zinsniveau met hun positie op Leary's Rose, in functie van de twee kenmerkende dimensies: 'dominantie', en 'affiniteit'.  
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* [https://zenodo.org/record/4643731#.YgKUSurMLZR Downloadpagina]
* [https://zenodo.org/record/4643731#.YgKUSurMLZR Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Dutch Idiom Database: Native Speakers (DID-NS)==
==Dutch Idiom Database: Native Speakers (DID-NS)==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Een database met beoordelingen van 390 moedertaalsprekers van 374 Nederlandse uitdrukkingen. In een online onderzoek hebben de deelnemers de idiomatsche uitdrukkingen beoordeeld op een aantal aspecten: frequentie, gebruik, bekendheid, voorstelbaarheid en transparantie. Ook is onderzocht of ze de juiste betekenis van de uitdrukkingen kenden.
The DID-NS is a database with appreciations by 390 native speakers of 374 Dutch idiomatic expressions.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* Versie 1.0 (2018)
* Version 1.0 (2018)
*[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/Methodology.pdf Methodologie]
*[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/Methodology.pdf Methodology]
*[http://hdl.handle.net/10032/tm-a2-r7 Downloadpagina]
*[http://hdl.handle.net/10032/tm-a2-r7 Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==NAMES Corpus ==
==NAMES Corpus ==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Het NAMES Corpus bevat een verzameling van 189.707 voornamen (61,9 miljoen tokens) en 562.676 achternamen (54,6 miljoen tokens) zoals gevonden in 19de-eeuwse geboorte-, huwelijks- en overlijdensakten (toegankelijk via wiewaswie.nl in de versie van 2011). Het is een resultaat van het CLARIAH-project 'NAMES' dat als doel had naamstandaarden te ontwikkelen voor het beheersen van variaties in persoonsnamen. De clustering van namen onder een standaard is gebaseerd op bestaande kennis van varianten en op spellingsovereenkomst. Er is gebruikgemaakt van zowel automatische als handmatige gegevensverwerking. Praktische bruikbaarheid van een standaard (met verschillende kwaliteitsniveaus) had de voorkeur boven een etymologisch verantwoorde afleiding die vaak niet te maken is.  
The NAMES Corpus is a corpus of Dutch given names and surnames as present in 19th century certificates for birth, marriage and decease. The name variants have been assigned to a standard form.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* Versie 1.1 (2020)
* Version 1.1 (2020)
*[http://hdl.handle.net/10032/tm-a2-r6 Downloadpagina]
*[http://hdl.handle.net/10032/tm-a2-r6 Download page]
*[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/NAMES-corpus-1.1-manual.pdf Documentatie]
*[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/NAMES-corpus-1.1-manual.pdf Documentation]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Personae Corpus==
==Personae Corpus==
The Personae corpus was collected for experiments in Authorship Attribution and Personality Prediction. It consists of 145 Dutch-language essays, written by 145 different students (BA in Linguistics and Literature at the University of Antwerp, Belgium). Each student also took an online MBTI personality test, allowing personality prediction experiments. The corpus was controlled for topic, register, genre, age, and education level. The original texts, a syntactically annotated version of the texts, and the metadata are available.
Het Personae-corpus is verzameld voor experimenten i.v.m. auteurschaptoekenning en persoonlijkheidsvoorspelling. Het bestaat uit 145 Nederlandstalige essays, geschreven door 145 verschillende studenten (BA in taalkunde en literatuur aan de Universiteit van Antwerpen, België). Elke student deed ook een online MBTI-persoonlijkheidstest, wat persoonlijkheidsvoorspellingsexperimenten mogelijk maakt. Het corpus is gecontroleerd op onderwerp, register, genre, leeftijd, en opleidingsniveau. De originele teksten, een syntactisch geannoteerde versie van de teksten en de metadata zijn beschikbaar.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://zenodo.org/record/4643756#.Yl6GBehBzZQ Downloadpagina]
*[https://zenodo.org/record/4643756#.Yl6GBehBzZQ Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==JASMIN-BLISS-Negation==
==JASMIN-BLISS-Negation==
A corpus sample of Dutch human-computer dialogues annotated with negation cues.
Een corpusvoorbeeld van Nederlandse mens-machinedialogen, geannoteerde met ontkenningssignalen.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://github.com/LanguageMachines/JASMIN-BLISS-Negation Webpagina]
*[https://github.com/LanguageMachines/JASMIN-BLISS-Negation Webpage]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
== Multimodal ABEA ==
== Multimodal ABEA ==
Multimodal dataset that can be used in the context of aspect-based sentiment and emotion detection. It consists of 4,900 comments on 175 images from the Adidas Instagram page and is annotated with both aspect and emotion labels.
Multimodale dataset die kan worden gebruikt binnen de context van aspectgebaseerde sentiment-en emotieherkenning. De dataset bestaat uit 4.900 opmerkingen op 175 afbeeldingen op de Adidas Instagram-pagina en is geannoteerd met zowel aspect als emotielabels.  
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://lt3.ugent.be/resources/multimodal-abea/ Informatiepagina]
*[https://lt3.ugent.be/resources/multimodal-abea/ Information page]
*[https://lt3.ugent.be/media/uploads/tools/Dataset.zip Download]
*[https://lt3.ugent.be/media/uploads/tools/Dataset.zip Download]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==MFAQ (Multilingual corpus of Frequently Asked Questions)==
==MFAQ (Multilingual corpus of Frequently Asked Questions)==
Parsed from the [https://commoncrawl.org/ Common Crawl]. The corpus contains 6 million pairs of questions and answers in 21 different languages.
Geparseerd van de [https://commoncrawl.org/ Common Crawl]. Het corpus bevat zes miljoen paren van vragen en antwoorden in 21 verschillende talen.
*[https://www.uantwerpen.be/en/research-groups/clips/research/datasets/ Webpage]
*[https://www.uantwerpen.be/en/research-groups/clips/research/datasets/ Webpagina]
*[https://aclanthology.org/2021.mrqa-1.1 Paper]
*[https://aclanthology.org/2021.mrqa-1.1 Paper]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==VaccinChatNL==
==VaccinChatNL==
A Belgian Dutch FAQ dataset on the topic of COVID-19 vaccinations in Flanders. It consists of 12,833 user questions divided over 181 answer labels, thus providing large groups of semantically equivalent paraphrases (a many-to-one mapping of user questions to answer labels). VaccinChatNL is the first Dutch many-to-one FAQ dataset of this size.
Een Belgisch-Nederlandse FAQ-dataset op het gebied van COVID-19-vaccinaties in Vlaanderen. Het bestaat uit 12.833 gebruikersvragen, verdeeld over 181 antwoordlabels, waardoor grote groepen semantisch equivalente parafrases ontstaan (een veel-op-één mapping van gebruikersvragen naar antwoordlabels). VaccinChatNL is de eerste Nederlandse Dutch FAQ-dataset van deze grootte.
*[https://www.uantwerpen.be/en/research-groups/clips/research/datasets/ Webpage]
*[https://www.uantwerpen.be/en/research-groups/clips/research/datasets/ Webpagina]
*[https://aclanthology.org/2022.coling-1.312 Paper]
*[https://aclanthology.org/2022.coling-1.312 Paper]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==MQA (Multilingual corpus of Questions and Answers)==
==MQA (Multilingual corpus of Questions and Answers)==
Parsed from the [https://commoncrawl.org/ Common Crawl]. The corpus contains 234 million pairs of questions and answers in 39 languages.
Geparseerd van de [https://commoncrawl.org/ Common Crawl]. Het corpus bestaat uit 234 miljoen paren van vragen en antwoorden in 39 verschillende talen.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://huggingface.co/datasets/clips/mqa Webpagina]
*[https://huggingface.co/datasets/clips/mqa Webpage]
*[https://aclanthology.org/2021.mrqa-1.1 Paper]
*[https://aclanthology.org/2021.mrqa-1.1 Paper]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Dutch Audio Description Corpus==
==Dutch Audio Description Corpus==
The Dutch Audio Description corpus includes the transcribed texts of 39 audio described Dutch films and TV series, in total 154,570 words and 3,074 minutes of video. The data include the corpus files (XML-files) of the transcribed audio descriptions, the multimodal concordancer developed for the project and the raw data extracted from the corpus as part of the PHD project during which this corpus was developed.
Het Dutch Audio Description-corpus bevat de getranscribeerde teksten van 39 audiobeschreven Nederlandse films en tv-series. In totaal bevat het corpus 154.570 woorden en 3.074 minuten aan video.  
</div>
De data bestaat uit de corpusbestanden (XML-bestanden) van de getranscribeerde audiobeschrijvingen, de multimodale concordantie die is ontwikkeld voor het project en de rauwe data die is geëxtraheerd uit het corpus als onderdeel van het promotieonderzoek dat tijdens het corpus is ontwikkeld.  


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://doi.org/10.5281/zenodo.1035175 Webpagina]
*[https://doi.org/10.5281/zenodo.1035175 Webpage]
*[https://doi.org/10.5281/zenodo.1035175 Paper]
*[https://doi.org/10.5281/zenodo.1035175 Paper]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Named Entity Recognition CoNLL2002==
==Named Entity Recognition CoNLL2002==
Spanish and Dutch data with named entity labels. The Dutch data consist of four editions of the Belgian newspaper "De Morgen" of 2000 (June 2, July 1, August 1 and September 1). For the Dutch data, the annotator has followed the MITRE and SAIC guidelines for named entity recognition (Chinchor et al., 1999) as well as possible.
Spaanse en Nederlandse data met named entity labels. De Nederlandse data bestaat uit vier edities van de Belgische krant 'De Morgen' uit 2000 (2 juni, 1 juli, 1 augustus en 1 september). Voor de Nederlandse data heeft de annotator zo goed als mogelijk de MITRE- en SAIC-richtlijnen voor named entity recognition (Chinchor et al.,1999) gevolgd.  
*[https://huggingface.co/datasets/conll2002 CoNLL2002 Dataset]
*[https://huggingface.co/datasets/conll2002 CoNLL2002 Dataset]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==CC-100 Corpus==
==CC-100 Corpus==
This corpus is an attempt to recreate the dataset used for training XLM-R. This corpus comprises of monolingual data for 100+ languages and also includes data for romanized languages (indicated by *_rom). This was constructed using the urls and paragraph indices provided by the CC-Net repository by processing January-December 2018 Commoncrawl snapshots. Each file comprises of documents separated by double-newlines and paragraphs within the same document separated by a newline. The data is generated using the open source CC-Net repository. No claims of intellectual property are made on the work of preparation of the corpus. Dutch is one of the languages.
Dit corpus is een poging om de dataset die wordt gebruikt voor het trainen van XLM-R opnieuw te creëren. Dit corpus bestaat uit eentalige data voor 100+ talen en bevat daarnaast data voor geromaniseerde talen (aangegeven door *_rom)
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://data.statmt.org/cc-100/ Corpus website met downloadlinks per taal]
*[https://data.statmt.org/cc-100/ Corpus website with download links per language]
*[https://www.aclweb.org/anthology/2020.acl-main.747 Paperwebpagina]
*[https://www.aclweb.org/anthology/2020.acl-main.747 Paper webpage]
*[https://aclanthology.org/2020.lrec-1.494/ Paperwebpagina]
*[https://aclanthology.org/2020.lrec-1.494/ Paper webpage]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
== Dutch Gigacorpus ==
== Dutch Gigacorpus ==
With 234GB of varied plain text, and no fewer than 40 billion tokens, this is in any case one of the largest Dutch corpora. This corpus is also freely available and the quality is relatively high for its size, care has been taken to ensure that the data is as clean as possible. Also, the corpus contains 400 million forum posts in 10 million threads with their timestamp intact for linguistic research.
Met 234GB aan gevarieerde platte tekst, en met maar liefst 40 miljard tokens, is dit in ieder geval het grootste Nederlandse corpus. Het corpus is vrij beschikbaar en de kwaliteit is relatief hoog voor zijn omvang, er is voor gezorgd dat de data zo schoon mogelijk is. Ook bevat het corpus 400 miljoen forumberichten in 10 miljoen threads met hun tijdstempel intact voor taalkundig onderzoek.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* [http://gigacorpus.nl/ Projectwebsite]
* [http://gigacorpus.nl/ Project website]
*
</div>

Latest revision as of 11:46, 26 March 2024

BasiLex-corpus

Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd. Het corpus bevat 13,5 miljoen tokens, waarvan 11,5 miljoen woorden. De tokens komen voor ongeveer 40% uit educatieve materialen, 40% uit kinderliteratuur en 20% uit media.

BasiScript-corpus

BasiScript is een corpus met 9 miljoen woorden geschreven tekst geproduceerd door leerlingen van de Nederlandse basisschool.

CLiPS Stylometry Investigation (CSI) Corpus

Het CSI-corpus is een jaarlijks uitgebreid corpus van studententeksten in twee genres: essays en reviews. Het doel van dit corpus is vooral stylometrisch onderzoek, maar andere toepassingen zijn ook mogelijk. Er is een grote hoeveelheid metadata beschikbaar, zowel over de auteur (gender, leeftijd, seksuele oriëntatie, regio van herkomst, persoonlijkheidsprofiel), als ook over het document (tijdsvermelding, genre, waarheidsgetrouwheid, sentiment, cijfer). De huidige versie van het corpus is samengesteld in februari 2016. Eerdere versies van het corpus zijn per e-mail op te vragen bij de auteurs.

CONDIV-corpus

Het CONDIV-corpus is een elektronisch toegankelijke, regionaal, stilistisch en diachroon gecontroleerde materiaalverzameling van ongeveer 47.000.000 woorden geschreven Nederlands, die speciaal ten behoeve van het CONDIV-project ontwikkeld werd. Om toegang te krijgen tot de data, dient u contact op te nemen met Dirk Speelman van de KU Leuven

COREA-coreferentiecorpus

Het COREA-coreferentiecorpus (circa 150.000 woorden) bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn. De teksten bestaan uit krantenartikelen (D-Coi), getranscribeerde spraak (CGN) en lemma's uit de Spectrum (Winkler Prins) Medische Encyclopedie.

D-Tuna-corpus

Het D-TUNA-corpus bestaat uit 2.400 geschreven en (getranscribeerde) gesproken referentiële expressies. De semantische annotatie van alle expressies (xml-formaat) maakt het corpus bruikbaar als input voor taalgeneratiesystemen. De samenstelling van het D-TUNA-corpus is geïnspireerd op het Engelse TUNA Corpus.

DBRD

De DBRD (uitgesproken als 'dee-bird') dataset bevat meer dan 110.000 boekreviews, waarvan 22.000 met bijbehorende binaire sentimentpolariteitslabels. De dataset is bedoeld als een benchmark voor sentimentclassificatie in het Nederlands. De dataset kan worden gebruikt om een model te trainen voor sequentiemodellering, in het specifiek taalmodellering en daarnaast kan de data worden gebruikt om een model te trainen voor tekstclassificatie, in het bijzonder sentimentclassificatie, met gebruik van de aangeboden positieve/negatieve sentimentpolariteitslabels.

Dutch Audio Description Corpus

Het Dutch Audio Description-corpus bevat de getranscribeerde teksten van 39 audiobeschreven Nederlandse films en tv-series. In totaal bevat het corpus 154.570 woorden en 3.074 minuten aan video. Het is gebruikt om een reeks kwantitatieve gegevens over de taal van AD te extraheren, nl. frequentietellingen van delen van spraak, woorden, lemma, collocaties en de berekening van andere relevante tekststatistieken zoals leessnelheid, woord-en zinslengte, leesbaarheid en type-tokenratio's (een statistische maat die de lexicale variëteit weergeeft).

deLearyous

De deLearyous dataset is een Nederlands (Vlaamse) dataset voor emotieclassificatie volgens het framework van Leary's Rose, beter bekend als het Interpersonal Circumplex. De dataset bestaat uit 11 gesprekken die zijn geannoteerd op zinsniveau met hun positie op Leary's Rose, in functie van de twee kenmerkende dimensies: 'dominantie', en 'affiniteit'.

Dutch Idiom Database: Native Speakers (DID-NS)

Een database met beoordelingen van 390 moedertaalsprekers van 374 Nederlandse uitdrukkingen. In een online onderzoek hebben de deelnemers de idiomatsche uitdrukkingen beoordeeld op een aantal aspecten: frequentie, gebruik, bekendheid, voorstelbaarheid en transparantie. Ook is onderzocht of ze de juiste betekenis van de uitdrukkingen kenden.

NAMES Corpus

Het NAMES Corpus bevat een verzameling van 189.707 voornamen (61,9 miljoen tokens) en 562.676 achternamen (54,6 miljoen tokens) zoals gevonden in 19de-eeuwse geboorte-, huwelijks- en overlijdensakten (toegankelijk via wiewaswie.nl in de versie van 2011). Het is een resultaat van het CLARIAH-project 'NAMES' dat als doel had naamstandaarden te ontwikkelen voor het beheersen van variaties in persoonsnamen. De clustering van namen onder een standaard is gebaseerd op bestaande kennis van varianten en op spellingsovereenkomst. Er is gebruikgemaakt van zowel automatische als handmatige gegevensverwerking. Praktische bruikbaarheid van een standaard (met verschillende kwaliteitsniveaus) had de voorkeur boven een etymologisch verantwoorde afleiding die vaak niet te maken is.

Personae Corpus

Het Personae-corpus is verzameld voor experimenten i.v.m. auteurschaptoekenning en persoonlijkheidsvoorspelling. Het bestaat uit 145 Nederlandstalige essays, geschreven door 145 verschillende studenten (BA in taalkunde en literatuur aan de Universiteit van Antwerpen, België). Elke student deed ook een online MBTI-persoonlijkheidstest, wat persoonlijkheidsvoorspellingsexperimenten mogelijk maakt. Het corpus is gecontroleerd op onderwerp, register, genre, leeftijd, en opleidingsniveau. De originele teksten, een syntactisch geannoteerde versie van de teksten en de metadata zijn beschikbaar.

JASMIN-BLISS-Negation

Een corpusvoorbeeld van Nederlandse mens-machinedialogen, geannoteerde met ontkenningssignalen.

Multimodal ABEA

Multimodale dataset die kan worden gebruikt binnen de context van aspectgebaseerde sentiment-en emotieherkenning. De dataset bestaat uit 4.900 opmerkingen op 175 afbeeldingen op de Adidas Instagram-pagina en is geannoteerd met zowel aspect als emotielabels.

MFAQ (Multilingual corpus of Frequently Asked Questions)

Geparseerd van de Common Crawl. Het corpus bevat zes miljoen paren van vragen en antwoorden in 21 verschillende talen.

VaccinChatNL

Een Belgisch-Nederlandse FAQ-dataset op het gebied van COVID-19-vaccinaties in Vlaanderen. Het bestaat uit 12.833 gebruikersvragen, verdeeld over 181 antwoordlabels, waardoor grote groepen semantisch equivalente parafrases ontstaan (een veel-op-één mapping van gebruikersvragen naar antwoordlabels). VaccinChatNL is de eerste Nederlandse Dutch FAQ-dataset van deze grootte.

MQA (Multilingual corpus of Questions and Answers)

Geparseerd van de Common Crawl. Het corpus bestaat uit 234 miljoen paren van vragen en antwoorden in 39 verschillende talen.

Dutch Audio Description Corpus

Het Dutch Audio Description-corpus bevat de getranscribeerde teksten van 39 audiobeschreven Nederlandse films en tv-series. In totaal bevat het corpus 154.570 woorden en 3.074 minuten aan video. De data bestaat uit de corpusbestanden (XML-bestanden) van de getranscribeerde audiobeschrijvingen, de multimodale concordantie die is ontwikkeld voor het project en de rauwe data die is geëxtraheerd uit het corpus als onderdeel van het promotieonderzoek dat tijdens het corpus is ontwikkeld.

Named Entity Recognition CoNLL2002

Spaanse en Nederlandse data met named entity labels. De Nederlandse data bestaat uit vier edities van de Belgische krant 'De Morgen' uit 2000 (2 juni, 1 juli, 1 augustus en 1 september). Voor de Nederlandse data heeft de annotator zo goed als mogelijk de MITRE- en SAIC-richtlijnen voor named entity recognition (Chinchor et al.,1999) gevolgd.

CC-100 Corpus

Dit corpus is een poging om de dataset die wordt gebruikt voor het trainen van XLM-R opnieuw te creëren. Dit corpus bestaat uit eentalige data voor 100+ talen en bevat daarnaast data voor geromaniseerde talen (aangegeven door *_rom)

Dutch Gigacorpus

Met 234GB aan gevarieerde platte tekst, en met maar liefst 40 miljard tokens, is dit in ieder geval het grootste Nederlandse corpus. Het corpus is vrij beschikbaar en de kwaliteit is relatief hoog voor zijn omvang, er is voor gezorgd dat de data zo schoon mogelijk is. Ook bevat het corpus 400 miljoen forumberichten in 10 miljoen threads met hun tijdstempel intact voor taalkundig onderzoek.