Other corpora/nl: Revision history

Jump to navigation Jump to search

Diff selection: Mark the radio buttons of the revisions to compare and hit enter or the button at the bottom.
Legend: (cur) = difference with latest revision, (prev) = difference with preceding revision, m = minor edit.

26 March 2024

21 March 2024

  • curprev 13:3713:37, 21 March 2024Floyd talk contribs 10,977 bytes −108 Created page with "* [http://gigacorpus.nl/ Project website] *"
  • curprev 13:3513:35, 21 March 2024Floyd talk contribs 11,085 bytes −542 Created page with "*[https://data.statmt.org/cc-100/ Corpus website met downloadlinks per taal] *[https://www.aclweb.org/anthology/2020.acl-main.747 Paper webpagina] *[https://aclanthology.org/2020.lrec-1.494/ Paper webpagina]"
  • curprev 13:2513:25, 21 March 2024Floyd talk contribs 11,627 bytes −41 Created page with "==Named Entity Recognition CoNLL2002== Spaanse en Nederlandse data met named entity labels. De Nederlandse data bestaat uit vier edities van de Belgische krant 'De Morgen' uit 2000 (2 juni, 1 juli, 1 augustus en 1 september). Voor de Nederlandse data heeft de annotator zo goed als mogelijk de MITRE en SAIC-richtlijnen voor named entity recognition (Chinchor et al.,1999) gevolgd. *[https://huggingface.co/datasets/conll2002 CoNLL2002 Dataset]"
  • curprev 13:2113:21, 21 March 2024Floyd talk contribs 11,668 bytes −34 Created page with "*[https://doi.org/10.5281/zenodo.1035175 Webpagina] *[https://doi.org/10.5281/zenodo.1035175 Paper]"
  • curprev 13:1713:17, 21 March 2024Floyd talk contribs 11,702 bytes −180 Created page with "==MQA (Multilingual corpus of Questions and Answers)== Geparseerd van de [https://commoncrawl.org/ Common Crawl]. Het corpus bestaat uit 234 miljoen paren van vragen en antwoorden in 39 verschillende talen."
  • curprev 13:0913:09, 21 March 2024Floyd talk contribs 11,882 bytes −53 Created page with "Het NAMES Corpus bevat een verzameling van 189.707 voornamen (61,9 miljoen tokens) en 562.676 achternamen (54,6 miljoen tokens) zoals gevonden in 19de-eeuwse geboorte-, huwelijks- en overlijdensakten (toegankelijk via wiewaswie.nl in de versie van 2011). Het is een resultaat van het CLARIAH-project 'NAMES' dat als doel had naamstandaarden te ontwikkelen voor het beheersen van variaties in persoonsnamen. De clustering van namen onder een standaard is gebaseerd op bestaand..."
  • curprev 13:0613:06, 21 March 2024Floyd talk contribs 11,935 bytes −94 Created page with "==JASMIN-BLISS-Negation== Een corpusvoorbeeld van Nederlandse mens-machinedialogen, geannoteerde met ontkenningssignalen."
  • curprev 13:0113:01, 21 March 2024Floyd talk contribs 12,029 bytes −94 Created page with "* Versie 1.1 (2020) *[http://hdl.handle.net/10032/tm-a2-r6 Download pagina] *[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/NAMES-corpus-1.1-manual.pdf Documentatie]"
  • curprev 12:5512:55, 21 March 2024Floyd talk contribs 12,123 bytes −55 Created page with "Een database met beoordelingen van 390 moedertaalsprekers van 374 Nederlandse uitdrukkingen. In een online onderzoek hebben de deelnemers de idiomatsche uitdrukkingen beoordeeld op een aantal aspecten: frequentie, gebruik, bekendheid, voorstelbaarheid en transparantie. Ook is onderzocht of ze de juiste betekenis van de uitdrukkingen kenden."
  • curprev 12:5112:51, 21 March 2024Floyd talk contribs 12,178 bytes +377 Created page with "==deLearyous== De deLearyous dataset is een Nederlands (Vlaamse) dataset voor emotieclassificatie volgens het framework van Leary's Rose, beter bekend als het Interpersonal Circumplex. De dataset bestaat uit 11 gesprekken die zijn geannoteerd op zinsniveau met hun positie op Leary's Rose, in functie van de twee kenmerkende dimensies: 'dominantie', en 'affiniteit'."
  • curprev 12:4112:41, 21 March 2024Floyd talk contribs 11,801 bytes −69 Created page with "== Dutch Audio Description Corpus == Het Dutch Audio Description-corpus bevat de getranscribeerde teksten van 39 audio-beschreven Nederlandse films en tv-series. In totaal bevat het corpus 154.570 woorden en 3.074 minuten aan video. Dit Dutch AD corpus is gebruikt om een reeks kwantitatieve data betreffende de taal van AD te extraheren, nl. frequentietellingen van delen van spraak, woorden, lemma, collocaties en de berekening van andere relevante tekststatistieken zoals..."
  • curprev 12:2812:28, 21 March 2024Floyd talk contribs 11,870 bytes −33 Created page with "==DBRD== De DBRD (uitgesproken als 'dee-bird') dataset bevat meer dan 110.000 boekreviews, waarvan 22.000 met bijbehorende binaire sentiment polariteitslabels. Het is bedoeld als een benchmark voor sentimentclassificatie in het Nederlands. De dataset kan worden gebruikt om een model te trainen voor sequentiemodellering, in het specifiek taalmodellering. Daarnaast kan het worden gebruikt om een model te trainen voor tekstclassificatie, in het specifiek sentimentclassifica..."
  • curprev 11:4411:44, 21 March 2024Floyd talk contribs 11,903 bytes +191 Created page with "==CONDIV-corpus== Het CONDIV-corpus is een elektronisch toegankelijke, regionaal, stilistisch en diachroon gecontroleerde materiaalverzameling van ongeveer 47.000.000 woorden geschreven Nederlands, die speciaal ten behoeve van het CONDIV-project ontwikkeld werd. Om toegang te krijgen tot de data, dient u contact op te nemen met [https://www.kuleuven.be/wieiswie/nl/person/00013279 Dirk Speelman van de KU Leuven]"
  • curprev 11:3511:35, 21 March 2024Floyd talk contribs 11,712 bytes −39 Created page with "* [https://neon.niederlandistik.fu-berlin.de/static/digitaal/digitaal-11.html Corpus website]"
  • curprev 11:3111:31, 21 March 2024FuzzyBot talk contribs 11,751 bytes +1,960 Updating to match new version of source page
  • curprev 11:1011:10, 21 March 2024Floyd talk contribs 9,791 bytes +22 No edit summary
  • curprev 11:0611:06, 21 March 2024Floyd talk contribs 9,769 bytes +19 No edit summary
  • curprev 11:0111:01, 21 March 2024Floyd talk contribs 9,750 bytes −42 Created page with "* [https://zenodo.org/record/4639616#.Ya4sX9DMLZR Download pagina]"
  • curprev 10:5310:53, 21 March 2024Floyd talk contribs 9,792 bytes +9,792 Created page with "* versie 1.0 (2015) * [https://www.narcis.nl/research/RecordID/OND1347377 Project pagina] * [http://hdl.handle.net/10032/tm-a2-p2 Download pagina]"