Social media corpora/nl: Difference between revisions
(Created page with "* [http://hdl.handle.net/10032/tm-a2-k3 Download pagina]") |
(Created page with "==SoNaR Nieuwe Media Corpus== Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd.") |
||
Line 11: | Line 11: | ||
* [http://hdl.handle.net/10032/tm-a2-k3 Download pagina] | * [http://hdl.handle.net/10032/tm-a2-k3 Download pagina] | ||
==Whatsapp corpus Verheijen== | ==Whatsapp corpus Verheijen== | ||
Whatsappdata | Whatsappdata verzameld voor het promotieonderzoek van Lieke Verheijen (Radboud Universiteit). Geïnformeerde toestemming werd alleen verleend door de deelnemer aan het onderzoek en niet door de gesprekspartner. Als een gevolg daarvan bevat het subcorpus enkel bijdragen van de zender. | ||
* [https://easy.dans.knaw.nl/ui/datasets/id/easy-dataset:112987 Project website] | * [https://easy.dans.knaw.nl/ui/datasets/id/easy-dataset:112987 Project website] | ||
<div lang="en" dir="ltr" class="mw-content-ltr"> | <div lang="en" dir="ltr" class="mw-content-ltr"> |
Revision as of 09:18, 21 March 2024
DALC Dutch Abusive Language Corpus
The Dutch Abusive Language Corpus v1.0 (DALC v1.0)
- Github
- Website
- Publicatie: Caselli, Tommaso, Schelhaas, Arjan, Weultjes, Marieke, Leistra, Folkert, van der Veen, Hylke, Timmerman, Gerben and Nissim, Malvina (2021). DALC: the Dutch Abusive Language Corpus. Handelingen van de 5e Workshop on Online Abuse and Harms (WOAH). Association for Computational Linguistics (ACL).
SoNaR Nieuwe Media Corpus
Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd.
Whatsapp corpus Verheijen
Whatsappdata verzameld voor het promotieonderzoek van Lieke Verheijen (Radboud Universiteit). Geïnformeerde toestemming werd alleen verleend door de deelnemer aan het onderzoek en niet door de gesprekspartner. Als een gevolg daarvan bevat het subcorpus enkel bijdragen van de zender.
TwiSty Author Profiling Corpus
TwiSty is a corpus developed for research in author profiling. It contains personality (MBTI) and gender annotations for a total of 18,168 authors spanning six languages. We distribute the Twitter ids of these authors as well as the ids of their available tweets at the time of corpus development. The tweets have undergone language identification and can be found in a Confirmed (as belonging to the language in which the author is situated) and Other category.