Social media corpora/nl: Difference between revisions

Latest revision as of 11:05, 26 March 2024

DALC Dutch Abusive Language Corpus

The Dutch Abusive Language Corpus v1.0 (DALC v1.0)

Github
Website
Publicatie: Caselli, Tommaso, Schelhaas, Arjan, Weultjes, Marieke, Leistra, Folkert, van der Veen, Hylke, Timmerman, Gerben and Nissim, Malvina (2021). DALC: the Dutch Abusive Language Corpus. Handelingen van de 5e Workshop on Online Abuse and Harms (WOAH). Association for Computational Linguistics (ACL).

SoNaR Nieuwe Media Corpus

Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd.

Downloadpagina

Whatsappcorpus Verheijen

Whatsappdata verzameld voor het promotieonderzoek van Lieke Verheijen (Radboud Universiteit). Geïnformeerde toestemming werd alleen verleend door de deelnemer aan het onderzoek en niet door de gesprekspartner. Als een gevolg daarvan bevat het subcorpus enkel bijdragen van de zender.

Projectwebsite

TwiSty Author Profiling Corpus

TwiSty is een corpus dat is ontwikkeld voor onderzoek naar auteursprofilering. Het bevat persoonlijkheids- en genderannotaties voor in totaal 18.168 auteurs in zes talen. Het corpus verspreidt de Twitter-id's van deze auteurs, alsook de id's van hun beschikbare tweets ten tijde van de ontwikkeling van het corpus. De tweets hebben taalidentificatie ondergaan en kunnen worden teruggevonden in een Bevestigd (als behorend bij de taal waarin de auteur zich bevindt) en Andere categorie.

@@ Line 1: / Line 1: @@
-<div lang="en" dir="ltr" class="mw-content-ltr">
 ==DALC Dutch Abusive Language Corpus==
 The Dutch Abusive Language Corpus v1.0 (DALC v1.0)
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 * [https://github.com/tommasoc80/DALC Github]
 * [https://dataverse.nl/dataset.xhtml?persistentId=doi%3A10.34894%2FHOINL3 Website]
-* Publication: '''Caselli, Tommaso, Schelhaas, Arjan, Weultjes, Marieke, Leistra, Folkert, van der Veen, Hylke, Timmerman, Gerben and Nissim, Malvina''' (2021). [https://aclanthology.org/2021.woah-1.6/ DALC: the Dutch Abusive Language Corpus.] Proceedings of the 5th Workshop on Online Abuse and Harms (WOAH). Association for Computational Linguistics
+* Publicatie: '''Caselli, Tommaso, Schelhaas, Arjan, Weultjes, Marieke, Leistra, Folkert, van der Veen, Hylke, Timmerman, Gerben and Nissim, Malvina''' (2021). [https://aclanthology.org/2021.woah-1.6/ DALC: the Dutch Abusive Language Corpus.] Handelingen van de 5e Workshop on Online Abuse and Harms (WOAH). Association for Computational Linguistics (ACL).
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+==SoNaR Nieuwe Media Corpus==
-==SoNaR New Media Corpus==
+Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd.
-The SoNaR New Media Corpus 1.0 contains new media texts collected within the STEVIN project SoNaR. The corpus contains text messages, tweets and chat messages. The texts were tokenized, POS-tagged and lemmatized.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+* [http://hdl.handle.net/10032/tm-a2-k3 Downloadpagina]
-* [http://hdl.handle.net/10032/tm-a2-k3 Download page]
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+==Whatsappcorpus Verheijen==
-==Whatsapp corpus Verheijen==
+Whatsappdata verzameld voor het promotieonderzoek van Lieke Verheijen (Radboud Universiteit). Geïnformeerde toestemming werd alleen verleend door de deelnemer aan het onderzoek en niet door de gesprekspartner. Als een gevolg daarvan bevat het subcorpus enkel bijdragen van de zender.
-Whatsappdata collected for the PhD research of Lieke Verheijen (Radboud University). Informed consent was only obtained from the contributor and not from the conversational partner. Consequently, the subcorpus only contains contributions from the submitter.
+* [https://easy.dans.knaw.nl/ui/datasets/id/easy-dataset:112987 Projectwebsite]
-* [https://easy.dans.knaw.nl/ui/datasets/id/easy-dataset:112987 Project website]
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 ==TwiSty Author Profiling Corpus==
-TwiSty is a corpus developed for research in author profiling. It contains personality (MBTI) and gender annotations for a total of 18,168 authors spanning six languages. We distribute the Twitter ids of these authors as well as the ids of their available tweets at the time of corpus development. The tweets have undergone language identification and can be found in a Confirmed (as belonging to the language in which the author is situated) and Other category.
+TwiSty is een corpus dat is ontwikkeld voor onderzoek naar auteursprofilering. Het bevat persoonlijkheids- en genderannotaties voor in totaal 18.168 auteurs in zes talen. Het corpus verspreidt de Twitter-id's van deze auteurs, alsook de id's van hun beschikbare tweets ten tijde van de ontwikkeling van het corpus. De tweets hebben taalidentificatie ondergaan en kunnen worden teruggevonden in een Bevestigd (als behorend bij de taal waarin de auteur zich bevindt) en Andere categorie.
-</div>
 *[https://www.uantwerpen.be/en/research-groups/clips/research/datasets/ Webpage]
 *[https://aclanthology.org/L16-1258/ Paper]