Social media corpora/nl: Difference between revisions
(Created page with "Sociale media corpora") |
No edit summary |
||
(4 intermediate revisions by one other user not shown) | |||
Line 1: | Line 1: | ||
==DALC Dutch Abusive Language Corpus== | ==DALC Dutch Abusive Language Corpus== | ||
The Dutch Abusive Language Corpus v1.0 (DALC v1.0) | The Dutch Abusive Language Corpus v1.0 (DALC v1.0) | ||
* [https://github.com/tommasoc80/DALC Github] | * [https://github.com/tommasoc80/DALC Github] | ||
* [https://dataverse.nl/dataset.xhtml?persistentId=doi%3A10.34894%2FHOINL3 Website] | * [https://dataverse.nl/dataset.xhtml?persistentId=doi%3A10.34894%2FHOINL3 Website] | ||
* | * Publicatie: '''Caselli, Tommaso, Schelhaas, Arjan, Weultjes, Marieke, Leistra, Folkert, van der Veen, Hylke, Timmerman, Gerben and Nissim, Malvina''' (2021). [https://aclanthology.org/2021.woah-1.6/ DALC: the Dutch Abusive Language Corpus.] Handelingen van de 5e Workshop on Online Abuse and Harms (WOAH). Association for Computational Linguistics (ACL). | ||
==SoNaR Nieuwe Media Corpus== | |||
==SoNaR | Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. | ||
* [http://hdl.handle.net/10032/tm-a2-k3 Downloadpagina] | |||
* [http://hdl.handle.net/10032/tm-a2-k3 | |||
==Whatsappcorpus Verheijen== | |||
= | Whatsappdata verzameld voor het promotieonderzoek van Lieke Verheijen (Radboud Universiteit). Geïnformeerde toestemming werd alleen verleend door de deelnemer aan het onderzoek en niet door de gesprekspartner. Als een gevolg daarvan bevat het subcorpus enkel bijdragen van de zender. | ||
Whatsappdata | * [https://easy.dans.knaw.nl/ui/datasets/id/easy-dataset:112987 Projectwebsite] | ||
* [https://easy.dans.knaw.nl/ui/datasets/id/easy-dataset:112987 | |||
==TwiSty Author Profiling Corpus== | ==TwiSty Author Profiling Corpus== | ||
TwiSty is | TwiSty is een corpus dat is ontwikkeld voor onderzoek naar auteursprofilering. Het bevat persoonlijkheids- en genderannotaties voor in totaal 18.168 auteurs in zes talen. Het corpus verspreidt de Twitter-id's van deze auteurs, alsook de id's van hun beschikbare tweets ten tijde van de ontwikkeling van het corpus. De tweets hebben taalidentificatie ondergaan en kunnen worden teruggevonden in een Bevestigd (als behorend bij de taal waarin de auteur zich bevindt) en Andere categorie. | ||
*[https://www.uantwerpen.be/en/research-groups/clips/research/datasets/ Webpage] | *[https://www.uantwerpen.be/en/research-groups/clips/research/datasets/ Webpage] | ||
*[https://aclanthology.org/L16-1258/ Paper] | *[https://aclanthology.org/L16-1258/ Paper] |
Latest revision as of 11:05, 26 March 2024
DALC Dutch Abusive Language Corpus
The Dutch Abusive Language Corpus v1.0 (DALC v1.0)
- Github
- Website
- Publicatie: Caselli, Tommaso, Schelhaas, Arjan, Weultjes, Marieke, Leistra, Folkert, van der Veen, Hylke, Timmerman, Gerben and Nissim, Malvina (2021). DALC: the Dutch Abusive Language Corpus. Handelingen van de 5e Workshop on Online Abuse and Harms (WOAH). Association for Computational Linguistics (ACL).
SoNaR Nieuwe Media Corpus
Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd.
Whatsappcorpus Verheijen
Whatsappdata verzameld voor het promotieonderzoek van Lieke Verheijen (Radboud Universiteit). Geïnformeerde toestemming werd alleen verleend door de deelnemer aan het onderzoek en niet door de gesprekspartner. Als een gevolg daarvan bevat het subcorpus enkel bijdragen van de zender.
TwiSty Author Profiling Corpus
TwiSty is een corpus dat is ontwikkeld voor onderzoek naar auteursprofilering. Het bevat persoonlijkheids- en genderannotaties voor in totaal 18.168 auteurs in zes talen. Het corpus verspreidt de Twitter-id's van deze auteurs, alsook de id's van hun beschikbare tweets ten tijde van de ontwikkeling van het corpus. De tweets hebben taalidentificatie ondergaan en kunnen worden teruggevonden in een Bevestigd (als behorend bij de taal waarin de auteur zich bevindt) en Andere categorie.