Computer-mediated communication corpora/nl: Difference between revisions

From Clarin K-Centre
Jump to navigation Jump to search
(Created page with "Computerondersteunde communicatie corpora")
 
No edit summary
 
(2 intermediate revisions by one other user not shown)
Line 1: Line 1:
<div lang="en" dir="ltr" class="mw-content-ltr">
Computerondersteunde communicatie omvat openbare en private communicatieve handelingen online, zoals posts op blogs en fora, reacties op online nieuwssites, sociale media en netwerksites zoals X en Facebook, mobieletelefoonapplicaties zoals Whatsapp, e-mail en chatrooms.
Computer-mediated communication (CMC) constitutes public and private communication on-line, such as posts on blogs, forums, comments on online news sites, social media and networking sites such as Twitter and Facebook, mobile phone applications such as WhatsApp, e-mail and chat rooms.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Moroccorp==
==Moroccorp==
Moroccorp is a corpus of computer-mediated communication in Dutch by Moroccan-Dutch language users, consisting of ten million words of chat material. The data is delivered in a .txt file of 82.4 Mb.
Moroccorp is een corpus van computerondersteunde communicatie in het Nederlands door Marokkaans-Nederlandse taalgebruikers, bestaand uit tien miljoen woorden aan chatmateriaal. De data wordt geleverd in een .txt bestand van 82.4 Mb.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*versie 1.1
*version 1.1
*data set uit 2019 (versie 1.0 uit 2012)
*data set from 2019 (version 1.0 from 2012)
*82.4 MB
*82.4 MB
*[http://hdl.handle.net/10032/tm-a2-q4 Download page]
*[http://hdl.handle.net/10032/tm-a2-q4 Downloadpagina]
*[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/RuetteVandeVelde_2013final_Moroccorp_corpus_chattaal.pdf Ruette, T. and van de Velde, F. (2013) Moroccorp: tien miljoen woorden uit twee Marokkaans-Nederlandse chatkanalen. Lexikos 23: 456-475.]
*[https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/RuetteVandeVelde_2013final_Moroccorp_corpus_chattaal.pdf Ruette, T. and van de Velde, F. (2013) Moroccorp: tien miljoen woorden uit twee Marokkaans-Nederlandse chatkanalen. Lexikos 23: 456-475.]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==SoNaR Nieuwe Media Corpus==
==SoNaR Nieuwe Media Corpus==
The SoNaR New Media Corpus 1.0 contains new media texts collected within the STEVIN project SoNaR. The corpus contains text messages, tweets and chat messages. The texts were tokenized, POS-tagged and lemmatized.
Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* versie 1.0
* version 1.0
* data set uit 2013
* data set from 2013
* 3.50 MB
* 3.50 MB
* [http://hdl.handle.net/10032/tm-a2-k3 Download page]
* [http://hdl.handle.net/10032/tm-a2-k3 Downloadpagina]
</div>

Latest revision as of 18:15, 25 March 2024

Computerondersteunde communicatie omvat openbare en private communicatieve handelingen online, zoals posts op blogs en fora, reacties op online nieuwssites, sociale media en netwerksites zoals X en Facebook, mobieletelefoonapplicaties zoals Whatsapp, e-mail en chatrooms.

Moroccorp

Moroccorp is een corpus van computerondersteunde communicatie in het Nederlands door Marokkaans-Nederlandse taalgebruikers, bestaand uit tien miljoen woorden aan chatmateriaal. De data wordt geleverd in een .txt bestand van 82.4 Mb.

SoNaR Nieuwe Media Corpus

Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd.