L2 learner corpora/nl: Difference between revisions

From Clarin K-Centre
Jump to navigation Jump to search
No edit summary
(Created page with "*36 KB *versie 1.0 (2020) *[http://hdl.handle.net/10032/tm-a2-m5 Download pagina]")
Line 10: Line 10:
*[http://hdl.handle.net/10032/tm-a2-s3 Download pagina]
*[http://hdl.handle.net/10032/tm-a2-s3 Download pagina]


<div lang="en" dir="ltr" class="mw-content-ltr">
==Meertalige Ondertiteldata 2BDutch==
==Meertalige Ondertiteldata 2BDutch==
This product consists of the subtitle data belonging to the Dutch videos on the website www.2BDutch.nl. The 2BDutch website contains videos with subtitle options in various languages. With these videos, students of all levels of Dutch can practice their listening skills and learn new Dutch words. The subtitle data belonging to these videos can also be used for various language and speech technology applications including automatic translation and automatic speech recognition.
Dit product bestaat uit de ondertiteldata die toebehoort aan de Nederlandse video's op de website www.2BDutch.nl. The 2BDutch website bevat video's met ondertitelopties in verscheidene talen. Met deze video's kunnen studenten van alle niveaus Nederlands hun luistervaardigheden oefenen en nieuwe Nederlandse woorden leren kennen. De ondertiteldata die aan deze video's toebehoort kan ook worden gebruikt voor allerlei technologische applicaties van taal en spraak zoals automatische vertaling en automatische spraakherkenning.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*36 KB
*36 KB
*version 1.0 (2020)
*versie 1.0 (2020)
*[http://hdl.handle.net/10032/tm-a2-m5 Download page]
*[http://hdl.handle.net/10032/tm-a2-m5 Download pagina]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<div lang="en" dir="ltr" class="mw-content-ltr">

Revision as of 13:31, 14 March 2024

Tweedetaalleerders corpora spelen een cruciale rol in het onderzoek naar het leren en onderwijzen van een tweede taal. Deze corpora maken het mogelijk om systematisch te onderzoeken hoe een tweedetaalleerder de nieuwe taal tot zich neemt op zowel lexicaal als syntactisch niveau en hoe dit wordt beïnvloed door zijn of haar moedertaal. Een karakteristieke eigenschap van dit type corpora zijn de opmaak van fouten en prosodische eigenschappen van de tweedetaalleerders. Voor meer informatie en bronnen, bezoek hetCLARIN Knowledge Center for Learner Corpora

Corpus Ondertitelde UVN-Colleges (COUC)

Dit corpus bevat 57 (2020-07-16) ondertitelde colleges van de Universiteit van Nederland (UVN). Er is ondertiteling toegevoegd aan bestaande video-opnames van colleges van de UVN.

In tegenstelling tot gebruikelijke ondertiteling, is de ondertiteling in dit project een zo goed als 100% letterlijke representatie van hetgeen dat wordt gezegd door de mensen in de opnames. Ze bevatten exacte orthografische transcripties van opeenvolgende woorden en tonen daarmee dus de eigenaardigheden van de gesproken taalmodaliteit, met een gebrek aan de grammaticale coherentie die kenmerkend is voor geschreven teksten. De transcripties bevatten echter geen losstaande geluiden van de spreker (zoals smakken met de lippen of hoesten) of aarzelende sneden als 'ehm'. Omwille van de leesbaarheid is er interpunctie toegevoegd.

Meertalige Ondertiteldata 2BDutch

Dit product bestaat uit de ondertiteldata die toebehoort aan de Nederlandse video's op de website www.2BDutch.nl. The 2BDutch website bevat video's met ondertitelopties in verscheidene talen. Met deze video's kunnen studenten van alle niveaus Nederlands hun luistervaardigheden oefenen en nieuwe Nederlandse woorden leren kennen. De ondertiteldata die aan deze video's toebehoort kan ook worden gebruikt voor allerlei technologische applicaties van taal en spraak zoals automatische vertaling en automatische spraakherkenning.

Multilingual Traditional Immersion and Native Corpus

MulTINCo includes spoken and (longitudinal) written data collected from French-speaking learners of Dutch and English as a second language (L2) in different educational settings (CLIL and traditional L2 classes). The database contains numerous background variables, as well as written productions in the learners’ first language (L1) (viz. French) and productions from native speakers of the learners’ L2 (viz. L1 Dutch and L1 English data).

Modern Times

Narrations based on an extract from Modern Times (Ch. Chaplin 1934 or 36) by native speakers and learners of Dutch and French.

Leerdercorpus Nederlands

Varied collection of writing tasks for learners of Belgian Dutch of different levels. The corpus consists of approx. 775.000 words and the texts were written in the periode 1998-2007.

LeCoNTra

LeCoNTra is a learner corpus consisting of English-to-Dutch news translations enriched with translation process data. Three students of a Master’s programme in Translation were asked to translate 50 different English journalistic texts of approximately 250 tokens each. Because we also collected translation process data in the form of keystroke logging, our dataset can be used as part of different research strands such as translation process research, learner corpus research, and corpus-based translation studies. Reference translations, without process data, are also included. The data has been manually segmented and tokenized, and manually aligned at both segment and word level, leading to a high-quality corpus with token-level process data.