L2 learner corpora/nl: Difference between revisions

From Clarin K-Centre
Jump to navigation Jump to search
(Created page with "<div lang="en" dir="ltr" class="mw-content-ltr"> L2 learner corpora play a crucial role in second language research and pedagogy, allowing for a systematic study of how a learner of a second language acquires the new language on a lexical as well as syntactic level, and how it is influenced by his or her native language. A special characteristic of this type of corpora are the markup of errors and prosodic features of the learners. For more information and resources, vi...")
 
No edit summary
 
(11 intermediate revisions by 2 users not shown)
Line 1: Line 1:
<div lang="en" dir="ltr" class="mw-content-ltr">
Tweedetaalleerdercorpora spelen een cruciale rol in het onderzoek naar het leren en onderwijzen van een tweede taal. Deze corpora maken het mogelijk om systematisch te onderzoeken hoe een tweedetaalleerder de nieuwe taal tot zich neemt op zowel lexicaal als syntactisch niveau en hoe dit wordt beïnvloed door zijn of haar moedertaal. Een karakteristieke eigenschap van dit type corpora zijn het markeren van fouten en prosodische eigenschappen van de tweedetaalleerders. Voor meer informatie en bronnen, bezoek het [https://uclouvain.be/en/research-institutes/ilc/clarin-knowledge-centre-for-learner-corpora.html '''''CLARIN Knowledge Center for Learner Corpora''''']
L2 learner corpora play a crucial role in second language research and pedagogy, allowing for a systematic study of how a learner of a second language acquires the new language on a lexical as well as syntactic level, and how it is influenced by his or her native language. A special characteristic of this type of corpora are the markup of errors and prosodic features of the learners.  
For more information and resources, visit the [https://uclouvain.be/en/research-institutes/ilc/clarin-knowledge-centre-for-learner-corpora.html '''''CLARIN Knowledge Center for Learner Corpora''''']
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Corpus Ondertitelde UVN-Colleges (COUC)==
==Corpus Ondertitelde UVN-Colleges (COUC)==
This corpus contains 57 (2020-07-16) subtitled lectures from the Universiteit van Nederland (UVN). Subtitles were added to existing video recordings of lectures of the UVN.
Dit corpus bevat 57 (2020-07-16) ondertitelde colleges van de Universiteit van Nederland (UVN). Er is ondertiteling toegevoegd aan bestaande video-opnames van colleges van de UVN.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
In tegenstelling tot gewone ondertitels zijn de ondertitels in dit project een bijna 100% letterlijke weergave van de spraak zoals gesproken door de mensen in de opnames. Ze bevatten exacte orthografische transcripties van opeenvolgende woorden en tonen daarmee dus de eigenaardigheden van de gesproken taalmodaliteit, met een gebrek aan de grammaticale coherentie die kenmerkend is voor geschreven teksten. Aan de andere kant bevatten de transcripties geen sprekergeluiden zoals smakken met de lippen of hoesten, of aarzelende geluiden zoals "ehm". Omwille van de leesbaarheid werden leestekens toegevoegd.
Unlike common subtitles, the subtitles generated in this project are a nearly 100% literal representation of the speech as spoken by the people in the recordings. They contain exact orthographic transcriptions of subsequent words and thus show the peculiarities of the spoken language modality, lacking grammatical coherence typical for written texts.
On the other hand, the transcriptions do not contain speaker noises (such as lip smacks or coughs) nor hesitation sounds as "ehm". For the sake of readability punctuation markers were included.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*22 MB
*22 MB
*version 1.0 (2020)
*versie 1.0 (2020)
*[http://hdl.handle.net/10032/tm-a2-s3 Download page]
*[http://hdl.handle.net/10032/tm-a2-s3 Downloadpagina]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Meertalige Ondertiteldata 2BDutch==
==Meertalige Ondertiteldata 2BDutch==
This product consists of the subtitle data belonging to the Dutch videos on the website www.2BDutch.nl. The 2BDutch website contains videos with subtitle options in various languages. With these videos, students of all levels of Dutch can practice their listening skills and learn new Dutch words. The subtitle data belonging to these videos can also be used for various language and speech technology applications including automatic translation and automatic speech recognition.
Dit product bestaat uit de ondertiteldata die bij de Nederlandse video's op de website www.2BDutch.nl hoort. The 2BDutch-website bevat video's met ondertitelopties in verscheidene talen. Met deze video's kunnen studenten van alle niveaus Nederlands hun luistervaardigheden oefenen en nieuwe Nederlandse woorden leren kennen. De ondertiteldata die bij deze video's hoort kan ook worden gebruikt voor taal- en spraaktechnologische toepassingen zoals automatische vertaling en automatische spraakherkenning.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*36 KB
*36 KB
*version 1.0 (2020)
*versie 1.0 (2020)
*[http://hdl.handle.net/10032/tm-a2-m5 Download page]
*[http://hdl.handle.net/10032/tm-a2-m5 Downloadpagina]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Multilingual Traditional Immersion and Native Corpus ==
==Multilingual Traditional Immersion and Native Corpus ==
MulTINCo includes spoken and (longitudinal) written data collected from French-speaking learners of Dutch and English as a second language (L2) in different educational settings (CLIL and traditional L2 classes). The database contains numerous background variables, as well as written productions in the learners’ first language (L1) (viz. French) and productions from native speakers of the learners’ L2 (viz. L1 Dutch and L1 English data).
MulTINCo bevat gesproken en (longitudinaal) geschreven data die is verzameld van Franssprekende leerders van het Nederlands en Engels als een tweede taal (L2) in verschillende onderwijssettingen (CLIL en traditionele L2-klassen). De database bevat tal vanke achtergrondvariabelen, evenals geschreven materiaal in de eerste taal van de leerders (L1) (Frans) en materiaal van moedertaalsprekers van de tweede taal (L2) (L1 Nederlandse en L1 Engelse data).  
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://corpora.uclouvain.be/catalog/corpus/multinco Corpuswebpagina]
*[https://corpora.uclouvain.be/catalog/corpus/multinco Corpus webpage]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Modern Times==
==Modern Times==
Narrations based on an extract from Modern Times (Ch. Chaplin 1934 or 36) by native speakers and learners of Dutch and French.
Vertellingen gebaseerd op een extract uit Modern Times (Charlie Chaplin 1934 of 36) door moedertaalsprekers en leerders van het Nederlands en Frans.
*[https://corpora.uclouvain.be/catalog/corpus/modern-times Corpus webpage (currently dead)]
*[https://corpora.uclouvain.be/catalog/corpus/modern-times Corpuswebpagina (momenteel niet beschikbaar)]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Leerdercorpus Nederlands==
==Leerdercorpus Nederlands==
Varied collection of writing tasks for learners of Belgian Dutch of different levels. The corpus consists of approx. 775.000 words and the texts were written in the periode 1998-2007.
Gevarieerde verzameling schrijftaken van leerders van het Nederlands van verschillende niveaus. Het corpus bestaat uit ongeveer 775.000 woorden en de teksten zijn geschreven in de periode 1998-2007.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://corpora.uclouvain.be/catalog/corpus/leerdercorpus-nederlands Corpuswebpagina]
*[https://corpora.uclouvain.be/catalog/corpus/leerdercorpus-nederlands Corpus webpage]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==LeCoNTra==
==LeCoNTra==
LeCoNTra is a learner corpus consisting of English-to-Dutch news translations enriched with translation process data. Three students of a Master’s programme in Translation were asked to translate 50 different English journalistic texts of approximately 250 tokens each. Because we also collected translation process data in the form of keystroke logging, our dataset can be used as part of different research strands such as translation process research, learner corpus research, and corpus-based translation studies. Reference translations, without process data, are also included. The data has been manually segmented and tokenized, and manually aligned at both segment and word level, leading to a high-quality corpus with token-level process data.
LeCoNTra is een leerdercorpus dat bestaat uit vertalingen van nieuwsberichten van het Engels naar het Nederlands, die zijn verrijkt met gegevens over het vertaalproces. Drie studenten van een Masteropleiding Vertalen werd gevraagd om 50 verschillende Engelse journalistieke teksten van ongeveer 250 tokens te vertalen. Er werden ook vertalingsprocesgegevens verzameld in de vorm van toetsaanslagregistratie, waardoor de dataset kan worden gebruikt als onderdeel van verschillende onderzoekslijnenn, zoals vertaalprocesonderzoek, leerdercorpusonderzoek en corpusgerichte vertaalonderzoeken. Referentievertalingen, zonder procesgegevens, zijn ook inbegrepen. De data is handmatig gesegmenteerd en getokeniseerd en handmatig uitgelijnd op zowel segment- als woordniveau, wat leidt tot een corpus van hoge kwaliteit met procesgegevens op tokenniveau.  
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* [https://github.com/BramVanroy/LeCoNTra Downloadpagina]
* [https://github.com/BramVanroy/LeCoNTra Download page]
* [https://aclanthology.org/2022.lrec-1.192/ Vanroy, B. and Macken, L. (2022). LeConTra: A Learner Corpus of English-to-Dutch News Translation.]
* [https://aclanthology.org/2022.lrec-1.192/ Vanroy, B. and Macken, L. (2022). LeConTra: A Learner Corpus of English-to-Dutch News Translation.]
</div>

Latest revision as of 13:26, 3 April 2024

Tweedetaalleerdercorpora spelen een cruciale rol in het onderzoek naar het leren en onderwijzen van een tweede taal. Deze corpora maken het mogelijk om systematisch te onderzoeken hoe een tweedetaalleerder de nieuwe taal tot zich neemt op zowel lexicaal als syntactisch niveau en hoe dit wordt beïnvloed door zijn of haar moedertaal. Een karakteristieke eigenschap van dit type corpora zijn het markeren van fouten en prosodische eigenschappen van de tweedetaalleerders. Voor meer informatie en bronnen, bezoek het CLARIN Knowledge Center for Learner Corpora

Corpus Ondertitelde UVN-Colleges (COUC)

Dit corpus bevat 57 (2020-07-16) ondertitelde colleges van de Universiteit van Nederland (UVN). Er is ondertiteling toegevoegd aan bestaande video-opnames van colleges van de UVN.

In tegenstelling tot gewone ondertitels zijn de ondertitels in dit project een bijna 100% letterlijke weergave van de spraak zoals gesproken door de mensen in de opnames. Ze bevatten exacte orthografische transcripties van opeenvolgende woorden en tonen daarmee dus de eigenaardigheden van de gesproken taalmodaliteit, met een gebrek aan de grammaticale coherentie die kenmerkend is voor geschreven teksten. Aan de andere kant bevatten de transcripties geen sprekergeluiden zoals smakken met de lippen of hoesten, of aarzelende geluiden zoals "ehm". Omwille van de leesbaarheid werden leestekens toegevoegd.

Meertalige Ondertiteldata 2BDutch

Dit product bestaat uit de ondertiteldata die bij de Nederlandse video's op de website www.2BDutch.nl hoort. The 2BDutch-website bevat video's met ondertitelopties in verscheidene talen. Met deze video's kunnen studenten van alle niveaus Nederlands hun luistervaardigheden oefenen en nieuwe Nederlandse woorden leren kennen. De ondertiteldata die bij deze video's hoort kan ook worden gebruikt voor taal- en spraaktechnologische toepassingen zoals automatische vertaling en automatische spraakherkenning.

Multilingual Traditional Immersion and Native Corpus

MulTINCo bevat gesproken en (longitudinaal) geschreven data die is verzameld van Franssprekende leerders van het Nederlands en Engels als een tweede taal (L2) in verschillende onderwijssettingen (CLIL en traditionele L2-klassen). De database bevat tal vanke achtergrondvariabelen, evenals geschreven materiaal in de eerste taal van de leerders (L1) (Frans) en materiaal van moedertaalsprekers van de tweede taal (L2) (L1 Nederlandse en L1 Engelse data).

Modern Times

Vertellingen gebaseerd op een extract uit Modern Times (Charlie Chaplin 1934 of 36) door moedertaalsprekers en leerders van het Nederlands en Frans.

Leerdercorpus Nederlands

Gevarieerde verzameling schrijftaken van leerders van het Nederlands van verschillende niveaus. Het corpus bestaat uit ongeveer 775.000 woorden en de teksten zijn geschreven in de periode 1998-2007.

LeCoNTra

LeCoNTra is een leerdercorpus dat bestaat uit vertalingen van nieuwsberichten van het Engels naar het Nederlands, die zijn verrijkt met gegevens over het vertaalproces. Drie studenten van een Masteropleiding Vertalen werd gevraagd om 50 verschillende Engelse journalistieke teksten van ongeveer 250 tokens te vertalen. Er werden ook vertalingsprocesgegevens verzameld in de vorm van toetsaanslagregistratie, waardoor de dataset kan worden gebruikt als onderdeel van verschillende onderzoekslijnenn, zoals vertaalprocesonderzoek, leerdercorpusonderzoek en corpusgerichte vertaalonderzoeken. Referentievertalingen, zonder procesgegevens, zijn ook inbegrepen. De data is handmatig gesegmenteerd en getokeniseerd en handmatig uitgelijnd op zowel segment- als woordniveau, wat leidt tot een corpus van hoge kwaliteit met procesgegevens op tokenniveau.