L2 learner corpora/nl: Difference between revisions

From Clarin K-Centre
Jump to navigation Jump to search
(Created page with "* [https://github.com/BramVanroy/LeCoNTra Download pagina] * [https://aclanthology.org/2022.lrec-1.192/ Vanroy, B. and Macken, L. (2022). LeConTra: A Learner Corpus of English-to-Dutch News Translation.]")
No edit summary
 
(5 intermediate revisions by 2 users not shown)
Line 1: Line 1:
Tweedetaalleerders corpora spelen een cruciale rol in het onderzoek naar het leren en onderwijzen van een tweede taal. Deze corpora maken het mogelijk om systematisch te onderzoeken hoe een tweedetaalleerder de nieuwe taal tot zich neemt op zowel lexicaal als syntactisch niveau en hoe dit wordt beïnvloed door zijn of haar moedertaal. Een karakteristieke eigenschap van dit type corpora zijn de opmaak van fouten en prosodische eigenschappen van de tweedetaalleerders. Voor meer informatie en bronnen, bezoek het[https://uclouvain.be/en/research-institutes/ilc/clarin-knowledge-centre-for-learner-corpora.html '''''CLARIN Knowledge Center for Learner Corpora''''']
Tweedetaalleerdercorpora spelen een cruciale rol in het onderzoek naar het leren en onderwijzen van een tweede taal. Deze corpora maken het mogelijk om systematisch te onderzoeken hoe een tweedetaalleerder de nieuwe taal tot zich neemt op zowel lexicaal als syntactisch niveau en hoe dit wordt beïnvloed door zijn of haar moedertaal. Een karakteristieke eigenschap van dit type corpora zijn het markeren van fouten en prosodische eigenschappen van de tweedetaalleerders. Voor meer informatie en bronnen, bezoek het [https://uclouvain.be/en/research-institutes/ilc/clarin-knowledge-centre-for-learner-corpora.html '''''CLARIN Knowledge Center for Learner Corpora''''']


==Corpus Ondertitelde UVN-Colleges (COUC)==
==Corpus Ondertitelde UVN-Colleges (COUC)==
Dit corpus bevat 57 (2020-07-16) ondertitelde colleges van de Universiteit van Nederland (UVN). Er is ondertiteling toegevoegd aan bestaande video-opnames van colleges van de UVN.
Dit corpus bevat 57 (2020-07-16) ondertitelde colleges van de Universiteit van Nederland (UVN). Er is ondertiteling toegevoegd aan bestaande video-opnames van colleges van de UVN.


In tegenstelling tot gebruikelijke ondertiteling, is de ondertiteling in dit project een zo goed als 100% letterlijke representatie van hetgeen dat wordt gezegd door de mensen in de opnames. Ze bevatten exacte orthografische transcripties van opeenvolgende woorden en tonen daarmee dus de eigenaardigheden van de gesproken taalmodaliteit, met een gebrek aan de grammaticale coherentie die kenmerkend is voor geschreven teksten. De transcripties bevatten echter geen losstaande geluiden van de spreker (zoals smakken met de lippen of hoesten) of aarzelende sneden als 'ehm'. Omwille van de leesbaarheid is er interpunctie toegevoegd.
In tegenstelling tot gewone ondertitels zijn de ondertitels in dit project een bijna 100% letterlijke weergave van de spraak zoals gesproken door de mensen in de opnames. Ze bevatten exacte orthografische transcripties van opeenvolgende woorden en tonen daarmee dus de eigenaardigheden van de gesproken taalmodaliteit, met een gebrek aan de grammaticale coherentie die kenmerkend is voor geschreven teksten. Aan de andere kant bevatten de transcripties geen sprekergeluiden zoals smakken met de lippen of hoesten, of aarzelende geluiden zoals "ehm". Omwille van de leesbaarheid werden leestekens toegevoegd.


*22 MB
*22 MB
*versie 1.0 (2020)
*versie 1.0 (2020)
*[http://hdl.handle.net/10032/tm-a2-s3 Download pagina]
*[http://hdl.handle.net/10032/tm-a2-s3 Downloadpagina]


==Meertalige Ondertiteldata 2BDutch==
==Meertalige Ondertiteldata 2BDutch==
Dit product bestaat uit de ondertiteldata die toebehoort aan de Nederlandse video's op de website www.2BDutch.nl. The 2BDutch website bevat video's met ondertitelopties in verscheidene talen. Met deze video's kunnen studenten van alle niveaus Nederlands hun luistervaardigheden oefenen en nieuwe Nederlandse woorden leren kennen. De ondertiteldata die aan deze video's toebehoort kan ook worden gebruikt voor allerlei technologische applicaties van taal en spraak zoals automatische vertaling en automatische spraakherkenning.
Dit product bestaat uit de ondertiteldata die bij de Nederlandse video's op de website www.2BDutch.nl hoort. The 2BDutch-website bevat video's met ondertitelopties in verscheidene talen. Met deze video's kunnen studenten van alle niveaus Nederlands hun luistervaardigheden oefenen en nieuwe Nederlandse woorden leren kennen. De ondertiteldata die bij deze video's hoort kan ook worden gebruikt voor taal- en spraaktechnologische toepassingen zoals automatische vertaling en automatische spraakherkenning.


*36 KB
*36 KB
*versie 1.0 (2020)
*versie 1.0 (2020)
*[http://hdl.handle.net/10032/tm-a2-m5 Download pagina]
*[http://hdl.handle.net/10032/tm-a2-m5 Downloadpagina]


==Multilingual Traditional Immersion and Native Corpus ==
==Multilingual Traditional Immersion and Native Corpus ==
MulTINCo bevat gesproken en (longitudinaal) geschreven data die is verzameld van Franssprekende leerders van het Nederlands en Engels als een tweede taal (L2) in verschillende onderwijssettingen (CLIL en traditionele L2 klassen). De database bevat zowel talrijke achtergrondvariabelen, als ook geschreven materiaal in de eerste taal van de leerders (L1) (Frans) en materiaal van moedertaalsprekers van de tweede taal (L2) (L1 Nederlands en L1 Engels data).  
MulTINCo bevat gesproken en (longitudinaal) geschreven data die is verzameld van Franssprekende leerders van het Nederlands en Engels als een tweede taal (L2) in verschillende onderwijssettingen (CLIL en traditionele L2-klassen). De database bevat tal vanke achtergrondvariabelen, evenals geschreven materiaal in de eerste taal van de leerders (L1) (Frans) en materiaal van moedertaalsprekers van de tweede taal (L2) (L1 Nederlandse en L1 Engelse data).  


*[https://corpora.uclouvain.be/catalog/corpus/multinco Corpus webpagina]
*[https://corpora.uclouvain.be/catalog/corpus/multinco Corpuswebpagina]


==Modern Times==
==Modern Times==
Vertellingen gebaseerd op een extract uit Modern Times (Charlie Chaplin 1934 or 36) door moedertaalsprekers en leerders van het Nederlands en Frans.
Vertellingen gebaseerd op een extract uit Modern Times (Charlie Chaplin 1934 of 36) door moedertaalsprekers en leerders van het Nederlands en Frans.
*[https://corpora.uclouvain.be/catalog/corpus/modern-times Corpus webpagina (momenteel niet beschikbaar)]
*[https://corpora.uclouvain.be/catalog/corpus/modern-times Corpuswebpagina (momenteel niet beschikbaar)]


==Leerdercorpus Nederlands==
==Leerdercorpus Nederlands==
Gevarieerde verzameling schrijftaken van leerders van het Nederlands van verschillende niveaus. Het corpus bestaat uit ongeveer 775.000 woorden en de teksten zijn geschreven in de periode 1998-2007.
Gevarieerde verzameling schrijftaken van leerders van het Nederlands van verschillende niveaus. Het corpus bestaat uit ongeveer 775.000 woorden en de teksten zijn geschreven in de periode 1998-2007.


*[https://corpora.uclouvain.be/catalog/corpus/leerdercorpus-nederlands Corpus webpagina]
*[https://corpora.uclouvain.be/catalog/corpus/leerdercorpus-nederlands Corpuswebpagina]


==LeCoNTra==
==LeCoNTra==
LeCoNTra is een leerdercorpus dat bestaat uit nieuwsvertalingen van het Engels naar het Nederlands, die zijn verrijkt met vertalingsprocesdata. Drie studenten van een Master-programma in Vertaling werd gevraagd om 50 verschillende Engelse journalistieke teksten van ongeveer 250 tekens te vertalen. Er werd ook vertalingsprocesdata verzameld in de vorm van toetsaanslagregistratie, waardoor de dataset kan worden gebruikt als een onderdeel van verschillende onderzoeksrichtingen, zoals: vertalingsproces onderzoek, leerdercorpus onderzoek en corpusgerichte vertaalonderzoeken. Referentievertalingen, zonder procesdata, zijn ook inbegrepen. De data is handmatig gesegmenteerd en getokeniseerd en handmatig afgestemd op zowel segment als woordniveau, wat leidt tot een kwalitatief sterke corpus met token-level procesdata.  
LeCoNTra is een leerdercorpus dat bestaat uit vertalingen van nieuwsberichten van het Engels naar het Nederlands, die zijn verrijkt met gegevens over het vertaalproces. Drie studenten van een Masteropleiding Vertalen werd gevraagd om 50 verschillende Engelse journalistieke teksten van ongeveer 250 tokens te vertalen. Er werden ook vertalingsprocesgegevens verzameld in de vorm van toetsaanslagregistratie, waardoor de dataset kan worden gebruikt als onderdeel van verschillende onderzoekslijnenn, zoals vertaalprocesonderzoek, leerdercorpusonderzoek en corpusgerichte vertaalonderzoeken. Referentievertalingen, zonder procesgegevens, zijn ook inbegrepen. De data is handmatig gesegmenteerd en getokeniseerd en handmatig uitgelijnd op zowel segment- als woordniveau, wat leidt tot een corpus van hoge kwaliteit met procesgegevens op tokenniveau.  


* [https://github.com/BramVanroy/LeCoNTra Download pagina]
* [https://github.com/BramVanroy/LeCoNTra Downloadpagina]
* [https://aclanthology.org/2022.lrec-1.192/ Vanroy, B. and Macken, L. (2022). LeConTra: A Learner Corpus of English-to-Dutch News Translation.]
* [https://aclanthology.org/2022.lrec-1.192/ Vanroy, B. and Macken, L. (2022). LeConTra: A Learner Corpus of English-to-Dutch News Translation.]

Latest revision as of 13:26, 3 April 2024

Tweedetaalleerdercorpora spelen een cruciale rol in het onderzoek naar het leren en onderwijzen van een tweede taal. Deze corpora maken het mogelijk om systematisch te onderzoeken hoe een tweedetaalleerder de nieuwe taal tot zich neemt op zowel lexicaal als syntactisch niveau en hoe dit wordt beïnvloed door zijn of haar moedertaal. Een karakteristieke eigenschap van dit type corpora zijn het markeren van fouten en prosodische eigenschappen van de tweedetaalleerders. Voor meer informatie en bronnen, bezoek het CLARIN Knowledge Center for Learner Corpora

Corpus Ondertitelde UVN-Colleges (COUC)

Dit corpus bevat 57 (2020-07-16) ondertitelde colleges van de Universiteit van Nederland (UVN). Er is ondertiteling toegevoegd aan bestaande video-opnames van colleges van de UVN.

In tegenstelling tot gewone ondertitels zijn de ondertitels in dit project een bijna 100% letterlijke weergave van de spraak zoals gesproken door de mensen in de opnames. Ze bevatten exacte orthografische transcripties van opeenvolgende woorden en tonen daarmee dus de eigenaardigheden van de gesproken taalmodaliteit, met een gebrek aan de grammaticale coherentie die kenmerkend is voor geschreven teksten. Aan de andere kant bevatten de transcripties geen sprekergeluiden zoals smakken met de lippen of hoesten, of aarzelende geluiden zoals "ehm". Omwille van de leesbaarheid werden leestekens toegevoegd.

Meertalige Ondertiteldata 2BDutch

Dit product bestaat uit de ondertiteldata die bij de Nederlandse video's op de website www.2BDutch.nl hoort. The 2BDutch-website bevat video's met ondertitelopties in verscheidene talen. Met deze video's kunnen studenten van alle niveaus Nederlands hun luistervaardigheden oefenen en nieuwe Nederlandse woorden leren kennen. De ondertiteldata die bij deze video's hoort kan ook worden gebruikt voor taal- en spraaktechnologische toepassingen zoals automatische vertaling en automatische spraakherkenning.

Multilingual Traditional Immersion and Native Corpus

MulTINCo bevat gesproken en (longitudinaal) geschreven data die is verzameld van Franssprekende leerders van het Nederlands en Engels als een tweede taal (L2) in verschillende onderwijssettingen (CLIL en traditionele L2-klassen). De database bevat tal vanke achtergrondvariabelen, evenals geschreven materiaal in de eerste taal van de leerders (L1) (Frans) en materiaal van moedertaalsprekers van de tweede taal (L2) (L1 Nederlandse en L1 Engelse data).

Modern Times

Vertellingen gebaseerd op een extract uit Modern Times (Charlie Chaplin 1934 of 36) door moedertaalsprekers en leerders van het Nederlands en Frans.

Leerdercorpus Nederlands

Gevarieerde verzameling schrijftaken van leerders van het Nederlands van verschillende niveaus. Het corpus bestaat uit ongeveer 775.000 woorden en de teksten zijn geschreven in de periode 1998-2007.

LeCoNTra

LeCoNTra is een leerdercorpus dat bestaat uit vertalingen van nieuwsberichten van het Engels naar het Nederlands, die zijn verrijkt met gegevens over het vertaalproces. Drie studenten van een Masteropleiding Vertalen werd gevraagd om 50 verschillende Engelse journalistieke teksten van ongeveer 250 tokens te vertalen. Er werden ook vertalingsprocesgegevens verzameld in de vorm van toetsaanslagregistratie, waardoor de dataset kan worden gebruikt als onderdeel van verschillende onderzoekslijnenn, zoals vertaalprocesonderzoek, leerdercorpusonderzoek en corpusgerichte vertaalonderzoeken. Referentievertalingen, zonder procesgegevens, zijn ook inbegrepen. De data is handmatig gesegmenteerd en getokeniseerd en handmatig uitgelijnd op zowel segment- als woordniveau, wat leidt tot een corpus van hoge kwaliteit met procesgegevens op tokenniveau.