Parallel Multilingual Corpora/nl: Difference between revisions
(Created page with "*[https://kdutch.ivdnt.org/wiki/Parallel_Multilingual_Corpora/nl Parallelle Meertalige Corpora]") |
(Created page with "* [https://dpc2.ugent.be/ Toegangspagina]") |
||
(13 intermediate revisions by 2 users not shown) | |||
Line 1: | Line 1: | ||
<languages/> | |||
==EDGeS Diachronic Bible Corpus== | ==EDGeS Diachronic Bible Corpus== | ||
Een diachroon en synchroon parallel corpus van bijbelvertalingen in het Nederlands, Engels, Duits en Zweeds, met teksten van de 14e eeuw tot nu. | |||
*[https://spraakbanken.gu.se/en/resources/openedges OpenEdges-download] | |||
*[https://spraakbanken.gu.se/en/resources/openedges OpenEdges | |||
< | <span id="PacoMT_Parallel_Corpora"></span> | ||
==PacoMT | ==PacoMT Parallelle Corpora== | ||
Tijdens het STEVIN-project PaCo-MT (Parse and Corpus-based Machine Translation) werden twee bestaande parallelle corpora verrijkt met syntactische annotaties en node alignments. De annotaties werden automatisch gegenereerd. | |||
Taalparen: Engels naar Nederlands, Nederlands naar Engels, Frans naar Nederlands, Nederlands naar Frans. | |||
* versie 1.0 | |||
* | * dataset van 2014 | ||
* | * 38,8 MB | ||
*38 | * [http://hdl.handle.net/10032/tm-a2-f7 Downloadpagina] | ||
*[http://hdl.handle.net/10032/tm-a2-f7 | * [http://www.ccl.kuleuven.be/Projects/PACO/paco.php Projectwebsite] | ||
*[http://www.ccl.kuleuven.be/Projects/PACO/paco.php | |||
< | <span id="The_Dutch_Parallel_Corpus"></span> | ||
== | ==Het Dutch Parallel Corpus== | ||
Het Dutch Parallel Corpus (DPC) is een parallel corpus van 10 miljoen woorden en zinnen voor de talenparen Nederlands-Engels en Nederlands-Frans, met Nederlands als centrale taal. | |||
Het corpus bevat vijf verschillende tekstsoorten en is gebalanceerd wat betreft tekstsoort en vertaalrichting. Het hele corpus is uitgelijnd op zinsniveau en verder verrijkt met linguïstische informatie (lemma's en POS-tags). Een kleine subset van het Nederlands-Engelse deel is ook handmatig uitgelijnd op zinsdeelniveau. | |||
*[http://hdl.handle.net/10032/tm-a2-h3 Downloadpagina] | |||
*[http://hdl.handle.net/10032/tm-a2-h3 | *[https://www.kuleuven-kulak.be/dpc/en/ Projectwebsite] | ||
*[https://www.kuleuven-kulak.be/dpc/en/ | |||
==The Open Parallel Corpus (OPUS)== | ==The Open Parallel Corpus (OPUS)== | ||
Het [https://opus.nlpl.eu/ OPUS-corpus] bevat een zeer grote verzameling parallelle corpora, waaronder veel Nederlandse. | |||
< | <span id="COVID-19_Corpora"></span> | ||
==COVID-19 | ==COVID-19-corpora== | ||
===COVID-19 - HEALTH Wikipedia dataset. Bilingual (EN-NL)=== | ===COVID-19 - HEALTH Wikipedia dataset. Bilingual (EN-NL)=== | ||
Tweetalig (EN-NL) corpus afkomstig van Wikipedia over gezondheid en COVID-19 (2 mei 2020). Het corpus bevat 931 vertaaleenheden. | |||
* Versie 1.0 (2020) | |||
* | * [https://elrc-share.eu/repository/browse/covid-19-health-wikipedia-dataset-bilingual-en-nl/b36eccb88de811ea913100155d0267065632b235f586445aa0c67da0afcdfc0e/ Downloadpagina] | ||
* [https://elrc-share.eu/repository/browse/covid-19-health-wikipedia-dataset-bilingual-en-nl/b36eccb88de811ea913100155d0267065632b235f586445aa0c67da0afcdfc0e/ | |||
< | <span id="COVID-19_ANTIBIOTIC_dataset._Bilingual_(EN-NL)"></span> | ||
===COVID-19 ANTIBIOTIC dataset. | ===COVID-19 ANTIBIOTIC dataset. Bilinguaal (EN-NL)=== | ||
Tweetalig (EN-NL) corpus afkomstig van de website https://antibiotic.ecdc.europa.eu/. Het corpus bevat 805 vertaaleenheden. | |||
* Versie 1.0 (2020) | |||
* | * [https://elrc-share.eu/repository/browse/covid-19-antibiotic-dataset-bilingual-en-nl/9c5009c0904511ea913100155d026706169da04f5eb448178c8954eb8f874db1/ Downloadpagina] | ||
* [https://elrc-share.eu/repository/browse/covid-19-antibiotic-dataset-bilingual-en-nl/9c5009c0904511ea913100155d026706169da04f5eb448178c8954eb8f874db1/ | |||
< | <span id="COVID-19_EC-EUROPA_v1_dataset._Bilingual_(EN-NL)"></span> | ||
=== COVID-19 EC-EUROPA v1 dataset. | === COVID-19 EC-EUROPA v1 dataset. Bilinguaal (EN-NL)=== | ||
Tweetalig (EN-NL) corpus afkomstig van de website (https://ec.europa.eu/*coronavirus-response) van het EU-portaal (20 mei 2020). Dit corpus bevat 2.391 vertaaleenheden. | |||
* Versie 1.0 (2020) | |||
* | *[https://elrc-share.eu/repository/browse/covid-19-ec-europa-v1-dataset-bilingual-en-nl/c839dc1aa17911ea913100155d0267065bd070800d534300b9a82cbc55176caa/ Downloadpagina] | ||
*[https://elrc-share.eu/repository/browse/covid-19-ec-europa-v1-dataset-bilingual-en-nl/c839dc1aa17911ea913100155d0267065bd070800d534300b9a82cbc55176caa/ | |||
< | <span id="COVID-19_EU_presscorner_v2_dataset._Bilingual_(EN-NL)"></span> | ||
===COVID-19 EU presscorner v2 dataset. | ===COVID-19 EU presscorner v2 dataset. Bilinguaal (EN-NL)=== | ||
Tweetalig (EN-NL) corpus afkomstig van de website (https://ec.europa.eu/commission/presscorner/) van het EU-portaal (8 juli 2020). Dit corpus bevat 6.810 vertaaleenheden. | |||
* Versie 2.0 (2020) | |||
* | * [https://elrc-share.eu/repository/browse/covid-19-eu-presscorner-v2-dataset-bilingual-en-nl/c924966ac5c811ea913100155d0267060010380f855d42b188d6225ace812c61/ Downloadpagina] | ||
* [https://elrc-share.eu/repository/browse/covid-19-eu-presscorner-v2-dataset-bilingual-en-nl/c924966ac5c811ea913100155d0267060010380f855d42b188d6225ace812c61/ | |||
< | <span id="COVID-19_EUR-LEX_dataset._Βilingual_(EN-NL)"></span> | ||
===COVID-19 EUR-LEX dataset. | ===COVID-19 EUR-LEX dataset. Βilinguaal (EN-NL)=== | ||
Tweetalig (EN-NL) corpus afkomstig van de website (https://eur-lex.europa.eu/legal-content) van het EU-portaal (9 juli 2020). Dit corpus bevat 22.470 vertaaleenheden. | |||
* Versie 1.0 (2020) | |||
* | * [https://elrc-share.eu/repository/browse/covid-19-eur-lex-dataset-ilingual-en-nl/af906a80c5af11ea913100155d026706dc95cf79c8104ea2b5c9e7143216e8b6/ Downloadpagina] | ||
* [https://elrc-share.eu/repository/browse/covid-19-eur-lex-dataset-ilingual-en-nl/af906a80c5af11ea913100155d026706dc95cf79c8104ea2b5c9e7143216e8b6/ | |||
< | <span id="COVID-19_EUROPARL_v2_dataset._Bilingual_(EN-NL)"></span> | ||
===COVID-19 EUROPARL v2 dataset. | ===COVID-19 EUROPARL v2 dataset. Bilinguaal (EN-NL) === | ||
Tweetalig (EN-NL) corpus afkomstig van de website (https://www.europarl.europa.eu/) van het Europees Parlement (9 mei 2020). Dit corpus bevat 887 vertaaleenheden. | |||
* Versie 2.0 (2020) | |||
* | * [https://elrc-share.eu/repository/browse/covid-19-europarl-v2-dataset-bilingual-en-nl/aca366f4941f11ea913100155d0267066f2c95e65e20479ba769a4ec18bb3373/ Downloadpagina] | ||
* [https://elrc-share.eu/repository/browse/covid-19-europarl-v2-dataset-bilingual-en-nl/aca366f4941f11ea913100155d0267066f2c95e65e20479ba769a4ec18bb3373/ | |||
< | <span id="COVID-19_Parallel_Global_Voices_dataset._Bilingual_(EN-NL)"></span> | ||
===COVID-19 Parallel Global Voices dataset. | ===COVID-19 Parallel Global Voices dataset. Bilinguaal (EN-NL)=== | ||
EN-NL tweetalig COVID-19-gerelateerd corpus afkomstig van de website (https://globalvoices.org/) van GlobalVoices (28 april 2020). Dit corpus bevat 675 vertaaleenheden. | |||
EN-NL | |||
* Versie 1.0 (2020) | |||
* | * [https://elrc-share.eu/repository/browse/covid-19-parallel-global-voices-dataset-bilingual-en-nl/df312cf0895211ea913100155d02670693358ccdbdf24ae79e142e3999159478/ Downloadpagina] | ||
* [https://elrc-share.eu/repository/browse/covid-19-parallel-global-voices-dataset-bilingual-en-nl/df312cf0895211ea913100155d02670693358ccdbdf24ae79e142e3999159478/ | |||
< | <span id="Bilingual_corpus_from_the_European_Vaccination_Portal_(NL-EN)"></span> | ||
== | ==Bilinguaal corpus afkomstig van het Europees vaccinatie-informatieportaal (NL-EN)== | ||
NL-EN tweetalig corpus afkomstig van https://vaccination-info.eu. Dit corpus bevat 494 vertaaleenheden. | |||
NL-EN | |||
* Versie 1.0 (2020) | |||
* | * [https://elrc-share.eu/repository/browse/bilingual-corpus-from-the-european-vaccination-portal-nl-en/416f3388864e11ea913100155d026706f6cf8712d2304ecfa917aac7e5eb6731/ Downloadpagina] | ||
* [https://elrc-share.eu/repository/browse/bilingual-corpus-from-the-european-vaccination-portal-nl-en/416f3388864e11ea913100155d026706f6cf8712d2304ecfa917aac7e5eb6731/ | |||
< | <span id="Bilingual_corpus_from_the_Publications_Office_of_the_EU_on_the_medical_domain_v.2_(EN-NL)"></span> | ||
== | ==Tweetalig corpus van het Publicatiebureau van de EU i.v.m. het medische domein v.2 (EN-NL)== | ||
EE-NL tweetalig corpus afkomstig van het Publicatiebureau van de EU i.v.m. het medische domein. De data is afkomstig uit wetten, studies, EG-mededelingen, enz. gelabeld met concepten als epidemiologie, epidemie, ziektebewaking, gezondheidscontrole, openbare hygiëne, vrijheid van verkeer, afstandsonderwijs, enz. Dit corpus bevat 13.191 vertaaleenheden. | |||
* Versie 2.0 (2020) | |||
* | * [https://elrc-share.eu/repository/browse/bilingual-corpus-from-the-publications-office-of-the-eu-on-the-medical-domain-v2-en-nl/0795a5328ac411ea913100155d02670661b540c3ab9b437baf5a6c579c7edb3b/ Downloadpagina] | ||
* [https://elrc-share.eu/repository/browse/bilingual-corpus-from-the-publications-office-of-the-eu-on-the-medical-domain-v2-en-nl/0795a5328ac411ea913100155d02670661b540c3ab9b437baf5a6c579c7edb3b/ | |||
< | <span id="Bilingual_corpus_made_out_of_PDF_documents_from_the_European_Medicines_Agency,_(EMEA)_(EN-NL)."></span> | ||
== | ==Bilinguaal corpus gemaakt van PDF-documenten van het Europees Geneesmiddelenbureau (EMEA) (EN-NL).== | ||
EN-NL tweetalig corpus gemaakt van PDF-documenten van het Europees Geneesmiddelenbureau (EMEA), https://www.ema.europa.eu, (februari 2020). Dit corpus bevat 762.433 vertaaleenheden. | |||
EN-NL | |||
* Versie 1.0 (2020) | |||
* | * [https://elrc-share.eu/repository/browse/bilingual-corpus-made-out-of-pdf-documents-from-the-european-medicines-agency-emea-httpswwwemaeuropaeu-february-2020-en-nl/93284c8e862411ea913100155d026706d3313f47bec143cd98cc4ba1aa62b4b5/ Downloadpagina] | ||
* [https://elrc-share.eu/repository/browse/bilingual-corpus-made-out-of-pdf-documents-from-the-european-medicines-agency-emea-httpswwwemaeuropaeu-february-2020-en-nl/93284c8e862411ea913100155d026706d3313f47bec143cd98cc4ba1aa62b4b5/ | |||
==MultiLing EN-NL== | ==MultiLing EN-NL== | ||
De multiLing-dataset is gebaseerd op zes Engelse bronteksten die in verschillende talen zijn vertaald. Vier daarvan (teksten 1-4) zijn nieuwsartikelen en de andere twee (teksten 5-6) zijn sociologische teksten uit een encyclopedie. De Nederlandse data bestaat uit twee delen. ENDU20: tien Nederlandse vertalingen van de multiLing-set door tien vertalers die recent hun mastersdiploma gehaald hebben en die Nederlands als moedertaal hebben. En ENDU20-MT: twee Nederlandse machinevertalingen van de multiLing-set door DeepL (P20) en Google Translate (P21). | |||
* [https://lt3.ugent.be/resources/multiling-en-nl/ Projectinformatie en downloadinstructies] | |||
* [https://lt3.ugent.be/resources/multiling-en-nl/ | * [https://sites.google.com/site/centretranslationinnovation/tpr-db/public-studies#h.p_iVVuCQOHJx2O MultiLing-informatie] | ||
* [https://sites.google.com/site/centretranslationinnovation/tpr-db/public-studies#h.p_iVVuCQOHJx2O MultiLing | |||
==Dutch Government Website Corpus== | ==Dutch Government Website Corpus== | ||
Parallel (EN-NL) corpus van 6.532 vertaaleenheden. | |||
Parallel ( | |||
* [https://live.european-language-grid.eu/catalogue/corpus/2877/ European Language Grid-pagina] | |||
* [https://live.european-language-grid.eu/catalogue/corpus/2877/ European Language Grid | |||
==Dutch Parallel Corpus 2.0 (DPC2)== | |||
Het Dutch Parallel Corpus 2.0 is een bidirectioneel parallel corpus van expertvertalingen voor taalparen Nederlands-Engels en Nederlands-Frans. Het corpus is op zinsniveau gealigneerd, gelemmatiseerd en ge-POS-getagd met behulp van de state-of-the-art natuurlijke taalverwerkingstoolkit Stanza. Het corpus bevat momenteel 2,7 miljoen woorden, maar is dynamisch van aard. | |||
* [https://dpc2.ugent.be/ Toegangspagina] |
Latest revision as of 06:59, 20 June 2024
EDGeS Diachronic Bible Corpus
Een diachroon en synchroon parallel corpus van bijbelvertalingen in het Nederlands, Engels, Duits en Zweeds, met teksten van de 14e eeuw tot nu.
PacoMT Parallelle Corpora
Tijdens het STEVIN-project PaCo-MT (Parse and Corpus-based Machine Translation) werden twee bestaande parallelle corpora verrijkt met syntactische annotaties en node alignments. De annotaties werden automatisch gegenereerd.
Taalparen: Engels naar Nederlands, Nederlands naar Engels, Frans naar Nederlands, Nederlands naar Frans.
- versie 1.0
- dataset van 2014
- 38,8 MB
- Downloadpagina
- Projectwebsite
Het Dutch Parallel Corpus
Het Dutch Parallel Corpus (DPC) is een parallel corpus van 10 miljoen woorden en zinnen voor de talenparen Nederlands-Engels en Nederlands-Frans, met Nederlands als centrale taal.
Het corpus bevat vijf verschillende tekstsoorten en is gebalanceerd wat betreft tekstsoort en vertaalrichting. Het hele corpus is uitgelijnd op zinsniveau en verder verrijkt met linguïstische informatie (lemma's en POS-tags). Een kleine subset van het Nederlands-Engelse deel is ook handmatig uitgelijnd op zinsdeelniveau.
The Open Parallel Corpus (OPUS)
Het OPUS-corpus bevat een zeer grote verzameling parallelle corpora, waaronder veel Nederlandse.
COVID-19-corpora
COVID-19 - HEALTH Wikipedia dataset. Bilingual (EN-NL)
Tweetalig (EN-NL) corpus afkomstig van Wikipedia over gezondheid en COVID-19 (2 mei 2020). Het corpus bevat 931 vertaaleenheden.
- Versie 1.0 (2020)
- Downloadpagina
COVID-19 ANTIBIOTIC dataset. Bilinguaal (EN-NL)
Tweetalig (EN-NL) corpus afkomstig van de website https://antibiotic.ecdc.europa.eu/. Het corpus bevat 805 vertaaleenheden.
- Versie 1.0 (2020)
- Downloadpagina
COVID-19 EC-EUROPA v1 dataset. Bilinguaal (EN-NL)
Tweetalig (EN-NL) corpus afkomstig van de website (https://ec.europa.eu/*coronavirus-response) van het EU-portaal (20 mei 2020). Dit corpus bevat 2.391 vertaaleenheden.
- Versie 1.0 (2020)
- Downloadpagina
COVID-19 EU presscorner v2 dataset. Bilinguaal (EN-NL)
Tweetalig (EN-NL) corpus afkomstig van de website (https://ec.europa.eu/commission/presscorner/) van het EU-portaal (8 juli 2020). Dit corpus bevat 6.810 vertaaleenheden.
- Versie 2.0 (2020)
- Downloadpagina
COVID-19 EUR-LEX dataset. Βilinguaal (EN-NL)
Tweetalig (EN-NL) corpus afkomstig van de website (https://eur-lex.europa.eu/legal-content) van het EU-portaal (9 juli 2020). Dit corpus bevat 22.470 vertaaleenheden.
- Versie 1.0 (2020)
- Downloadpagina
COVID-19 EUROPARL v2 dataset. Bilinguaal (EN-NL)
Tweetalig (EN-NL) corpus afkomstig van de website (https://www.europarl.europa.eu/) van het Europees Parlement (9 mei 2020). Dit corpus bevat 887 vertaaleenheden.
- Versie 2.0 (2020)
- Downloadpagina
COVID-19 Parallel Global Voices dataset. Bilinguaal (EN-NL)
EN-NL tweetalig COVID-19-gerelateerd corpus afkomstig van de website (https://globalvoices.org/) van GlobalVoices (28 april 2020). Dit corpus bevat 675 vertaaleenheden.
- Versie 1.0 (2020)
- Downloadpagina
Bilinguaal corpus afkomstig van het Europees vaccinatie-informatieportaal (NL-EN)
NL-EN tweetalig corpus afkomstig van https://vaccination-info.eu. Dit corpus bevat 494 vertaaleenheden.
- Versie 1.0 (2020)
- Downloadpagina
Tweetalig corpus van het Publicatiebureau van de EU i.v.m. het medische domein v.2 (EN-NL)
EE-NL tweetalig corpus afkomstig van het Publicatiebureau van de EU i.v.m. het medische domein. De data is afkomstig uit wetten, studies, EG-mededelingen, enz. gelabeld met concepten als epidemiologie, epidemie, ziektebewaking, gezondheidscontrole, openbare hygiëne, vrijheid van verkeer, afstandsonderwijs, enz. Dit corpus bevat 13.191 vertaaleenheden.
- Versie 2.0 (2020)
- Downloadpagina
Bilinguaal corpus gemaakt van PDF-documenten van het Europees Geneesmiddelenbureau (EMEA) (EN-NL).
EN-NL tweetalig corpus gemaakt van PDF-documenten van het Europees Geneesmiddelenbureau (EMEA), https://www.ema.europa.eu, (februari 2020). Dit corpus bevat 762.433 vertaaleenheden.
- Versie 1.0 (2020)
- Downloadpagina
MultiLing EN-NL
De multiLing-dataset is gebaseerd op zes Engelse bronteksten die in verschillende talen zijn vertaald. Vier daarvan (teksten 1-4) zijn nieuwsartikelen en de andere twee (teksten 5-6) zijn sociologische teksten uit een encyclopedie. De Nederlandse data bestaat uit twee delen. ENDU20: tien Nederlandse vertalingen van de multiLing-set door tien vertalers die recent hun mastersdiploma gehaald hebben en die Nederlands als moedertaal hebben. En ENDU20-MT: twee Nederlandse machinevertalingen van de multiLing-set door DeepL (P20) en Google Translate (P21).
Dutch Government Website Corpus
Parallel (EN-NL) corpus van 6.532 vertaaleenheden.
Dutch Parallel Corpus 2.0 (DPC2)
Het Dutch Parallel Corpus 2.0 is een bidirectioneel parallel corpus van expertvertalingen voor taalparen Nederlands-Engels en Nederlands-Frans. Het corpus is op zinsniveau gealigneerd, gelemmatiseerd en ge-POS-getagd met behulp van de state-of-the-art natuurlijke taalverwerkingstoolkit Stanza. Het corpus bevat momenteel 2,7 miljoen woorden, maar is dynamisch van aard.