Parallel Multilingual Corpora/nl: Difference between revisions

From Clarin K-Centre
Jump to navigation Jump to search
(Created page with "*[https://kdutch.ivdnt.org/wiki/Parallel_Multilingual_Corpora/nl Parallelle Meertalige Corpora]")
 
(Created page with "* [https://dpc2.ugent.be/ Toegangspagina]")
 
(13 intermediate revisions by 2 users not shown)
Line 1: Line 1:
<languages/>


==EDGeS Diachronic Bible Corpus==
==EDGeS Diachronic Bible Corpus==


<div lang="en" dir="ltr" class="mw-content-ltr">
Een diachroon en synchroon parallel corpus van bijbelvertalingen in het Nederlands, Engels, Duits en Zweeds, met teksten van de 14e eeuw tot nu.  
A diachronically and synchronically parallel corpus of Bible translations in Dutch, English, German and Swedish, with texts from the 14th century until today.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://spraakbanken.gu.se/en/resources/openedges OpenEdges-download]
*[https://spraakbanken.gu.se/en/resources/openedges OpenEdges Download]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="PacoMT_Parallel_Corpora"></span>
==PacoMT Parallel Corpora==
==PacoMT Parallelle Corpora==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Tijdens het STEVIN-project PaCo-MT (Parse and Corpus-based Machine Translation) werden twee bestaande parallelle corpora verrijkt met syntactische annotaties en node alignments. De annotaties werden automatisch gegenereerd.
During the STEVIN project PaCo-MT (Parse and Corpus-based Machine Translation), two existing parallel corpora were enriched with syntactic annotations and node alignments. The annotations were generated automatically.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Taalparen: Engels naar Nederlands, Nederlands naar Engels, Frans naar Nederlands, Nederlands naar Frans.
Language Pairs: English to Dutch, Dutch to English, French to Dutch, Dutch to French.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* versie 1.0
*version 1.0
* dataset van 2014
*data set from 2014
* 38,8 MB
*38.8 MB
* [http://hdl.handle.net/10032/tm-a2-f7 Downloadpagina]
*[http://hdl.handle.net/10032/tm-a2-f7 Download page]
* [http://www.ccl.kuleuven.be/Projects/PACO/paco.php Projectwebsite]
*[http://www.ccl.kuleuven.be/Projects/PACO/paco.php Project website]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="The_Dutch_Parallel_Corpus"></span>
==The Dutch Parallel Corpus==
==Het Dutch Parallel Corpus==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Het Dutch Parallel Corpus (DPC) is een parallel corpus van 10 miljoen woorden en zinnen voor de talenparen Nederlands-Engels en Nederlands-Frans, met Nederlands als centrale taal.
The Dutch Parallel Corpus (DPC) is a 10-million-word, sentence-aligned parallel corpus for the language pairs Dutch-English and Dutch-French, with Dutch as the central language.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Het corpus bevat vijf verschillende tekstsoorten en is gebalanceerd wat betreft tekstsoort en vertaalrichting. Het hele corpus is uitgelijnd op zinsniveau en verder verrijkt met linguïstische informatie (lemma's en POS-tags). Een kleine subset van het Nederlands-Engelse deel is ook handmatig uitgelijnd op zinsdeelniveau.
The corpus contains five different text types and is balanced with respect to text type and translation direction. The entire corpus has been aligned at sentence level and further enriched with linguistic information (lemmas and PoS-tags). A small subset of the Dutch-English part has also been manually aligned at the sub-sentential level.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[http://hdl.handle.net/10032/tm-a2-h3 Downloadpagina]
*[http://hdl.handle.net/10032/tm-a2-h3 Download page]
*[https://www.kuleuven-kulak.be/dpc/en/ Projectwebsite]
*[https://www.kuleuven-kulak.be/dpc/en/ Project website]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==The Open Parallel Corpus (OPUS)==
==The Open Parallel Corpus (OPUS)==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Het [https://opus.nlpl.eu/ OPUS-corpus] bevat een zeer grote verzameling parallelle corpora, waaronder veel Nederlandse.
The [https://opus.nlpl.eu/ OPUS corpus] contains a very large collection of parallel corpora, amongst which many contain Dutch.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="COVID-19_Corpora"></span>
==COVID-19 Corpora==
==COVID-19-corpora==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
===COVID-19 - HEALTH Wikipedia dataset. Bilingual (EN-NL)===
===COVID-19 - HEALTH Wikipedia dataset. Bilingual (EN-NL)===
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Tweetalig (EN-NL) corpus afkomstig van Wikipedia over gezondheid en COVID-19 (2 mei 2020). Het corpus bevat 931 vertaaleenheden.
Bilingual (EN-NL) corpus acquired from Wikipedia on health and COVID-19 domain (2nd May 2020). The corpus contains 931 translation units.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* Versie 1.0 (2020)  
* Version 1.0 (2020)  
* [https://elrc-share.eu/repository/browse/covid-19-health-wikipedia-dataset-bilingual-en-nl/b36eccb88de811ea913100155d0267065632b235f586445aa0c67da0afcdfc0e/ Downloadpagina]
* [https://elrc-share.eu/repository/browse/covid-19-health-wikipedia-dataset-bilingual-en-nl/b36eccb88de811ea913100155d0267065632b235f586445aa0c67da0afcdfc0e/ Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="COVID-19_ANTIBIOTIC_dataset._Bilingual_(EN-NL)"></span>
===COVID-19 ANTIBIOTIC dataset. Bilingual (EN-NL)===
===COVID-19 ANTIBIOTIC dataset. Bilinguaal (EN-NL)===
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Tweetalig (EN-NL) corpus afkomstig van de website https://antibiotic.ecdc.europa.eu/. Het corpus bevat 805 vertaaleenheden.
Bilingual (EN-NL) corpus acquired from the website https://antibiotic.ecdc.europa.eu/. The corpus contains 805 translation units.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* Versie 1.0 (2020)
* Version 1.0 (2020)
* [https://elrc-share.eu/repository/browse/covid-19-antibiotic-dataset-bilingual-en-nl/9c5009c0904511ea913100155d026706169da04f5eb448178c8954eb8f874db1/ Downloadpagina]
* [https://elrc-share.eu/repository/browse/covid-19-antibiotic-dataset-bilingual-en-nl/9c5009c0904511ea913100155d026706169da04f5eb448178c8954eb8f874db1/ Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="COVID-19_EC-EUROPA_v1_dataset._Bilingual_(EN-NL)"></span>
=== COVID-19 EC-EUROPA v1 dataset. Bilingual (EN-NL)===
=== COVID-19 EC-EUROPA v1 dataset. Bilinguaal (EN-NL)===
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Tweetalig (EN-NL) corpus afkomstig van de website (https://ec.europa.eu/*coronavirus-response) van het EU-portaal (20 mei 2020). Dit corpus bevat 2.391 vertaaleenheden.
Bilingual (EN-NL) corpus acquired from website (https://ec.europa.eu/*coronavirus-response) of the EU portal (20th May 2020). This corpus contains 2.391 translation units.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* Versie 1.0 (2020)
* Version 1.0 (2020)
*[https://elrc-share.eu/repository/browse/covid-19-ec-europa-v1-dataset-bilingual-en-nl/c839dc1aa17911ea913100155d0267065bd070800d534300b9a82cbc55176caa/ Downloadpagina]
*[https://elrc-share.eu/repository/browse/covid-19-ec-europa-v1-dataset-bilingual-en-nl/c839dc1aa17911ea913100155d0267065bd070800d534300b9a82cbc55176caa/ Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="COVID-19_EU_presscorner_v2_dataset._Bilingual_(EN-NL)"></span>
===COVID-19 EU presscorner v2 dataset. Bilingual (EN-NL)===
===COVID-19 EU presscorner v2 dataset. Bilinguaal (EN-NL)===
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Tweetalig (EN-NL) corpus afkomstig van de website (https://ec.europa.eu/commission/presscorner/) van het EU-portaal (8 juli 2020). Dit corpus bevat 6.810 vertaaleenheden.
Bilingual (EN-NL) corpus acquired from website (https://ec.europa.eu/commission/presscorner/) of the EU portal (8th July 2020). This corpus contains 6.810 translation units.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* Versie 2.0 (2020)
* Version 2.0 (2020)
* [https://elrc-share.eu/repository/browse/covid-19-eu-presscorner-v2-dataset-bilingual-en-nl/c924966ac5c811ea913100155d0267060010380f855d42b188d6225ace812c61/ Downloadpagina]
* [https://elrc-share.eu/repository/browse/covid-19-eu-presscorner-v2-dataset-bilingual-en-nl/c924966ac5c811ea913100155d0267060010380f855d42b188d6225ace812c61/ Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="COVID-19_EUR-LEX_dataset._Βilingual_(EN-NL)"></span>
===COVID-19 EUR-LEX dataset. Βilingual (EN-NL)===
===COVID-19 EUR-LEX dataset. Βilinguaal (EN-NL)===
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Tweetalig (EN-NL) corpus afkomstig van de website (https://eur-lex.europa.eu/legal-content) van het EU-portaal (9 juli 2020). Dit corpus bevat 22.470 vertaaleenheden.
Bilingual (EN-NL) corpus acquired from website (https://eur-lex.europa.eu/legal-content) of the EU portal (9th July 2020). This corpus contains 22.470 translation units.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* Versie 1.0 (2020)
* Version 1.0 (2020)
* [https://elrc-share.eu/repository/browse/covid-19-eur-lex-dataset-ilingual-en-nl/af906a80c5af11ea913100155d026706dc95cf79c8104ea2b5c9e7143216e8b6/ Downloadpagina]
* [https://elrc-share.eu/repository/browse/covid-19-eur-lex-dataset-ilingual-en-nl/af906a80c5af11ea913100155d026706dc95cf79c8104ea2b5c9e7143216e8b6/ Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="COVID-19_EUROPARL_v2_dataset._Bilingual_(EN-NL)"></span>
===COVID-19 EUROPARL v2 dataset. Bilingual (EN-NL) ===
===COVID-19 EUROPARL v2 dataset. Bilinguaal (EN-NL) ===
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Tweetalig (EN-NL) corpus afkomstig van de website (https://www.europarl.europa.eu/) van het Europees Parlement (9 mei 2020). Dit corpus bevat 887 vertaaleenheden.
Bilingual (EN-NL) corpus acquired from the website (https://www.europarl.europa.eu/) of the European Parliament (9th May 2020). This corpus contains 887 translation units.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* Versie 2.0 (2020)
* Version 2.0 (2020)
* [https://elrc-share.eu/repository/browse/covid-19-europarl-v2-dataset-bilingual-en-nl/aca366f4941f11ea913100155d0267066f2c95e65e20479ba769a4ec18bb3373/ Downloadpagina]
* [https://elrc-share.eu/repository/browse/covid-19-europarl-v2-dataset-bilingual-en-nl/aca366f4941f11ea913100155d0267066f2c95e65e20479ba769a4ec18bb3373/ Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="COVID-19_Parallel_Global_Voices_dataset._Bilingual_(EN-NL)"></span>
===COVID-19 Parallel Global Voices dataset. Bilingual (EN-NL)===
===COVID-19 Parallel Global Voices dataset. Bilinguaal (EN-NL)===
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
EN-NL tweetalig COVID-19-gerelateerd corpus afkomstig van de website (https://globalvoices.org/) van GlobalVoices (28 april 2020). Dit corpus bevat 675 vertaaleenheden.
EN-NL Bilingual COVID-19-related corpus acquired from the website (https://globalvoices.org/) of GlobalVoices (28th April 2020). This corpus contains 675 translation units.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* Versie 1.0 (2020)
* Version 1.0 (2020)
* [https://elrc-share.eu/repository/browse/covid-19-parallel-global-voices-dataset-bilingual-en-nl/df312cf0895211ea913100155d02670693358ccdbdf24ae79e142e3999159478/ Downloadpagina]
* [https://elrc-share.eu/repository/browse/covid-19-parallel-global-voices-dataset-bilingual-en-nl/df312cf0895211ea913100155d02670693358ccdbdf24ae79e142e3999159478/ Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="Bilingual_corpus_from_the_European_Vaccination_Portal_(NL-EN)"></span>
==Bilingual corpus from the European Vaccination Portal (NL-EN)==
==Bilinguaal corpus afkomstig van het Europees vaccinatie-informatieportaal (NL-EN)==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
NL-EN tweetalig corpus afkomstig van https://vaccination-info.eu. Dit corpus bevat 494 vertaaleenheden.
NL-EN Bilingual corpus acquired from https://vaccination-info.eu. This corpus contains 494 translation units.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* Versie 1.0 (2020)
* Version 1.0 (2020)
* [https://elrc-share.eu/repository/browse/bilingual-corpus-from-the-european-vaccination-portal-nl-en/416f3388864e11ea913100155d026706f6cf8712d2304ecfa917aac7e5eb6731/ Downloadpagina]
* [https://elrc-share.eu/repository/browse/bilingual-corpus-from-the-european-vaccination-portal-nl-en/416f3388864e11ea913100155d026706f6cf8712d2304ecfa917aac7e5eb6731/ Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="Bilingual_corpus_from_the_Publications_Office_of_the_EU_on_the_medical_domain_v.2_(EN-NL)"></span>
==Bilingual corpus from the Publications Office of the EU on the medical domain v.2 (EN-NL) ==
==Tweetalig corpus van het Publicatiebureau van de EU i.v.m. het medische domein v.2 (EN-NL)==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
EE-NL tweetalig corpus afkomstig van het Publicatiebureau van de EU i.v.m. het medische domein. De data is afkomstig uit wetten, studies, EG-mededelingen, enz. gelabeld met concepten als epidemiologie, epidemie, ziektebewaking, gezondheidscontrole, openbare hygiëne, vrijheid van verkeer, afstandsonderwijs, enz. Dit corpus bevat 13.191 vertaaleenheden.
EEN-NL Bilingual corpus extracted from the Publications Office of the EU on the medical domain. These are sourced from laws, studies, EC announcements, etc. labelled with concepts like epidemiology, epidemic, disease surveillance, health control, public hygiene, freedom of movement, distance learning, etc. This corpus contains 13.191 translation units.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* Versie 2.0 (2020)
* Version 2.0 (2020)
* [https://elrc-share.eu/repository/browse/bilingual-corpus-from-the-publications-office-of-the-eu-on-the-medical-domain-v2-en-nl/0795a5328ac411ea913100155d02670661b540c3ab9b437baf5a6c579c7edb3b/ Downloadpagina]
* [https://elrc-share.eu/repository/browse/bilingual-corpus-from-the-publications-office-of-the-eu-on-the-medical-domain-v2-en-nl/0795a5328ac411ea913100155d02670661b540c3ab9b437baf5a6c579c7edb3b/ Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="Bilingual_corpus_made_out_of_PDF_documents_from_the_European_Medicines_Agency,_(EMEA)_(EN-NL)."></span>
==Bilingual corpus made out of PDF documents from the European Medicines Agency, (EMEA) (EN-NL).==
==Bilinguaal corpus gemaakt van PDF-documenten van het Europees Geneesmiddelenbureau (EMEA) (EN-NL).==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
EN-NL tweetalig corpus gemaakt van PDF-documenten van het Europees Geneesmiddelenbureau (EMEA), https://www.ema.europa.eu, (februari 2020). Dit corpus bevat 762.433 vertaaleenheden.
EN-NL Bilingual corpus made out of PDF documents from the European Medicines Agency, (EMEA), https://www.ema.europa.eu, (February 2020). This corpus contains 762.433 translation units.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* Versie 1.0 (2020)
* Version 1.0 (2020)
* [https://elrc-share.eu/repository/browse/bilingual-corpus-made-out-of-pdf-documents-from-the-european-medicines-agency-emea-httpswwwemaeuropaeu-february-2020-en-nl/93284c8e862411ea913100155d026706d3313f47bec143cd98cc4ba1aa62b4b5/ Downloadpagina]
* [https://elrc-share.eu/repository/browse/bilingual-corpus-made-out-of-pdf-documents-from-the-european-medicines-agency-emea-httpswwwemaeuropaeu-february-2020-en-nl/93284c8e862411ea913100155d026706d3313f47bec143cd98cc4ba1aa62b4b5/ Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==MultiLing EN-NL==
==MultiLing EN-NL==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
De multiLing-dataset is gebaseerd op zes Engelse bronteksten die in verschillende talen zijn vertaald. Vier daarvan (teksten 1-4) zijn nieuwsartikelen en de andere twee (teksten 5-6) zijn sociologische teksten uit een encyclopedie. De Nederlandse data bestaat uit twee delen. ENDU20: tien Nederlandse vertalingen van de multiLing-set door tien vertalers die recent hun mastersdiploma gehaald hebben en die Nederlands als moedertaal hebben. En ENDU20-MT: twee Nederlandse machinevertalingen van de multiLing-set door DeepL (P20) en Google Translate (P21).
The multiLing data set is based on six English source texts which are translated into various languages. Four of them (Texts 1-4) are news articles and the other two are (Texts 5-6) sociological texts from an encyclopedia. The Dutch data consists of two parts. ENDU20: Ten Dutch translations of the multiLing set by ten native Dutch recent master's degree translators and ENDU20-MT: Two Dutch machine translations of the multiLing set by DeepL (P20) and Google Translate (P21).
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* [https://lt3.ugent.be/resources/multiling-en-nl/ Projectinformatie en downloadinstructies]
* [https://lt3.ugent.be/resources/multiling-en-nl/ Project information and download instructions]
* [https://sites.google.com/site/centretranslationinnovation/tpr-db/public-studies#h.p_iVVuCQOHJx2O MultiLing-informatie]
* [https://sites.google.com/site/centretranslationinnovation/tpr-db/public-studies#h.p_iVVuCQOHJx2O MultiLing information]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Dutch Government Website Corpus==
==Dutch Government Website Corpus==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Parallel (EN-NL) corpus van 6.532 vertaaleenheden.
Parallel (en-nl) corpus of 6.532 translation units.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* [https://live.european-language-grid.eu/catalogue/corpus/2877/ European Language Grid-pagina]
* [https://live.european-language-grid.eu/catalogue/corpus/2877/ European Language Grid page]
 
</div>
==Dutch Parallel Corpus 2.0 (DPC2)==
 
Het Dutch Parallel Corpus 2.0 is een bidirectioneel parallel corpus van expertvertalingen voor taalparen Nederlands-Engels en Nederlands-Frans. Het corpus is op zinsniveau gealigneerd, gelemmatiseerd en ge-POS-getagd met behulp van de state-of-the-art natuurlijke taalverwerkingstoolkit Stanza. Het corpus bevat momenteel 2,7 miljoen woorden, maar is dynamisch van aard.
 
* [https://dpc2.ugent.be/ Toegangspagina]

Latest revision as of 06:59, 20 June 2024

Other languages:

EDGeS Diachronic Bible Corpus

Een diachroon en synchroon parallel corpus van bijbelvertalingen in het Nederlands, Engels, Duits en Zweeds, met teksten van de 14e eeuw tot nu.

PacoMT Parallelle Corpora

Tijdens het STEVIN-project PaCo-MT (Parse and Corpus-based Machine Translation) werden twee bestaande parallelle corpora verrijkt met syntactische annotaties en node alignments. De annotaties werden automatisch gegenereerd.

Taalparen: Engels naar Nederlands, Nederlands naar Engels, Frans naar Nederlands, Nederlands naar Frans.

Het Dutch Parallel Corpus

Het Dutch Parallel Corpus (DPC) is een parallel corpus van 10 miljoen woorden en zinnen voor de talenparen Nederlands-Engels en Nederlands-Frans, met Nederlands als centrale taal.

Het corpus bevat vijf verschillende tekstsoorten en is gebalanceerd wat betreft tekstsoort en vertaalrichting. Het hele corpus is uitgelijnd op zinsniveau en verder verrijkt met linguïstische informatie (lemma's en POS-tags). Een kleine subset van het Nederlands-Engelse deel is ook handmatig uitgelijnd op zinsdeelniveau.

The Open Parallel Corpus (OPUS)

Het OPUS-corpus bevat een zeer grote verzameling parallelle corpora, waaronder veel Nederlandse.

COVID-19-corpora

COVID-19 - HEALTH Wikipedia dataset. Bilingual (EN-NL)

Tweetalig (EN-NL) corpus afkomstig van Wikipedia over gezondheid en COVID-19 (2 mei 2020). Het corpus bevat 931 vertaaleenheden.

COVID-19 ANTIBIOTIC dataset. Bilinguaal (EN-NL)

Tweetalig (EN-NL) corpus afkomstig van de website https://antibiotic.ecdc.europa.eu/. Het corpus bevat 805 vertaaleenheden.

COVID-19 EC-EUROPA v1 dataset. Bilinguaal (EN-NL)

Tweetalig (EN-NL) corpus afkomstig van de website (https://ec.europa.eu/*coronavirus-response) van het EU-portaal (20 mei 2020). Dit corpus bevat 2.391 vertaaleenheden.

COVID-19 EU presscorner v2 dataset. Bilinguaal (EN-NL)

Tweetalig (EN-NL) corpus afkomstig van de website (https://ec.europa.eu/commission/presscorner/) van het EU-portaal (8 juli 2020). Dit corpus bevat 6.810 vertaaleenheden.

COVID-19 EUR-LEX dataset. Βilinguaal (EN-NL)

Tweetalig (EN-NL) corpus afkomstig van de website (https://eur-lex.europa.eu/legal-content) van het EU-portaal (9 juli 2020). Dit corpus bevat 22.470 vertaaleenheden.

COVID-19 EUROPARL v2 dataset. Bilinguaal (EN-NL)

Tweetalig (EN-NL) corpus afkomstig van de website (https://www.europarl.europa.eu/) van het Europees Parlement (9 mei 2020). Dit corpus bevat 887 vertaaleenheden.

COVID-19 Parallel Global Voices dataset. Bilinguaal (EN-NL)

EN-NL tweetalig COVID-19-gerelateerd corpus afkomstig van de website (https://globalvoices.org/) van GlobalVoices (28 april 2020). Dit corpus bevat 675 vertaaleenheden.

Bilinguaal corpus afkomstig van het Europees vaccinatie-informatieportaal (NL-EN)

NL-EN tweetalig corpus afkomstig van https://vaccination-info.eu. Dit corpus bevat 494 vertaaleenheden.

Tweetalig corpus van het Publicatiebureau van de EU i.v.m. het medische domein v.2 (EN-NL)

EE-NL tweetalig corpus afkomstig van het Publicatiebureau van de EU i.v.m. het medische domein. De data is afkomstig uit wetten, studies, EG-mededelingen, enz. gelabeld met concepten als epidemiologie, epidemie, ziektebewaking, gezondheidscontrole, openbare hygiëne, vrijheid van verkeer, afstandsonderwijs, enz. Dit corpus bevat 13.191 vertaaleenheden.

Bilinguaal corpus gemaakt van PDF-documenten van het Europees Geneesmiddelenbureau (EMEA) (EN-NL).

EN-NL tweetalig corpus gemaakt van PDF-documenten van het Europees Geneesmiddelenbureau (EMEA), https://www.ema.europa.eu, (februari 2020). Dit corpus bevat 762.433 vertaaleenheden.

MultiLing EN-NL

De multiLing-dataset is gebaseerd op zes Engelse bronteksten die in verschillende talen zijn vertaald. Vier daarvan (teksten 1-4) zijn nieuwsartikelen en de andere twee (teksten 5-6) zijn sociologische teksten uit een encyclopedie. De Nederlandse data bestaat uit twee delen. ENDU20: tien Nederlandse vertalingen van de multiLing-set door tien vertalers die recent hun mastersdiploma gehaald hebben en die Nederlands als moedertaal hebben. En ENDU20-MT: twee Nederlandse machinevertalingen van de multiLing-set door DeepL (P20) en Google Translate (P21).

Dutch Government Website Corpus

Parallel (EN-NL) corpus van 6.532 vertaaleenheden.

Dutch Parallel Corpus 2.0 (DPC2)

Het Dutch Parallel Corpus 2.0 is een bidirectioneel parallel corpus van expertvertalingen voor taalparen Nederlands-Engels en Nederlands-Frans. Het corpus is op zinsniveau gealigneerd, gelemmatiseerd en ge-POS-getagd met behulp van de state-of-the-art natuurlijke taalverwerkingstoolkit Stanza. Het corpus bevat momenteel 2,7 miljoen woorden, maar is dynamisch van aard.