Export translations

Settings

Group

Language

Format

Export for off-line translation

Export in native format

Export in CSV format

<div lang="en" dir="ltr" class="mw-content-ltr">
==EDGeS Diachronic Bible Corpus==
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
A diachronically and synchronically parallel corpus of Bible translations in Dutch, English, German and Swedish, with texts from the 14th century until today.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://spraakbanken.gu.se/en/resources/openedges OpenEdges Download]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
==PacoMT Parallel Corpora==
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
During the STEVIN project PaCo-MT (Parse and Corpus-based Machine Translation), two existing parallel corpora were enriched with syntactic annotations and node alignments. The annotations were generated automatically.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
Language Pairs: English to Dutch, Dutch to English, French to Dutch, Dutch to French.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
*version 1.0
*data set from 2014
*38.8 MB
*[http://hdl.handle.net/10032/tm-a2-f7 Download page]
*[http://www.ccl.kuleuven.be/Projects/PACO/paco.php Project website]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
==The Dutch Parallel Corpus==
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
The Dutch Parallel Corpus (DPC) is a 10-million-word, sentence-aligned parallel corpus for the language pairs Dutch-English and Dutch-French, with Dutch as the central language.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
The corpus contains five different text types and is balanced with respect to text type and translation direction. The entire corpus has been aligned at sentence level and further enriched with linguistic information (lemmas and PoS-tags). A small subset of the Dutch-English part has also been manually aligned at the sub-sentential level.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
*[http://hdl.handle.net/10032/tm-a2-h3 Download page]
*[https://www.kuleuven-kulak.be/dpc/en/ Project website]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
==The Open Parallel Corpus (OPUS)==
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
The [https://opus.nlpl.eu/ OPUS corpus] contains a very large collection of parallel corpora, amongst which many contain Dutch.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
==COVID-19 Corpora==
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
===COVID-19 - HEALTH Wikipedia dataset. Bilingual (EN-NL)===
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
Bilingual (EN-NL) corpus acquired from Wikipedia on health and COVID-19 domain (2nd May 2020). The corpus contains 931 translation units.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
* Version 1.0 (2020) 
* [https://live.european-language-grid.eu/catalogue/corpus/3532 Download page]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
===COVID-19 ANTIBIOTIC dataset. Bilingual (EN-NL)===
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
Bilingual (EN-NL) corpus acquired from the website https://antibiotic.ecdc.europa.eu/. The corpus contains 805 translation units.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
* Version 1.0 (2020)
* [https://live.european-language-grid.eu/catalogue/corpus/3600 Download page]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
=== COVID-19 EC-EUROPA v1 dataset. Bilingual (EN-NL)===
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
Bilingual (EN-NL) corpus acquired from the EU portal (20th May 2020). This corpus contains 2.391 translation units.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
* Version 1.0 (2020)
*[https://live.european-language-grid.eu/catalogue/corpus/3671 Download page]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
===COVID-19 EU presscorner v2 dataset. Bilingual (EN-NL)===
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
Bilingual (EN-NL) corpus acquired from website (https://ec.europa.eu/commission/presscorner/) of the EU portal (8th July 2020). This corpus contains 6.810 translation units.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
* Version 2.0 (2020)
* [https://live.european-language-grid.eu/catalogue/corpus/3720 Download page]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
===COVID-19 EUR-LEX dataset. Βilingual (EN-NL)===
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
Bilingual (EN-NL) corpus acquired from the EU portal (9th July 2020). This corpus contains 22.470 translation units.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
* Version 1.0 (2020)
* [https://live.european-language-grid.eu/catalogue/corpus/3697 Download page]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
===COVID-19 EUROPARL v2 dataset. Bilingual (EN-NL) ===
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
Bilingual (EN-NL) corpus acquired from the website (https://www.europarl.europa.eu/) of the European Parliament (9th May 2020). This corpus contains 887 translation units.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
* Version 2.0 (2020)
* [https://live.european-language-grid.eu/catalogue/corpus/3625 Download page]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
===COVID-19 Parallel Global Voices dataset. Bilingual (EN-NL)===
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
EN-NL Bilingual COVID-19-related corpus acquired from the website (https://globalvoices.org/) of GlobalVoices (28th April 2020). This corpus contains 675 translation units.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
* Version 1.0 (2020)
* [https://live.european-language-grid.eu/catalogue/corpus/3486 Download page]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
==Bilingual corpus from the European Vaccination Portal (NL-EN)==
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
NL-EN Bilingual corpus acquired from https://vaccination-info.eu. This corpus contains 494 translation units.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
* Version 1.0 (2020)
* [https://live.european-language-grid.eu/catalogue/corpus/3472 Download page]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
==Bilingual corpus from the Publications Office of the EU on the medical domain v.2 (EN-NL) ==
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
EN-NL Bilingual corpus extracted from the Publications Office of the EU on the medical domain. These are sourced from laws, studies, EC announcements, etc. labelled with concepts like epidemiology, epidemic, disease surveillance, health control, public hygiene, freedom of movement, distance learning, etc. This corpus contains 13.191 translation units.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
* Version 2.0 (2020)
* [https://live.european-language-grid.eu/catalogue/corpus/3417 Download page]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
==Bilingual corpus made out of PDF documents from the European Medicines Agency, (EMEA) (EN-NL).==
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
EN-NL Bilingual corpus made out of PDF documents from the European Medicines Agency, (EMEA), https://www.ema.europa.eu, (February 2020). This corpus contains 762.433 translation units.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
* Version 1.0 (2020)
* [https://live.european-language-grid.eu/catalogue/corpus/3439 Download page]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
==MultiLing EN-NL==
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
The multiLing data set is based on six English source texts which are translated into various languages. Four of them (texts 1-4) are news articles and the other two are (texts 5-6) sociological texts from an encyclopedia. The Dutch data consists of two parts. ENDU20: Ten Dutch translations of the multiLing set by ten native Dutch recent master's degree translators and ENDU20-MT: Two Dutch machine translations of the multiLing set by DeepL (P20) and Google Translate (P21).
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
* [https://lt3.ugent.be/resources/multiling-en-nl/ Project information and download instructions]
* [https://sites.google.com/site/centretranslationinnovation/tpr-db/public-studies#h.p_iVVuCQOHJx2O MultiLing information]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
==Dutch Government Website Corpus==
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
Parallel (EN-NL) corpus of 6.532 translation units.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
* [https://live.european-language-grid.eu/catalogue/corpus/2877/ European Language Grid page]
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
==Dutch Parallel Corpus 2.0 (DPC2)==
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
The Dutch Parallel Corpus 2.0 is a bidirectional parallel corpus of expert translations for Dutch-English and Dutch-French language pairs. The corpus is sentence-aligned, lemmatized and POS-tagged using the state-of-the-art natural language processing toolkit Stanza. The corpus currently contains 2.7 million words, but is dynamic in nature.
</div>

<div lang="en" dir="ltr" class="mw-content-ltr">
* [https://dpc2.ugent.be/ Access page]
</div>