Parallelle Meertalige Corpora
EDGeS Diachronic Bible Corpus
Een diachroon en synchroon parallel corpus van bijbelvertalingen in het Nederlands, Engels, Duits en Zweeds, met teksten van de 14e eeuw tot nu.
PacoMT Parallelle Corpora
Tijdens het STEVIN-project PaCo-MT (Parse and Corpus-based Machine Translation) werden twee bestaande parallelle corpora verrijkt met syntactische annotaties en node alignments. De annotaties werden automatisch gegenereerd.
Taalparen: Engels naar Nederlands, Nederlands naar Engels, Frans naar Nederlands, Nederlands naar Frans.
- versie 1.0
- dataset van 2014
- 38,8 MB
- Downloadpagina
- Projectwebsite
Het Dutch Parallel Corpus
Het Dutch Parallel Corpus (DPC) is een parallel corpus van 10 miljoen woorden en zinnen voor de talenparen Nederlands-Engels en Nederlands-Frans, met Nederlands als centrale taal.
Het corpus bevat vijf verschillende tekstsoorten en is gebalanceerd wat betreft tekstsoort en vertaalrichting. Het hele corpus is uitgelijnd op zinsniveau en verder verrijkt met linguïstische informatie (lemma's en POS-tags). Een kleine subset van het Nederlands-Engelse deel is ook handmatig uitgelijnd op zinsdeelniveau.
The Open Parallel Corpus (OPUS)
Het OPUS-corpus bevat een zeer grote verzameling parallelle corpora, waaronder veel Nederlandse.
COVID-19-corpora
COVID-19 - HEALTH Wikipedia dataset. Bilingual (EN-NL)
Tweetalig (EN-NL) corpus afkomstig van Wikipedia over gezondheid en COVID-19 (2 mei 2020). Het corpus bevat 931 vertaaleenheden.
- Versie 1.0 (2020)
- Downloadpagina
COVID-19 ANTIBIOTIC dataset. Bilinguaal (EN-NL)
Tweetalig (EN-NL) corpus afkomstig van de website https://antibiotic.ecdc.europa.eu/. Het corpus bevat 805 vertaaleenheden.
- Versie 1.0 (2020)
- Downloadpagina
COVID-19 EC-EUROPA v1 dataset. Bilinguaal (EN-NL)
Tweetalig (EN-NL) corpus afkomstig van de website (https://ec.europa.eu/*coronavirus-response) van het EU-portaal (20 mei 2020). Dit corpus bevat 2.391 vertaaleenheden.
- Versie 1.0 (2020)
- Downloadpagina
COVID-19 EU presscorner v2 dataset. Bilinguaal (EN-NL)
Tweetalig (EN-NL) corpus afkomstig van de website (https://ec.europa.eu/commission/presscorner/) van het EU-portaal (8 juli 2020). Dit corpus bevat 6.810 vertaaleenheden.
- Version 2.0 (2020)
- Download page
COVID-19 EUR-LEX dataset. Βilingual (EN-NL)
Bilingual (EN-NL) corpus acquired from website (https://eur-lex.europa.eu/legal-content) of the EU portal (9th July 2020). This corpus contains 22.470 translation units.
- Version 1.0 (2020)
- Download page
COVID-19 EUROPARL v2 dataset. Bilingual (EN-NL)
Bilingual (EN-NL) corpus acquired from the website (https://www.europarl.europa.eu/) of the European Parliament (9th May 2020). This corpus contains 887 translation units.
- Version 2.0 (2020)
- Download page
COVID-19 Parallel Global Voices dataset. Bilingual (EN-NL)
EN-NL Bilingual COVID-19-related corpus acquired from the website (https://globalvoices.org/) of GlobalVoices (28th April 2020). This corpus contains 675 translation units.
- Version 1.0 (2020)
- Download page
Bilingual corpus from the European Vaccination Portal (NL-EN)
NL-EN Bilingual corpus acquired from https://vaccination-info.eu. This corpus contains 494 translation units.
- Version 1.0 (2020)
- Download page
Bilingual corpus from the Publications Office of the EU on the medical domain v.2 (EN-NL)
EEN-NL Bilingual corpus extracted from the Publications Office of the EU on the medical domain. These are sourced from laws, studies, EC announcements, etc. labelled with concepts like epidemiology, epidemic, disease surveillance, health control, public hygiene, freedom of movement, distance learning, etc. This corpus contains 13.191 translation units.
- Version 2.0 (2020)
- Download page
Bilingual corpus made out of PDF documents from the European Medicines Agency, (EMEA) (EN-NL).
EN-NL Bilingual corpus made out of PDF documents from the European Medicines Agency, (EMEA), https://www.ema.europa.eu, (February 2020). This corpus contains 762.433 translation units.
- Version 1.0 (2020)
- Download page
MultiLing EN-NL
The multiLing data set is based on six English source texts which are translated into various languages. Four of them (Texts 1-4) are news articles and the other two are (Texts 5-6) sociological texts from an encyclopedia. The Dutch data consists of two parts. ENDU20: Ten Dutch translations of the multiLing set by ten native Dutch recent master's degree translators and ENDU20-MT: Two Dutch machine translations of the multiLing set by DeepL (P20) and Google Translate (P21).
Dutch Government Website Corpus
Parallel (en-nl) corpus of 6.532 translation units.