Historical corpora/nl: Difference between revisions

From Clarin K-Centre
Jump to navigation Jump to search
(Created page with "Historische corpora")
 
No edit summary
 
(13 intermediate revisions by 2 users not shown)
Line 1: Line 1:
<div lang="en" dir="ltr" class="mw-content-ltr">
== Nederlab ==
== Nederlab ==
A user-friendly and tool-enriched open access web interface that aims at containing all digitized texts relevant for the Dutch national heritage and the history of Dutch language and culture (c. 800 - present).
Een gebruiksvriendelijke en met applicaties verrijkte open access webinterface die zich richt op het verzamelen van alle gedigitaliseerde teksten die relevant zijn voor het nationale Nederlandse erfgoed en de geschiedenis van de Nederlandse taal en cultuur (circa 800 - nu).  
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://www.nederlab.nl/ Projectwebsite]
*[https://www.nederlab.nl/ Project website]
*[https://dev.clarin.nl/node/4234 CLAPOP-beschrijving]
*[https://dev.clarin.nl/node/4234 CLAPOP description]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="Before_12th_century:_Corpus_of_Old_Dutch"></span>
==Before 12th century: Corpus of Old Dutch==
==Voor de 12e eeuw: Corpus Oudnederlands==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Het Corpus Oudnederlands is de verzameling van al het overgebleven Nederlandse woordmateriaal uit de periode 475-1200 dat als bronmateriaal heeft gediend voor het Oudnederlands Woordenboek (ONW).
The Corpus of Old Dutch is the collection of all texts in Old Dutch that served as source material for the Dictionary of Old Dutch (ONW). The texts originate from the period between 475 and 1200.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Uitgangspunt waren de Oudnederlandse teksten die de Gentse taalkundige Maurits Gysseling had verzameld en getranscribeerd. Het corpus bestaat uit drie grote teksten (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) en talrijke kleinere Oudnederlandse teksten en tekstfragmenten (waaronder runeninscripties), glossen en losse woorden, Frankisch materiaal en toponymisch materiaal. Het corpus is taalkundig verrijkt met woordsoort en lemma. De annotaties van het hele corpus zijn handmatig geverifieerd.
The texts in Old Dutch that Maurits Gysseling had collected and transcribed formed the basis of this collection. They have been supplemented with texts like the Mittelfränkische Reimbibel, glosses like the Malbergse glossen to the Lex Salica, and anthroponymic and toponymic material. The corpus has been annotated with word classes and lemmas. The annotation of the entire corpus has been manually verified.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Wat is Oudnederlands?
What is Old Dutch?
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Het Oudnederlands is de verzamelnaam voor een aantal verwante dialecten die net als het Oudengels, het Oudfries, het Oudsaksisch en het Oudhoogduits rond het begin van de vijfde eeuw zijn ontstaan uit het West-Germaans. Het werd gesproken in een gebied dat samenviel met het huidige Nederland (mogelijk met uitzondering van de kuststreek van Groningen tot aan de Oude Rijn in de provincie Zuid-Holland), het Nederlandstalige deel van België, Frans-Vlaanderen en een stuk van Duitsland tussen de Nederlandse grens, de Rijn en de zogenaamde Benrather Linie, de grens tussen het Neder- en het Hoogduitse taalgebied.
Old Dutch is the collective term for several related dialects that just like Old English, Old Frisian, Old Saxon, and Old High German developed out of West Germanic around the beginning of the fifth century. It was spoken in an area that does not entirely correspond with the current Dutch-speaking region.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
De afgrenzing tussen Oudnederlands, Oudsaksisch en Oudfries is soms lastig te maken. De redactie van het Oudnederlands Woordenboek (ONW), die verantwoordelijk was voor de samenstelling van het corpus, heeft een ruim opnamebeleid gehanteerd. Toch zijn niet alle teksten uit de oorspronkelijke Oudnederlandse tekstverzameling van Gysseling in het corpus opgenomen. Een voorbeeld daarvan is het gedicht de Heliand, omdat die tekst Oudsaksisch is.
Differentiating between Old Dutch, Old Saxon, and Old Frisian is sometimes difficult. The editors of the Dictionary of Old Dutch, who were responsible for the compilation of the corpus, applied a liberal admission policy. Nevertheless, not all texts from Gysseling’s original Old Dutch collection were incorporated into the corpus. One example is the Heliand, a poem that was left out because it was written in Old Saxon.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://ivdnt.org/corpora-lexica/corpus-oudnederlands/ Projectpagina]
*[https://ivdnt.org/corpora-lexica/corpus-oudnederlands/ Project page]
*[https://corpusoudnederlands.ivdnt.org/corpus-frontend/ONL/search/ Online zoeken]
*[https://corpusoudnederlands.ivdnt.org/corpus-frontend/ONL/search/ Online search]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="13th_century:_Gysseling_Corpus"></span>
==13th century: Gysseling Corpus==
==13e eeuw: Corpus Gysseling==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Het Corpus Gysseling is de verzameling van alle 13e-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek (VMNW). Het corpus bestaat voornamelijk uit ambtelijke en literaire bronnen van teksten uit de periode 1200-1300 die bovendien in 13e-eeuwse handschriften zijn overgeleverd.
The Gysseling Corpus is the collection of all 13th-century texts that have served as source material for the Dictionary of Early Middle Dutch (VMNW). The corpus consists mainly of official and literary sources of thirteenth-century texts that have been handed down in 13th-century manuscripts.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
De teksten zijn diplomatisch uitgegeven, wat wil zeggen dat de tekst zoals die in de bronnen staat zo nauwkeurig mogelijk is weergegeven in moderne schrifttekens. Het corpus is taalkundig verrijkt met woordsoort en modern Nederlands lemma (trefwoord), om het beter doorzoekbaar te maken. De taalkundige aanvullingen van het hele corpus zijn handmatig geverifieerd.
The texts are diplomatic editions, which means that the source texts have been rendered in modern script as accurately as possible. The corpus has been linguistically annotated with word classes and modern Dutch lemmas (entry words) to enhance its searchability. The annotation of the entire corpus has been manually verified.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[http://corpusgysseling.ivdnt.org/corpus-frontend/Gysseling/search Online zoeken]
*[http://corpusgysseling.ivdnt.org/corpus-frontend/Gysseling/search Online search]
*[http://hdl.handle.net/10032/tm-a2-j4 Downloadpagina]
*[http://hdl.handle.net/10032/tm-a2-j4 Download page]
*[https://ivdnt.org/corpora-lexica/corpus-gysseling/ Projectpagina]
*[https://ivdnt.org/corpora-lexica/corpus-gysseling/ Project page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="14th_-_16th_century:_Corpus_of_Middle_Dutch"></span>
==14th - 16th century: Corpus of Middle Dutch==
==14e - 16e eeuw: Corpus Middelnederlands==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Het Corpus Middelnederlands is een verzameling rijm- en prozateksten in het Middelnederlands uit de periode 1300-1550. Het bevat klassiekers als de Beatrijs, de Reynaert, de abele spelen, de verhalen rond koning Arthur en rond Karel de Grote, alle teksten uit het befaamde Gruuthuse-handschrift (met het Egidiuslied), maar ook veel van de wat minder bekende of minder onderzochte teksten, zoals prozabewerkingen van de ridderverhalen op rijm (de zogenoemde ‘volksboeken’), liedverzamelingen zoals het Antwerps Liedboek, diverse Bijbelvertalingen, heiligenlevens, gebedenboeken, kronieken, en allerlei religieuze, didactische en wetenschappelijke traktaten, geneeskundige handleidingen en recepten.
The Corpus of Middle Dutch is a collection of rhyming texts and prose from the period of 1300-1550. It contains classics such as Beatrijs, Van den vos Reynaerde, the abele spelen, the stories about King Arthur and about Charlemagne, all texts from the famous Gruuthuuse manuscript (including the Egidius song), but also many of the lesser known or less researched texts, such as prose adaptations of the rhyming knight’s tales (the so-called ‘folk books’), collections of songs such as the Antwerp Songbook, various Bible translations, hagiographies, books of prayer, chronicles, and all kinds of religious, didactic and scientific treatises, medical manuals and recipes.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Het corpus is samengesteld uit overwegend kritische tekstedities: wetenschappelijk verantwoorde gedrukte uitgaven. Het wordt op termijn verrijkt met woordsoort en lemma om het beter doorzoekbaar te maken.
The corpus was compiled on the basis of mainly critical, scientifically sound text editions. In time, it will be annotated with word classes and lemmas, to improve searchability.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[http://hdl.handle.net/10032/tm-a2-j6 Downloadpagina]
*[http://hdl.handle.net/10032/tm-a2-j6 Download page]
*[http://corpusmiddelnederlands.ivdnt.org/corpus-frontend/MNL/search/ Online zoeken]
*[http://corpusmiddelnederlands.ivdnt.org/corpus-frontend/MNL/search/ Online search]
*[https://ivdnt.org/corpora-lexica/corpus-middelnederlands/ Projectpagina]
*[https://ivdnt.org/corpora-lexica/corpus-middelnederlands/ Project page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="17th_century:_Newspaper_Corpus"></span>
==17th century: Newspaper Corpus==
==17e eeuw: Couranten Corpus==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Het Couranten Corpus omvat de zeventiende-eeuwse Nederlandse kranten die op Delpher beschikbaar zijn.(delpher.nl/kranten) De oudste, overgeleverde kranten zijn gepubliceerd in 1618. Voor de Delpher-website heeft de Koninklijke Bibliotheek in Den Haag deze zeventiende-eeuwse kranten gescand. Deze scans zijn gelezen met optische tekenherkenning (OCR). OCR kon echter niet overweg met de oude lettertypen en teksten van deze kranten. Daarom heeft het Meertens Instituut een citizen science project opgezet, onder leiding van Nicoline van der Sijs. Met behulp van een collaboratieve webapplicatie, werden alle kranten getranscribeerd en gecorrigeerd door meer dan 300 vrijwilligers van de Stichting Vrijwilligersnetwerk Nederlandse Taal. Vervolgens werd de metadata gecontroleerd en gecorrigeerd en nieuwe metadata toegevoegd, bijvoorbeeld over genre (advertenties, landelijk nieuws, internationaal nieuws, etc.).
The Couranten Corpus comprises the seventeenth-century Dutch newspapers available on Delpher (delpher.nl/kranten). The oldest surviving newspapers were published in 1618. For the Delpher-website the Koninklijke Bibliotheek in The Hague has scanned the newspapers. In a citizen science project all newspapers were transcribed and corrected by more than 300 volunteers of the Stichting Vrijwilligersnetwerk Nederlandse Taal, led by Nicoline van der Sijs. Subsequently, metadata were added and checked, for instance on genre (advertisements, national news, international news).
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Dit corpus bevat momenteel de inhoud van 13 kranten, 109.532 artikelen en 18.926.425 woorden. De informatie in deze kranten is van belang voor onderzoekers van verschillende disciplines, variërend van historici tot historische taalkundigen, literatuurwetenschappers en kunsthistorici.
This sizeable corpus currently contains the contents of 13 newspapers, 109.532 articles and 18.926.425 words. The information in these newspapers is of interest to researchers of various disciplines, ranging from historians to historical linguists, literature scholars and art historians.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
In de toekomst zullen transcripties van nieuw gedigitaliseerde kranten uit de zeventiende eeuw en kranten uit de achttiende eeuw aan het Couranten Corpus worden toegevoegd.
In the future, transcriptions of newly digitised newspapers from the seventeenth century and newspapers from the eighteenth century will be added to the Couranten Corpus.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
De eerste online beschikbare versie van het Couranten Corpus werd openbaar gemaakt op 12 mei 2022.
This first online accessible version of the Couranten Corpus was released on 12th May 2022.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://couranten.ivdnt.org/corpus-frontend/couranten/search/ Online zoeken]
*[https://couranten.ivdnt.org/corpus-frontend/couranten/search/ Online search]
*[https://ivdnt.org/corpora-lexica/courantencorpus/ Projectpagina]
*[https://ivdnt.org/corpora-lexica/courantencorpus/ Project page]
</div>




<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="17th_-_19th_century:_Letters_as_Loot"></span>
==17th - 19th century: Letters as Loot==
==17e - 19e eeuw: Brieven als Buit==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Ongeveer 40.000 Nederlandse brieven uit de tweede helft van de 17e tot de vroege 19e eeuw hebben eeuwenlang onder het stof gelegen in Britse archieven. Deze zogeheten Sailing Letters zijn niet alleen vanuit het buitenland door zeelieden en anderen naar het thuisfront verstuurd. Ook vanuit Nederland bleven echtgenotes, ouders, kinderen en andere familieleden met briefverkeer in contact met hun geliefden. Veel brieven hebben hun bestemming echter niet bereikt: ze werden tijdens de oorlogen tussen Nederland en Engeland buitgemaakt door kapers en in beslag genomen door het High Court of Admiralty voor de procesgang rond kapingen. Deze geconfisqueerde brieven van mannen, vrouwen en zelfs kinderen zijn voor historisch taalkundigen van onschatbare waarde. Ze geven namelijk toegang tot het tot nog toe grotendeels onbekende alledaagse Nederlands uit het verleden, het informele Nederlands van mensen uit de middenklasse en lagere klassen.
Approximately 40,000 Dutch letters from the second half of the 17th to the early 19th century have been gathering dust for centuries in British archives. They were sent home by sailors and others from abroad but also vice versa by those staying behind who needed to keep in touch with their loved ones. Many letters did not reach their destinations: they were taken as loot by privateers and confiscated by the High Court of Admiralty during the wars fought between The Netherlands and England. These confiscated letters of men, women and even children represent priceless material for historical linguists. They allow us to gain access to the as yet mainly unknown everyday Dutch of the past, the colloquial Dutch of people from the middle and lower classes.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
De eerste uitgebreide sociolinguïstische analyse van de Nederlandse brieven werd gerealiseerd binnen het onderzoeksprogramma Brieven als Buit/Letters as Loot (2008-2013) van de Universiteit Leiden. Dit onderzoek richtte zich op een selectie van ongeveer duizend Nederlandse brieven vanaf de late zeventiende en de late achttiende eeuw, die werden geschreven door meer dan 700 verschillende brievenschrijvers.
The first extensive sociolinguistic analysis of these Dutch letters was conducted in the Letters as Loot research programme (2008-2013) at Leiden University. This research concentrated on a selection of about one thousand Dutch private letters from the late seventeenth and late eighteenth centuries, written by more than 700 different letter writers.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://taalmaterialen.ivdnt.org/download/brieven-als-buit-2021/ Downloadpagina]
*[https://taalmaterialen.ivdnt.org/download/brieven-als-buit-2021/ Download page]
*[http://brievenalsbuit.ivdnt.org/corpus-frontend/BaB/search/ Online zoeken]
*[http://brievenalsbuit.ivdnt.org/corpus-frontend/BaB/search/ Online search]
*[https://www.universiteitleiden.nl/en/research/research-projects/humanities/letters-as-loot.-towards-a-non-standard-view-on-the-history-of-dutch Projectpagina]
*[https://www.universiteitleiden.nl/en/research/research-projects/humanities/letters-as-loot.-towards-a-non-standard-view-on-the-history-of-dutch Project page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="17th_-_19th_century:_Letters_as_Loot-2"></span>
==17th - 19th century: Letters as Loot-2==
==17e - 19e eeuw: Brieven als Buit-2==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Brieven als Buit-2 is een spin-off van het onderzoeksprogramma Brieven als Buit (2008-2013) van de Universiteit Leiden. Dit corpus is een toevoeging aan het originele Brieven als Buit-corpus. Het omvat meer dan 1300 Nederlandse brieven die werden buitgemaakt door kapers en in beslag werden genomen door het High Court of Admiralty gedurende de oorlogen die werden uitgevochten tussen Nederland en Engeland vanaf de tweede helft van de 17e eeuw tot de vroege 19e eeuw.  
Letters as Loot-2 is a spin-off of the Letters as Loot research programme (2008-2013) at Leiden University. This corpus is an addition to the original Letters as Loot corpus. It comprises more than 1300 Dutch letters which were taken as loot by privateers and confiscated by the High Court of Admiralty during the wars fought between The Netherlands and England from the second half of the 17th to the early 19th centuries.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://taalmaterialen.ivdnt.org/download/brieven-als-buit2/ Downloadpagina]
*[https://taalmaterialen.ivdnt.org/download/brieven-als-buit2/ Download page]
*[http://brievenalsbuit2.ivdnt.org/corpus-frontend/BaBa/search/ Online zoeken]
*[http://brievenalsbuit2.ivdnt.org/corpus-frontend/BaBa/search/ Online search]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
== 17e - 19e eeuw: Brieven als Buit - Gouden Standaard ==
== 17th - 19th century: Letters as Loot - Gold Standard ==
Brieven als Buit Gouden Standaard omvat de ca. 1000 met hoofdwoordsoort en modern lemma verrijkte bestanden van het Brieven als Buit-programma, geleid door Prof. Dr. M.J. van der Wal.
Letters as Loot Gold Standard contains ca. 1000 source files from the Letters as Loot program (directed by Prof. Dr. M.J. van der Wal), each enriched with main part-of-speech and modern lemmata.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* [https://www.universiteitleiden.nl/onderzoek/onderzoeksprojecten/geesteswetenschappen/brieven-als-buit#tab-2 Projectpagina]
* [https://www.universiteitleiden.nl/onderzoek/onderzoeksprojecten/geesteswetenschappen/brieven-als-buit#tab-2 Project page]
* [http://hdl.handle.net/10032/Tm-a2-a7 Downloadpagina]
* [http://hdl.handle.net/10032/Tm-a2-a7 Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
== 20e eeuw: Het VU-DNC Corpus==
== 20th century: The VU-DNC Corpus==
Het VU-DNC Corpus is een diachroon Nederlands krantencorpus (VU Free University Dutch Newspaper Corpus).
A diachronic Dutch newspaper corpus (VU Free University Dutch Newspaper Corpus).
(Meer info onder [[Kranten corpora]])
(More info under [[Newspaper corpora]])
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* [https://portal.clarin.inl.nl/vu-dnc/index.html Corpuswebpagina]
* [https://portal.clarin.inl.nl/vu-dnc/index.html Corpus webpage]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
== Publiekedomeindata @ DBNL ==
== Public Domain Data @ DBNL ==
Een corpus bestaand uit boeken en teksten die behoren tot het publieke domein, beschikbaar gesteld door de Koninklijke Bibliotheek in Nederland.
A corpus of public domain books and texts available from the Royal Library in the Netherlands
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* [https://dbnl.org/letterkunde/pd/index.php Downloadpagina]
* [https://dbnl.org/letterkunde/pd/index.php Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
== Delpher: historische kranten, tijdschriften, boeken en radio bulletins ==
== Delpher: historical newspapers, magazines, books and radio bulletins ==
Delpher is een gratis toegankelijke website, ontwikkeld en bestuurd door de Koninklijke Bibliotheek, met onder andere gedigitaliseerde historische Nederlandse kranten, boeken, tijdschriften en radiobulletins van bibliotheken, musea en andere erfgoedinstellingen.
Delpher is a freely accessible website, developed and operated by the Koninklijke Bibliotheek, featuring digitized historical Dutch newspapers, books, magazines and radio bulletins from libraries, museums and other heritage institutions.
* [https://www.delpher.nl Delpher.nl]
* [https://www.delpher.nl Delpher.nl]
</div>

Latest revision as of 11:42, 26 March 2024

Nederlab

Een gebruiksvriendelijke en met applicaties verrijkte open access webinterface die zich richt op het verzamelen van alle gedigitaliseerde teksten die relevant zijn voor het nationale Nederlandse erfgoed en de geschiedenis van de Nederlandse taal en cultuur (circa 800 - nu).

Voor de 12e eeuw: Corpus Oudnederlands

Het Corpus Oudnederlands is de verzameling van al het overgebleven Nederlandse woordmateriaal uit de periode 475-1200 dat als bronmateriaal heeft gediend voor het Oudnederlands Woordenboek (ONW).

Uitgangspunt waren de Oudnederlandse teksten die de Gentse taalkundige Maurits Gysseling had verzameld en getranscribeerd. Het corpus bestaat uit drie grote teksten (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) en talrijke kleinere Oudnederlandse teksten en tekstfragmenten (waaronder runeninscripties), glossen en losse woorden, Frankisch materiaal en toponymisch materiaal. Het corpus is taalkundig verrijkt met woordsoort en lemma. De annotaties van het hele corpus zijn handmatig geverifieerd.

Wat is Oudnederlands?

Het Oudnederlands is de verzamelnaam voor een aantal verwante dialecten die – net als het Oudengels, het Oudfries, het Oudsaksisch en het Oudhoogduits – rond het begin van de vijfde eeuw zijn ontstaan uit het West-Germaans. Het werd gesproken in een gebied dat samenviel met het huidige Nederland (mogelijk met uitzondering van de kuststreek van Groningen tot aan de Oude Rijn in de provincie Zuid-Holland), het Nederlandstalige deel van België, Frans-Vlaanderen en een stuk van Duitsland tussen de Nederlandse grens, de Rijn en de zogenaamde Benrather Linie, de grens tussen het Neder- en het Hoogduitse taalgebied.

De afgrenzing tussen Oudnederlands, Oudsaksisch en Oudfries is soms lastig te maken. De redactie van het Oudnederlands Woordenboek (ONW), die verantwoordelijk was voor de samenstelling van het corpus, heeft een ruim opnamebeleid gehanteerd. Toch zijn niet alle teksten uit de oorspronkelijke Oudnederlandse tekstverzameling van Gysseling in het corpus opgenomen. Een voorbeeld daarvan is het gedicht de Heliand, omdat die tekst Oudsaksisch is.

13e eeuw: Corpus Gysseling

Het Corpus Gysseling is de verzameling van alle 13e-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek (VMNW). Het corpus bestaat voornamelijk uit ambtelijke en literaire bronnen van teksten uit de periode 1200-1300 die bovendien in 13e-eeuwse handschriften zijn overgeleverd.

De teksten zijn diplomatisch uitgegeven, wat wil zeggen dat de tekst zoals die in de bronnen staat zo nauwkeurig mogelijk is weergegeven in moderne schrifttekens. Het corpus is taalkundig verrijkt met woordsoort en modern Nederlands lemma (trefwoord), om het beter doorzoekbaar te maken. De taalkundige aanvullingen van het hele corpus zijn handmatig geverifieerd.

14e - 16e eeuw: Corpus Middelnederlands

Het Corpus Middelnederlands is een verzameling rijm- en prozateksten in het Middelnederlands uit de periode 1300-1550. Het bevat klassiekers als de Beatrijs, de Reynaert, de abele spelen, de verhalen rond koning Arthur en rond Karel de Grote, alle teksten uit het befaamde Gruuthuse-handschrift (met het Egidiuslied), maar ook veel van de wat minder bekende of minder onderzochte teksten, zoals prozabewerkingen van de ridderverhalen op rijm (de zogenoemde ‘volksboeken’), liedverzamelingen zoals het Antwerps Liedboek, diverse Bijbelvertalingen, heiligenlevens, gebedenboeken, kronieken, en allerlei religieuze, didactische en wetenschappelijke traktaten, geneeskundige handleidingen en recepten.

Het corpus is samengesteld uit overwegend kritische tekstedities: wetenschappelijk verantwoorde gedrukte uitgaven. Het wordt op termijn verrijkt met woordsoort en lemma om het beter doorzoekbaar te maken.

17e eeuw: Couranten Corpus

Het Couranten Corpus omvat de zeventiende-eeuwse Nederlandse kranten die op Delpher beschikbaar zijn.(delpher.nl/kranten) De oudste, overgeleverde kranten zijn gepubliceerd in 1618. Voor de Delpher-website heeft de Koninklijke Bibliotheek in Den Haag deze zeventiende-eeuwse kranten gescand. Deze scans zijn gelezen met optische tekenherkenning (OCR). OCR kon echter niet overweg met de oude lettertypen en teksten van deze kranten. Daarom heeft het Meertens Instituut een citizen science project opgezet, onder leiding van Nicoline van der Sijs. Met behulp van een collaboratieve webapplicatie, werden alle kranten getranscribeerd en gecorrigeerd door meer dan 300 vrijwilligers van de Stichting Vrijwilligersnetwerk Nederlandse Taal. Vervolgens werd de metadata gecontroleerd en gecorrigeerd en nieuwe metadata toegevoegd, bijvoorbeeld over genre (advertenties, landelijk nieuws, internationaal nieuws, etc.).

Dit corpus bevat momenteel de inhoud van 13 kranten, 109.532 artikelen en 18.926.425 woorden. De informatie in deze kranten is van belang voor onderzoekers van verschillende disciplines, variërend van historici tot historische taalkundigen, literatuurwetenschappers en kunsthistorici.

In de toekomst zullen transcripties van nieuw gedigitaliseerde kranten uit de zeventiende eeuw en kranten uit de achttiende eeuw aan het Couranten Corpus worden toegevoegd.

De eerste online beschikbare versie van het Couranten Corpus werd openbaar gemaakt op 12 mei 2022.


17e - 19e eeuw: Brieven als Buit

Ongeveer 40.000 Nederlandse brieven uit de tweede helft van de 17e tot de vroege 19e eeuw hebben eeuwenlang onder het stof gelegen in Britse archieven. Deze zogeheten Sailing Letters zijn niet alleen vanuit het buitenland door zeelieden en anderen naar het thuisfront verstuurd. Ook vanuit Nederland bleven echtgenotes, ouders, kinderen en andere familieleden met briefverkeer in contact met hun geliefden. Veel brieven hebben hun bestemming echter niet bereikt: ze werden tijdens de oorlogen tussen Nederland en Engeland buitgemaakt door kapers en in beslag genomen door het High Court of Admiralty voor de procesgang rond kapingen. Deze geconfisqueerde brieven van mannen, vrouwen en zelfs kinderen zijn voor historisch taalkundigen van onschatbare waarde. Ze geven namelijk toegang tot het tot nog toe grotendeels onbekende alledaagse Nederlands uit het verleden, het informele Nederlands van mensen uit de middenklasse en lagere klassen.

De eerste uitgebreide sociolinguïstische analyse van de Nederlandse brieven werd gerealiseerd binnen het onderzoeksprogramma Brieven als Buit/Letters as Loot (2008-2013) van de Universiteit Leiden. Dit onderzoek richtte zich op een selectie van ongeveer duizend Nederlandse brieven vanaf de late zeventiende en de late achttiende eeuw, die werden geschreven door meer dan 700 verschillende brievenschrijvers.

17e - 19e eeuw: Brieven als Buit-2

Brieven als Buit-2 is een spin-off van het onderzoeksprogramma Brieven als Buit (2008-2013) van de Universiteit Leiden. Dit corpus is een toevoeging aan het originele Brieven als Buit-corpus. Het omvat meer dan 1300 Nederlandse brieven die werden buitgemaakt door kapers en in beslag werden genomen door het High Court of Admiralty gedurende de oorlogen die werden uitgevochten tussen Nederland en Engeland vanaf de tweede helft van de 17e eeuw tot de vroege 19e eeuw.

17e - 19e eeuw: Brieven als Buit - Gouden Standaard

Brieven als Buit – Gouden Standaard omvat de ca. 1000 met hoofdwoordsoort en modern lemma verrijkte bestanden van het Brieven als Buit-programma, geleid door Prof. Dr. M.J. van der Wal.

20e eeuw: Het VU-DNC Corpus

Het VU-DNC Corpus is een diachroon Nederlands krantencorpus (VU Free University Dutch Newspaper Corpus). (Meer info onder Kranten corpora)

Publiekedomeindata @ DBNL

Een corpus bestaand uit boeken en teksten die behoren tot het publieke domein, beschikbaar gesteld door de Koninklijke Bibliotheek in Nederland.

Delpher: historische kranten, tijdschriften, boeken en radio bulletins

Delpher is een gratis toegankelijke website, ontwikkeld en bestuurd door de Koninklijke Bibliotheek, met onder andere gedigitaliseerde historische Nederlandse kranten, boeken, tijdschriften en radiobulletins van bibliotheken, musea en andere erfgoedinstellingen.