Historical corpora/nl: Difference between revisions
(Created page with "==14e - 16e eeuw: Corpus Middelnederlands==") |
(Created page with "*[https://github.com/mirsdes/Dutch_Renaissance_poetry_corpus Github-pagina]") |
||
(20 intermediate revisions by 4 users not shown) | |||
Line 1: | Line 1: | ||
<languages/> | |||
== Nederlab == | == Nederlab == | ||
*[https://www.nederlab.nl/ | Een gebruiksvriendelijke en met applicaties verrijkte open access webinterface die zich richt op het verzamelen van alle gedigitaliseerde teksten die relevant zijn voor het nationale Nederlandse erfgoed en de geschiedenis van de Nederlandse taal en cultuur (circa 800 - nu). | ||
*[https://dev.clarin.nl/node/4234 CLAPOP beschrijving] | |||
*[https://www.nederlab.nl/ Projectwebsite] | |||
*[https://dev.clarin.nl/node/4234 CLAPOP-beschrijving] | |||
<span id="Before_12th_century:_Corpus_of_Old_Dutch"></span> | <span id="Before_12th_century:_Corpus_of_Old_Dutch"></span> | ||
Line 10: | Line 12: | ||
Het Corpus Oudnederlands is de verzameling van al het overgebleven Nederlandse woordmateriaal uit de periode 475-1200 dat als bronmateriaal heeft gediend voor het Oudnederlands Woordenboek (ONW). | Het Corpus Oudnederlands is de verzameling van al het overgebleven Nederlandse woordmateriaal uit de periode 475-1200 dat als bronmateriaal heeft gediend voor het Oudnederlands Woordenboek (ONW). | ||
Uitgangspunt waren de Oudnederlandse teksten die de Gentse taalkundige Maurits Gysseling had verzameld en getranscribeerd. Het corpus bestaat uit drie grote teksten (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) en talrijke kleinere Oudnederlandse teksten en tekstfragmenten (waaronder runeninscripties), glossen en losse woorden, Frankisch materiaal en toponymisch materiaal. Het corpus is taalkundig verrijkt met woordsoort en lemma. De | Uitgangspunt waren de Oudnederlandse teksten die de Gentse taalkundige Maurits Gysseling had verzameld en getranscribeerd. Het corpus bestaat uit drie grote teksten (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) en talrijke kleinere Oudnederlandse teksten en tekstfragmenten (waaronder runeninscripties), glossen en losse woorden, Frankisch materiaal en toponymisch materiaal. Het corpus is taalkundig verrijkt met woordsoort en lemma. De annotaties van het hele corpus zijn handmatig geverifieerd. | ||
Wat is Oudnederlands? | Wat is Oudnederlands? | ||
Line 16: | Line 18: | ||
Het Oudnederlands is de verzamelnaam voor een aantal verwante dialecten die – net als het Oudengels, het Oudfries, het Oudsaksisch en het Oudhoogduits – rond het begin van de vijfde eeuw zijn ontstaan uit het West-Germaans. Het werd gesproken in een gebied dat samenviel met het huidige Nederland (mogelijk met uitzondering van de kuststreek van Groningen tot aan de Oude Rijn in de provincie Zuid-Holland), het Nederlandstalige deel van België, Frans-Vlaanderen en een stuk van Duitsland tussen de Nederlandse grens, de Rijn en de zogenaamde Benrather Linie, de grens tussen het Neder- en het Hoogduitse taalgebied. | Het Oudnederlands is de verzamelnaam voor een aantal verwante dialecten die – net als het Oudengels, het Oudfries, het Oudsaksisch en het Oudhoogduits – rond het begin van de vijfde eeuw zijn ontstaan uit het West-Germaans. Het werd gesproken in een gebied dat samenviel met het huidige Nederland (mogelijk met uitzondering van de kuststreek van Groningen tot aan de Oude Rijn in de provincie Zuid-Holland), het Nederlandstalige deel van België, Frans-Vlaanderen en een stuk van Duitsland tussen de Nederlandse grens, de Rijn en de zogenaamde Benrather Linie, de grens tussen het Neder- en het Hoogduitse taalgebied. | ||
De afgrenzing tussen Oudnederlands, Oudsaksisch en Oudfries is soms lastig te maken. De redactie van het Oudnederlands Woordenboek (ONW), die verantwoordelijk was voor de samenstelling van het corpus, heeft een ruim opnamebeleid gehanteerd. Toch zijn niet alle teksten uit de oorspronkelijke Oudnederlandse tekstverzameling van Gysseling in het corpus opgenomen | De afgrenzing tussen Oudnederlands, Oudsaksisch en Oudfries is soms lastig te maken. De redactie van het Oudnederlands Woordenboek (ONW), die verantwoordelijk was voor de samenstelling van het corpus, heeft een ruim opnamebeleid gehanteerd. Toch zijn niet alle teksten uit de oorspronkelijke Oudnederlandse tekstverzameling van Gysseling in het corpus opgenomen. Een voorbeeld daarvan is het gedicht de Heliand, omdat die tekst Oudsaksisch is. | ||
*[https://ivdnt.org/corpora-lexica/corpus-oudnederlands/ | *[https://ivdnt.org/corpora-lexica/corpus-oudnederlands/ Projectpagina] | ||
*[https://corpusoudnederlands.ivdnt.org/corpus-frontend/ONL/search/ Online zoeken] | *[https://corpusoudnederlands.ivdnt.org/corpus-frontend/ONL/search/ Online zoeken] | ||
Line 26: | Line 28: | ||
Het Corpus Gysseling is de verzameling van alle 13e-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek (VMNW). Het corpus bestaat voornamelijk uit ambtelijke en literaire bronnen van teksten uit de periode 1200-1300 die bovendien in 13e-eeuwse handschriften zijn overgeleverd. | Het Corpus Gysseling is de verzameling van alle 13e-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek (VMNW). Het corpus bestaat voornamelijk uit ambtelijke en literaire bronnen van teksten uit de periode 1200-1300 die bovendien in 13e-eeuwse handschriften zijn overgeleverd. | ||
De teksten zijn diplomatisch uitgegeven, wat wil zeggen dat de tekst zoals die in de bronnen staat zo nauwkeurig mogelijk is weergegeven in moderne schrifttekens. Het corpus is taalkundig verrijkt met woordsoort en modern Nederlands lemma (trefwoord), om het beter doorzoekbaar te maken. De taalkundige aanvullingen | De teksten zijn diplomatisch uitgegeven, wat wil zeggen dat de tekst zoals die in de bronnen staat zo nauwkeurig mogelijk is weergegeven in moderne schrifttekens. Het corpus is taalkundig verrijkt met woordsoort en modern Nederlands lemma (trefwoord), om het beter doorzoekbaar te maken. De taalkundige aanvullingen van het hele corpus zijn handmatig geverifieerd. | ||
*[http://corpusgysseling.ivdnt.org/corpus-frontend/Gysseling/search Online zoeken] | *[http://corpusgysseling.ivdnt.org/corpus-frontend/Gysseling/search Online zoeken] | ||
*[http://hdl.handle.net/10032/tm-a2-j4 | *[http://hdl.handle.net/10032/tm-a2-j4 Downloadpagina] | ||
*[https://ivdnt.org/corpora-lexica/corpus-gysseling/ | *[https://ivdnt.org/corpora-lexica/corpus-gysseling/ Projectpagina] | ||
<span id="14th_-_16th_century:_Corpus_of_Middle_Dutch"></span> | <span id="14th_-_16th_century:_Corpus_of_Middle_Dutch"></span> | ||
Line 37: | Line 39: | ||
Het Corpus Middelnederlands is een verzameling rijm- en prozateksten in het Middelnederlands uit de periode 1300-1550. Het bevat klassiekers als de Beatrijs, de Reynaert, de abele spelen, de verhalen rond koning Arthur en rond Karel de Grote, alle teksten uit het befaamde Gruuthuse-handschrift (met het Egidiuslied), maar ook veel van de wat minder bekende of minder onderzochte teksten, zoals prozabewerkingen van de ridderverhalen op rijm (de zogenoemde ‘volksboeken’), liedverzamelingen zoals het Antwerps Liedboek, diverse Bijbelvertalingen, heiligenlevens, gebedenboeken, kronieken, en allerlei religieuze, didactische en wetenschappelijke traktaten, geneeskundige handleidingen en recepten. | Het Corpus Middelnederlands is een verzameling rijm- en prozateksten in het Middelnederlands uit de periode 1300-1550. Het bevat klassiekers als de Beatrijs, de Reynaert, de abele spelen, de verhalen rond koning Arthur en rond Karel de Grote, alle teksten uit het befaamde Gruuthuse-handschrift (met het Egidiuslied), maar ook veel van de wat minder bekende of minder onderzochte teksten, zoals prozabewerkingen van de ridderverhalen op rijm (de zogenoemde ‘volksboeken’), liedverzamelingen zoals het Antwerps Liedboek, diverse Bijbelvertalingen, heiligenlevens, gebedenboeken, kronieken, en allerlei religieuze, didactische en wetenschappelijke traktaten, geneeskundige handleidingen en recepten. | ||
Het corpus is samengesteld | Het corpus is samengesteld uit overwegend kritische tekstedities: wetenschappelijk verantwoorde gedrukte uitgaven. Het wordt op termijn verrijkt met woordsoort en lemma om het beter doorzoekbaar te maken. | ||
*[http://hdl.handle.net/10032/tm-a2-j6 | *[http://hdl.handle.net/10032/tm-a2-j6 Downloadpagina] | ||
*[http://corpusmiddelnederlands.ivdnt.org/corpus-frontend/MNL/search/ Online zoeken] | *[http://corpusmiddelnederlands.ivdnt.org/corpus-frontend/MNL/search/ Online zoeken] | ||
*[https://ivdnt.org/corpora-lexica/corpus-middelnederlands/ | *[https://ivdnt.org/corpora-lexica/corpus-middelnederlands/ Projectpagina] | ||
<span id="17th_century:_Newspaper_Corpus"></span> | <span id="17th_century:_Newspaper_Corpus"></span> | ||
==17e eeuw: Couranten Corpus== | ==17e eeuw: Couranten Corpus== | ||
Het Couranten Corpus omvat de zeventiende-eeuwse Nederlandse kranten die op Delpher beschikbaar zijn.(delpher.nl/kranten) De | Het Couranten Corpus omvat de zeventiende-eeuwse Nederlandse kranten die op Delpher beschikbaar zijn.(delpher.nl/kranten) De oudste, overgeleverde kranten zijn gepubliceerd in 1618. Voor de Delpher-website heeft de Koninklijke Bibliotheek in Den Haag deze zeventiende-eeuwse kranten gescand. Deze scans zijn gelezen met optische tekenherkenning (OCR). OCR kon echter niet overweg met de oude lettertypen en teksten van deze kranten. Daarom heeft het Meertens Instituut een citizen science project opgezet, onder leiding van Nicoline van der Sijs. Met behulp van een collaboratieve webapplicatie, werden alle kranten getranscribeerd en gecorrigeerd door meer dan 300 vrijwilligers van de Stichting Vrijwilligersnetwerk Nederlandse Taal. Vervolgens werd de metadata gecontroleerd en gecorrigeerd en nieuwe metadata toegevoegd, bijvoorbeeld over genre (advertenties, landelijk nieuws, internationaal nieuws, etc.). | ||
Dit corpus bevat momenteel de inhoud van 13 kranten, 109.532 artikelen en 18.926.425 woorden. De informatie in deze kranten is van belang voor onderzoekers van verschillende disciplines, variërend van historici tot historische taalkundigen, literatuurwetenschappers en kunsthistorici. | Dit corpus bevat momenteel de inhoud van 13 kranten, 109.532 artikelen en 18.926.425 woorden. De informatie in deze kranten is van belang voor onderzoekers van verschillende disciplines, variërend van historici tot historische taalkundigen, literatuurwetenschappers en kunsthistorici. | ||
Line 55: | Line 57: | ||
*[https://couranten.ivdnt.org/corpus-frontend/couranten/search/ Online zoeken] | *[https://couranten.ivdnt.org/corpus-frontend/couranten/search/ Online zoeken] | ||
*[https://ivdnt.org/corpora-lexica/courantencorpus/ | *[https://ivdnt.org/corpora-lexica/courantencorpus/ Projectpagina] | ||
Line 65: | Line 67: | ||
De eerste uitgebreide sociolinguïstische analyse van de Nederlandse brieven werd gerealiseerd binnen het onderzoeksprogramma Brieven als Buit/Letters as Loot (2008-2013) van de Universiteit Leiden. Dit onderzoek richtte zich op een selectie van ongeveer duizend Nederlandse brieven vanaf de late zeventiende en de late achttiende eeuw, die werden geschreven door meer dan 700 verschillende brievenschrijvers. | De eerste uitgebreide sociolinguïstische analyse van de Nederlandse brieven werd gerealiseerd binnen het onderzoeksprogramma Brieven als Buit/Letters as Loot (2008-2013) van de Universiteit Leiden. Dit onderzoek richtte zich op een selectie van ongeveer duizend Nederlandse brieven vanaf de late zeventiende en de late achttiende eeuw, die werden geschreven door meer dan 700 verschillende brievenschrijvers. | ||
*[https://taalmaterialen.ivdnt.org/download/brieven-als-buit-2021/ | *[https://taalmaterialen.ivdnt.org/download/brieven-als-buit-2021/ Downloadpagina] | ||
*[http://brievenalsbuit.ivdnt.org/corpus-frontend/BaB/search/ Online zoeken] | *[http://brievenalsbuit.ivdnt.org/corpus-frontend/BaB/search/ Online zoeken] | ||
*[https://www.universiteitleiden.nl/en/research/research-projects/humanities/letters-as-loot.-towards-a-non-standard-view-on-the-history-of-dutch | *[https://www.universiteitleiden.nl/en/research/research-projects/humanities/letters-as-loot.-towards-a-non-standard-view-on-the-history-of-dutch Projectpagina] | ||
<span id="17th_-_19th_century:_Letters_as_Loot-2"></span> | <span id="17th_-_19th_century:_Letters_as_Loot-2"></span> | ||
==17e - 19e eeuw: Brieven als Buit-2== | ==17e - 19e eeuw: Brieven als Buit-2== | ||
Brieven als Buit-2 is een spin-off van het onderzoeksprogramma Brieven als Buit (2008-2013) van de Universiteit Leiden. Dit corpus is een toevoeging aan het originele Brieven als Buit corpus. Het omvat meer dan 1300 Nederlandse brieven die werden buitgemaakt door kapers en in beslag werden genomen door het High Court of Admiralty gedurende de oorlogen die werden uitgevochten tussen Nederland en Engeland vanaf de tweede helft van de 17e eeuw tot de vroege 19e eeuw. | Brieven als Buit-2 is een spin-off van het onderzoeksprogramma Brieven als Buit (2008-2013) van de Universiteit Leiden. Dit corpus is een toevoeging aan het originele Brieven als Buit-corpus. Het omvat meer dan 1300 Nederlandse brieven die werden buitgemaakt door kapers en in beslag werden genomen door het High Court of Admiralty gedurende de oorlogen die werden uitgevochten tussen Nederland en Engeland vanaf de tweede helft van de 17e eeuw tot de vroege 19e eeuw. | ||
*[https://taalmaterialen.ivdnt.org/download/brieven-als-buit2/ | *[https://taalmaterialen.ivdnt.org/download/brieven-als-buit2/ Downloadpagina] | ||
*[http://brievenalsbuit2.ivdnt.org/corpus-frontend/BaBa/search/ Online zoeken] | *[http://brievenalsbuit2.ivdnt.org/corpus-frontend/BaBa/search/ Online zoeken] | ||
<span id="17th_-_19th_century:_Letters_as_Loot_-_Gold_Standard"></span> | |||
== 17e - 19e eeuw: Brieven als Buit - Gouden Standaard == | == 17e - 19e eeuw: Brieven als Buit - Gouden Standaard == | ||
Brieven als Buit – Gouden Standaard omvat de ca. 1000 met hoofdwoordsoort en modern lemma verrijkte bestanden van het Brieven als Buit-programma, geleid door Prof. Dr. M.J. van der Wal. | Brieven als Buit – Gouden Standaard omvat de ca. 1000 met hoofdwoordsoort en modern lemma verrijkte bestanden van het Brieven als Buit-programma, geleid door Prof. Dr. M.J. van der Wal. | ||
* [https://www.universiteitleiden.nl/onderzoek/onderzoeksprojecten/geesteswetenschappen/brieven-als-buit#tab-2 | * [https://www.universiteitleiden.nl/onderzoek/onderzoeksprojecten/geesteswetenschappen/brieven-als-buit#tab-2 Projectpagina] | ||
* [http://hdl.handle.net/10032/Tm-a2-a7 | * [http://hdl.handle.net/10032/Tm-a2-a7 Downloadpagina] | ||
<span id="20th_century:_The_VU-DNC_Corpus"></span> | |||
== 20e eeuw: Het VU-DNC Corpus== | == 20e eeuw: Het VU-DNC Corpus== | ||
Het VU-DNC Corpus is een diachroon Nederlands krantencorpus (VU Free University Dutch Newspaper Corpus). | Het VU-DNC Corpus is een diachroon Nederlands krantencorpus (VU Free University Dutch Newspaper Corpus). | ||
(Meer info onder [[ | (Meer info onder [[Newspaper_corpora/nl|Krantencorpora]]) | ||
* [https://portal.clarin.inl.nl/vu-dnc/index.html Corpuswebpagina] | |||
<span id="Public_Domain_Data_@_DBNL"></span> | |||
== Publiekedomeindata @ DBNL == | |||
Een corpus bestaand uit boeken en teksten die behoren tot het publieke domein, beschikbaar gesteld door de Koninklijke Bibliotheek in Nederland. | |||
* [https://dbnl.org/letterkunde/pd/index.php Downloadpagina] | |||
< | <span id="Delpher:_historical_newspapers,_magazines,_books_and_radio_bulletins"></span> | ||
== Delpher: historische kranten, tijdschriften, boeken en radio bulletins == | |||
</ | |||
Delpher is een gratis toegankelijke website, ontwikkeld en bestuurd door de Koninklijke Bibliotheek, met onder andere gedigitaliseerde historische Nederlandse kranten, boeken, tijdschriften en radiobulletins van bibliotheken, musea en andere erfgoedinstellingen. | |||
Delpher is | |||
* [https://www.delpher.nl Delpher.nl] | * [https://www.delpher.nl Delpher.nl] | ||
</ | |||
<span id="Dutch_Renaissance_poetry_corpus"></span> | |||
== Nederlands Renaissance Poëziecorpus== | |||
Dit corpus bevat alexandrijnen en jambische pentameters, geschreven door een selectie van Renaissance dichters (eind 16e en 17e eeuw). Corpusopbouw en -annotatie maakten deel uit van een doctoraatsproject aan het [https://www.meertens.knaw.nl Meertensinstituut], en werd gefinancierd door de Koninklijke Nederlandse Akademie van Wetenschappen (KNAW). | |||
*[https://github.com/mirsdes/Dutch_Renaissance_poetry_corpus Github-pagina] |
Latest revision as of 12:00, 3 September 2024
Nederlab
Een gebruiksvriendelijke en met applicaties verrijkte open access webinterface die zich richt op het verzamelen van alle gedigitaliseerde teksten die relevant zijn voor het nationale Nederlandse erfgoed en de geschiedenis van de Nederlandse taal en cultuur (circa 800 - nu).
Voor de 12e eeuw: Corpus Oudnederlands
Het Corpus Oudnederlands is de verzameling van al het overgebleven Nederlandse woordmateriaal uit de periode 475-1200 dat als bronmateriaal heeft gediend voor het Oudnederlands Woordenboek (ONW).
Uitgangspunt waren de Oudnederlandse teksten die de Gentse taalkundige Maurits Gysseling had verzameld en getranscribeerd. Het corpus bestaat uit drie grote teksten (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) en talrijke kleinere Oudnederlandse teksten en tekstfragmenten (waaronder runeninscripties), glossen en losse woorden, Frankisch materiaal en toponymisch materiaal. Het corpus is taalkundig verrijkt met woordsoort en lemma. De annotaties van het hele corpus zijn handmatig geverifieerd.
Wat is Oudnederlands?
Het Oudnederlands is de verzamelnaam voor een aantal verwante dialecten die – net als het Oudengels, het Oudfries, het Oudsaksisch en het Oudhoogduits – rond het begin van de vijfde eeuw zijn ontstaan uit het West-Germaans. Het werd gesproken in een gebied dat samenviel met het huidige Nederland (mogelijk met uitzondering van de kuststreek van Groningen tot aan de Oude Rijn in de provincie Zuid-Holland), het Nederlandstalige deel van België, Frans-Vlaanderen en een stuk van Duitsland tussen de Nederlandse grens, de Rijn en de zogenaamde Benrather Linie, de grens tussen het Neder- en het Hoogduitse taalgebied.
De afgrenzing tussen Oudnederlands, Oudsaksisch en Oudfries is soms lastig te maken. De redactie van het Oudnederlands Woordenboek (ONW), die verantwoordelijk was voor de samenstelling van het corpus, heeft een ruim opnamebeleid gehanteerd. Toch zijn niet alle teksten uit de oorspronkelijke Oudnederlandse tekstverzameling van Gysseling in het corpus opgenomen. Een voorbeeld daarvan is het gedicht de Heliand, omdat die tekst Oudsaksisch is.
13e eeuw: Corpus Gysseling
Het Corpus Gysseling is de verzameling van alle 13e-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek (VMNW). Het corpus bestaat voornamelijk uit ambtelijke en literaire bronnen van teksten uit de periode 1200-1300 die bovendien in 13e-eeuwse handschriften zijn overgeleverd.
De teksten zijn diplomatisch uitgegeven, wat wil zeggen dat de tekst zoals die in de bronnen staat zo nauwkeurig mogelijk is weergegeven in moderne schrifttekens. Het corpus is taalkundig verrijkt met woordsoort en modern Nederlands lemma (trefwoord), om het beter doorzoekbaar te maken. De taalkundige aanvullingen van het hele corpus zijn handmatig geverifieerd.
14e - 16e eeuw: Corpus Middelnederlands
Het Corpus Middelnederlands is een verzameling rijm- en prozateksten in het Middelnederlands uit de periode 1300-1550. Het bevat klassiekers als de Beatrijs, de Reynaert, de abele spelen, de verhalen rond koning Arthur en rond Karel de Grote, alle teksten uit het befaamde Gruuthuse-handschrift (met het Egidiuslied), maar ook veel van de wat minder bekende of minder onderzochte teksten, zoals prozabewerkingen van de ridderverhalen op rijm (de zogenoemde ‘volksboeken’), liedverzamelingen zoals het Antwerps Liedboek, diverse Bijbelvertalingen, heiligenlevens, gebedenboeken, kronieken, en allerlei religieuze, didactische en wetenschappelijke traktaten, geneeskundige handleidingen en recepten.
Het corpus is samengesteld uit overwegend kritische tekstedities: wetenschappelijk verantwoorde gedrukte uitgaven. Het wordt op termijn verrijkt met woordsoort en lemma om het beter doorzoekbaar te maken.
17e eeuw: Couranten Corpus
Het Couranten Corpus omvat de zeventiende-eeuwse Nederlandse kranten die op Delpher beschikbaar zijn.(delpher.nl/kranten) De oudste, overgeleverde kranten zijn gepubliceerd in 1618. Voor de Delpher-website heeft de Koninklijke Bibliotheek in Den Haag deze zeventiende-eeuwse kranten gescand. Deze scans zijn gelezen met optische tekenherkenning (OCR). OCR kon echter niet overweg met de oude lettertypen en teksten van deze kranten. Daarom heeft het Meertens Instituut een citizen science project opgezet, onder leiding van Nicoline van der Sijs. Met behulp van een collaboratieve webapplicatie, werden alle kranten getranscribeerd en gecorrigeerd door meer dan 300 vrijwilligers van de Stichting Vrijwilligersnetwerk Nederlandse Taal. Vervolgens werd de metadata gecontroleerd en gecorrigeerd en nieuwe metadata toegevoegd, bijvoorbeeld over genre (advertenties, landelijk nieuws, internationaal nieuws, etc.).
Dit corpus bevat momenteel de inhoud van 13 kranten, 109.532 artikelen en 18.926.425 woorden. De informatie in deze kranten is van belang voor onderzoekers van verschillende disciplines, variërend van historici tot historische taalkundigen, literatuurwetenschappers en kunsthistorici.
In de toekomst zullen transcripties van nieuw gedigitaliseerde kranten uit de zeventiende eeuw en kranten uit de achttiende eeuw aan het Couranten Corpus worden toegevoegd.
De eerste online beschikbare versie van het Couranten Corpus werd openbaar gemaakt op 12 mei 2022.
17e - 19e eeuw: Brieven als Buit
Ongeveer 40.000 Nederlandse brieven uit de tweede helft van de 17e tot de vroege 19e eeuw hebben eeuwenlang onder het stof gelegen in Britse archieven. Deze zogeheten Sailing Letters zijn niet alleen vanuit het buitenland door zeelieden en anderen naar het thuisfront verstuurd. Ook vanuit Nederland bleven echtgenotes, ouders, kinderen en andere familieleden met briefverkeer in contact met hun geliefden. Veel brieven hebben hun bestemming echter niet bereikt: ze werden tijdens de oorlogen tussen Nederland en Engeland buitgemaakt door kapers en in beslag genomen door het High Court of Admiralty voor de procesgang rond kapingen. Deze geconfisqueerde brieven van mannen, vrouwen en zelfs kinderen zijn voor historisch taalkundigen van onschatbare waarde. Ze geven namelijk toegang tot het tot nog toe grotendeels onbekende alledaagse Nederlands uit het verleden, het informele Nederlands van mensen uit de middenklasse en lagere klassen.
De eerste uitgebreide sociolinguïstische analyse van de Nederlandse brieven werd gerealiseerd binnen het onderzoeksprogramma Brieven als Buit/Letters as Loot (2008-2013) van de Universiteit Leiden. Dit onderzoek richtte zich op een selectie van ongeveer duizend Nederlandse brieven vanaf de late zeventiende en de late achttiende eeuw, die werden geschreven door meer dan 700 verschillende brievenschrijvers.
17e - 19e eeuw: Brieven als Buit-2
Brieven als Buit-2 is een spin-off van het onderzoeksprogramma Brieven als Buit (2008-2013) van de Universiteit Leiden. Dit corpus is een toevoeging aan het originele Brieven als Buit-corpus. Het omvat meer dan 1300 Nederlandse brieven die werden buitgemaakt door kapers en in beslag werden genomen door het High Court of Admiralty gedurende de oorlogen die werden uitgevochten tussen Nederland en Engeland vanaf de tweede helft van de 17e eeuw tot de vroege 19e eeuw.
17e - 19e eeuw: Brieven als Buit - Gouden Standaard
Brieven als Buit – Gouden Standaard omvat de ca. 1000 met hoofdwoordsoort en modern lemma verrijkte bestanden van het Brieven als Buit-programma, geleid door Prof. Dr. M.J. van der Wal.
20e eeuw: Het VU-DNC Corpus
Het VU-DNC Corpus is een diachroon Nederlands krantencorpus (VU Free University Dutch Newspaper Corpus). (Meer info onder Krantencorpora)
Publiekedomeindata @ DBNL
Een corpus bestaand uit boeken en teksten die behoren tot het publieke domein, beschikbaar gesteld door de Koninklijke Bibliotheek in Nederland.
Delpher: historische kranten, tijdschriften, boeken en radio bulletins
Delpher is een gratis toegankelijke website, ontwikkeld en bestuurd door de Koninklijke Bibliotheek, met onder andere gedigitaliseerde historische Nederlandse kranten, boeken, tijdschriften en radiobulletins van bibliotheken, musea en andere erfgoedinstellingen.
Nederlands Renaissance Poëziecorpus
Dit corpus bevat alexandrijnen en jambische pentameters, geschreven door een selectie van Renaissance dichters (eind 16e en 17e eeuw). Corpusopbouw en -annotatie maakten deel uit van een doctoraatsproject aan het Meertensinstituut, en werd gefinancierd door de Koninklijke Nederlandse Akademie van Wetenschappen (KNAW).