Historische corpora

From Clarin K-Centre
Revision as of 15:40, 13 March 2024 by Floyd (talk | contribs) (Created page with "De teksten zijn diplomatisch uitgegeven, wat wil zeggen dat de tekst zoals die in de bronnen staat zo nauwkeurig mogelijk is weergegeven in moderne schrifttekens. Het corpus is taalkundig verrijkt met woordsoort en modern Nederlands lemma (trefwoord), om het beter doorzoekbaar te maken. De taalkundige aanvullingen zijn handmatig gecorrigeerd voor het hele corpus.")
Jump to navigation Jump to search

Nederlab

Een gebruiksvriendelijke en hulpmiddelrijke open access webinterface die zicht richt op het verzamelen van alle gedigitaliseerde teksten die relevant zijn voor het nationale Nederlandse erfgoed en de geschiedenis van de Nederlandse taal en cultuur (circa 800 - nu).

Voor de 12e eeuw: Corpus Oudnederlands

Het Corpus Oudnederlands is de verzameling van al het overgebleven Nederlandse woordmateriaal uit de periode 475-1200 dat als bronmateriaal heeft gediend voor het Oudnederlands Woordenboek (ONW).

Uitgangspunt waren de Oudnederlandse teksten die de Gentse taalkundige Maurits Gysseling had verzameld en getranscribeerd. Het corpus bestaat uit drie grote teksten (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) en talrijke kleinere Oudnederlandse teksten en tekstfragmenten (waaronder runeninscripties), glossen en losse woorden, Frankisch materiaal en toponymisch materiaal. Het corpus is taalkundig verrijkt met woordsoort en lemma. De annotatie is handmatig nagekeken voor het hele corpus.

Wat is Oudnederlands?

Het Oudnederlands is de verzamelnaam voor een aantal verwante dialecten die – net als het Oudengels, het Oudfries, het Oudsaksisch en het Oudhoogduits – rond het begin van de vijfde eeuw zijn ontstaan uit het West-Germaans. Het werd gesproken in een gebied dat samenviel met het huidige Nederland (mogelijk met uitzondering van de kuststreek van Groningen tot aan de Oude Rijn in de provincie Zuid-Holland), het Nederlandstalige deel van België, Frans-Vlaanderen en een stuk van Duitsland tussen de Nederlandse grens, de Rijn en de zogenaamde Benrather Linie, de grens tussen het Neder- en het Hoogduitse taalgebied.

De afgrenzing tussen Oudnederlands, Oudsaksisch en Oudfries is soms lastig te maken. De redactie van het Oudnederlands Woordenboek (ONW), die verantwoordelijk was voor de samenstelling van het corpus, heeft een ruim opnamebeleid gehanteerd. Toch zijn niet alle teksten uit de oorspronkelijke Oudnederlandse tekstverzameling van Gysseling in het corpus opgenomen, zoals het gedicht de Heliand, omdat die tekst Oudsaksisch is.

13e eeuw: Corpus Gysseling

Het Corpus Gysseling is de verzameling van alle 13e-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek (VMNW). Het corpus bestaat voornamelijk uit ambtelijke en literaire bronnen van teksten uit de periode 1200-1300 die bovendien in 13e-eeuwse handschriften zijn overgeleverd.

De teksten zijn diplomatisch uitgegeven, wat wil zeggen dat de tekst zoals die in de bronnen staat zo nauwkeurig mogelijk is weergegeven in moderne schrifttekens. Het corpus is taalkundig verrijkt met woordsoort en modern Nederlands lemma (trefwoord), om het beter doorzoekbaar te maken. De taalkundige aanvullingen zijn handmatig gecorrigeerd voor het hele corpus.

14e - 16e eeuw: Corpus Middelnederlands

Het Corpus Middelnederlands is een verzameling rijm- en prozateksten in het Middelnederlands uit de periode 1300-1550. Het bevat klassiekers als de Beatrijs, de Reynaert, de abele spelen, de verhalen rond koning Arthur en rond Karel de Grote, alle teksten uit het befaamde Gruuthuse-handschrift (met het Egidiuslied), maar ook veel van de wat minder bekende of minder onderzochte teksten, zoals prozabewerkingen van de ridderverhalen op rijm (de zogenoemde ‘volksboeken’), liedverzamelingen zoals het Antwerps Liedboek, diverse Bijbelvertalingen, heiligenlevens, gebedenboeken, kronieken, en allerlei religieuze, didactische en wetenschappelijke traktaten, geneeskundige handleidingen en recepten.

Het corpus is samengesteld op basis van overwegend kritische tekstedities: wetenschappelijk verantwoorde gedrukte uitgaven. Het wordt op termijn verrijkt met woordsoort en lemma om het beter doorzoekbaar te maken.

17e eeuw: Couranten Corpus

Het Couranten Corpus omvat de zeventiende-eeuwse Nederlandse kranten die op Delpher beschikbaar zijn.(delpher.nl/kranten) De oudst overgeleverde kranten zijn gepubliceerd in 1618. Voor de Delpher-website heeft de Koninklijke Bibliotheek in Den Haag deze zeventiende-eeuwse kranten gescand. Deze scans zijn gelezen met optische tekenherkenning (OCR). OCR kon echter niet overweg met de oude lettertypen en teksten van deze kranten. Daarom heeft het Meertens Instituut een citizen science project opgezet, onder leiding van Nicoline van der Sijs. Met behulp van een collaboratieve webapplicatie, werden alle kranten getranscribeerd en gecorrigeerd door meer dan 300 vrijwilligers van de Stichting Vrijwilligersnetwerk Nederlandse Taal. Vervolgens werd de metadata gecontroleerd en gecorrigeerd en nieuwe metadata toegevoegd, bijvoorbeeld over genre (advertenties, landelijk nieuws, internationaal nieuws, etc.).

This sizeable corpus currently contains the contents of 13 newspapers, 109.532 articles and 18.926.425 words. The information in these newspapers is of interest to researchers of various disciplines, ranging from historians to historical linguists, literature scholars and art historians.

In the future, transcriptions of newly digitised newspapers from the seventeenth century and newspapers from the eighteenth century will be added to the Couranten Corpus.

This first online accessible version of the Couranten Corpus was released on 12th May 2022.


17th - 19th century: Letters as Loot

Approximately 40,000 Dutch letters from the second half of the 17th to the early 19th century have been gathering dust for centuries in British archives. They were sent home by sailors and others from abroad but also vice versa by those staying behind who needed to keep in touch with their loved ones. Many letters did not reach their destinations: they were taken as loot by privateers and confiscated by the High Court of Admiralty during the wars fought between The Netherlands and England. These confiscated letters of men, women and even children represent priceless material for historical linguists. They allow us to gain access to the as yet mainly unknown everyday Dutch of the past, the colloquial Dutch of people from the middle and lower classes.

The first extensive sociolinguistic analysis of these Dutch letters was conducted in the Letters as Loot research programme (2008-2013) at Leiden University. This research concentrated on a selection of about one thousand Dutch private letters from the late seventeenth and late eighteenth centuries, written by more than 700 different letter writers.

17th - 19th century: Letters as Loot-2

Letters as Loot-2 is a spin-off of the Letters as Loot research programme (2008-2013) at Leiden University. This corpus is an addition to the original Letters as Loot corpus. It comprises more than 1300 Dutch letters which were taken as loot by privateers and confiscated by the High Court of Admiralty during the wars fought between The Netherlands and England from the second half of the 17th to the early 19th centuries.

17th - 19th century: Letters as Loot - Gold Standard

Letters as Loot – Gold Standard contains ca. 1000 source files from the Letters as Loot program (directed by Prof. Dr. M.J. van der Wal), each enriched with main part-of-speech and modern lemmata.

20th century: The VU-DNC Corpus

A diachronic Dutch newspaper corpus (VU Free University Dutch Newspaper Corpus). (More info under Newspaper corpora)

Public Domain Data @ DBNL

A corpus of public domain books and texts available from the Royal Library in the Netherlands

Delpher: historical newspapers, magazines, books and radio bulletins

Delpher is a freely accessible website, developed and operated by the Koninklijke Bibliotheek, featuring digitized historical Dutch newspapers, books, magazines and radio bulletins from libraries, museums and other heritage institutions.