Spoken corpora/nl: Difference between revisions

Latest revision as of 16:24, 13 November 2025

Gesproken corpora zijn corpora die bestaan uit gesproken data of materiaal dat gebaseerd is op gesproken data.

Boarnsterhim Corpus (BHC) (Momenteel niet beschikbaar)

Het Boarnsterhim Corpus bestaat uit 250 uur spraak in zowel West-Fries als Nederlands door dezelfde groep tweetalige sprekers. Het corpus bevat originele opnamen uit 1982-1984 en een replicerend onderzoek 35 jaar later. De dataverzameling omvat de spraak van vier generaties en combineert paneldata en trenddata. ##Dit corpus is tijdelijk niet beschikbaar omdat er aanpassingen noodzakelijk zijn. Voor meer informatie hierover kunt u contact opnemen met Hans van de Velde (HvandeVelde@fryske-akademy.nl) of met Wilbert Heeringa, de datamanager van de FA (wheeringa@fryske-akademy.nl).##

42.6 MB
versie 1.0 (2020)
dataset van 1982-1984 + replicatie 35 jaar later
Downloadpagina

COPAS: Corpus Pathologische en Normale Spraak

Het Corpus Pathologische en Normale Spraak (COPAS) bevat opnames van de DIA (Dutch Intelligibility Assessment). Daarnaast bevat het ook voorgelezen tekstpassages, afzonderlijke zinnen en spontane spraak van een deel van de sprekers. Het corpus bevat opnames van bijna 200 Vlaamse pathologische sprekers (= sprekers met een hoorbare stoornis) en 122 Vlaamse controlesprekers. De nodige annotaties werden voorzien.

Belgisch-Nederlands
Downloadpagina

Corpus Gesproken Nederlands

Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders.

De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Metadata, lexica, frequentielijsten en de corpusexploratiesoftware Corex behoren ook tot het CGN.

900 uur gesproken Nederlands
1998-2004
getagd, gelemmatiseerd, geannoteerd (orthografisch/fonetisch)
corpusexploratiesoftware (Corex)
versie 2.0.3.
Projectwebsite
Downloadpagina
Online zoeken met OpenSonar. Ga naar Extended Mode om uitsluitend in het Corpus Gesproken Nederlands te zoeken. (Zie Zoeken in Corpus voor meer informatie over OpenSonar.)

IFA Spoken Language Corpus

Het IFA Spoken Language Corpus is een gratis (GPL) database van handmatig gesegmenteerde gesproken Nederlands op foneemniveau. Het is samengesteld met pasklare software en gesproken Nederlands afkomstig van 8 sprekers met een verscheidenheid aan spreekstijlen. Voor een totaal van 50.000 woorden (41 minuten/spreker), duurde het vergaren en voorbereiden van spraak ongeveer drie weken per spreker.

versie 1.0 (2001)
4.6 MB
Downloadpagina
Projectwebsite

JASMIN-spraakcorpus

Het JASMIN-spraakcorpus is een verzameling Nederlandse spraak van jongeren, anderstaligen en senioren, woonachtig in Vlaanderen en Nederland. De spraakopnames bestaan uit voorgelezen teksten en mens-machinedialogen, en zijn verrijkt met verschillende annotatielagen. Het JASMIN-spraakcorpus is een aanvulling op het Corpus Gesproken Nederlands (CGN).

115 uur aan gesproken Nederlands
spraak van kinderen, ouderen en anderstaligen en mens-machinedialogen.
letterlijke transcriptie, een transcriptie van de mens-machine-interactieverschijnselen, POS-tagging van de woorden, en een automatische fonetische transcriptie.
versie 1.0 (2008)
Recording Speech of Children, Non-Natives and Elderly People for HLT Applications: the JASMIN-CGN Corpus (LREC Proceedings 2008)
Downloadpagina

SABeD -- Spoken Academic Belgian Dutch

Het Spoken Academic Belgian Dutch Corpus (SABeD) bestaat uit 200 colleges gegeven op Vlaamse hogescholen en universiteiten. De eerste 25 en de laatste 5 minuten van elk college werden getranscribeerd met behulp van een ASR-systeem dat is afgestemd op Belgisch-Nederlands. Vervolgens werd de spraak manueel opgedeeld in afzonderlijke uitingen (utterance segmentation) en werden de transcripties manueel geverifieerd. De resulterende teksten werden geanalyseerd door de Frog language analyser.

Version 1.1 (2025)
Projectwebsite
Downloadpagina

AUTONOMATA-namencorpus

Het AUTONOMATA-namencorpus is een database van in totaal circa 5.000 voorgelezen voornamen, achternamen, straatnamen, plaatsnamen en controlewoorden. Het corpus bestaat uit een Nederlands en een Vlaams deel.

versie 1.0 (2008)
Paper
Downloadpagina

AUTONOMATA-POI-corpus

Het AUTONOMATA-POI-corpus is een database van 800 voorgelezen points of interest (POI's) uit Nederland en België, bestaande uit namen van restaurants, hotels, campings, cafés etc. Het corpus bevat opnames van 80 sprekers met verschillende taalachtergronden, in totaal 16.000 geluidsbestanden. Daarnaast kregen sprekers de mogelijkheid om meerdere pogingen voor een POI op te nemen, wat heeft geresulteerd in 5.677 extra geluidsbestanden. Alle uitingen zijn handmatig fonetisch getranscribeerd.

Children's Oral Reading Corpus (CHOREC)

Het CHOREC-corpus bevat opgenomen, getranscribeerde en geannoteerde voorgelezen spraak (42 GB of 130 uur) van 400 Nederlandssprekende basisschoolkinderen met of zonder leesproblemen. Analyses van inter- en intra-annotatorovereenkomst zijn uitgevoerd om de consistentie waarmee leesfouten zijn gedetecteerd te onderzoeken. Orthografische en fonetische transcripties zijn gemaakt, en leesfouten en leesstrategieën zijn gelabeld.

BLISS Dialogue Summaries

Deze dataset bestaat uit Nederlandse opnamen van deelnemers die praten met het BLISS-dialoogsysteem over hun alledaagse bezigheden en hun favoriete activiteiten. Het corpus bestaat uit 55 opnames met een gemiddelde duur van 2 minuten en 34 seconden.

Downloadpagina

The Ernestus Corpus of Spontaneous Dutch

Het Ernestus Corpus of Spontaneous Dutch bevat opnames van hoge kwaliteit van 10 gesprekken, elk 90 minuten lang, tussen vrienden of directe collega's. Het corpus is opgenomen tussen de herfst van 1995 en de lente van 1996 in het Instituut voor Fonetiek van de Universiteit van Amsterdam. Professionele transcribenten hebben met de hand een orthografische transcriptie van het corpus gemaakt, terwijl een fonemische transcriptie automatisch is gemaakt.

Publicatie: M. Ernestus (2000). Voice assimilation and segment reduction in casual Dutch: A corpus-based study of the phonology-phonetic interface. Holland Institute of Generative Linguistics, Utrecht.
Website: [1]
Mirjam Ernestus (2000). Item "The Ernestus Corpus of Spontaneous Dutch" in collection "Nijmegen corpora of casual speech". The Language Archive. https://hdl.handle.net/1839/a8025f06-cf20-4183-aae5-7c3309bc8c9d

Gesproken Corpus van de zuidelijk-Nederlandse dialecten (GCND)

Het GCND, een geparseerd, gesproken corpus van Zuid-Nederlandse Dialecten is een taalkundig geannoteerd corpus gebaseerd op bestaande dialectopnames uit de jaren 1960 en 1970: Stemmen uit het verleden, aangevuld met bestaande opnames van het Meertens Instituut en een aantal nieuwe opnameshe. Het corpus biedt audio-uitgelijnde transcripties in twee lagen, één dichter bij het dialect en één dichter bij het Standaardnederlands, beide zijn ge-POS-tagd en syntactisch getagd. Het corpus is bedoeld om grootschalig onderzoek naar syntactische bijzonderheden van de Zuid-Nederlandse dialecten te vergemakkelijken.

@@ Line 1: / Line 1: @@
+<languages/>
 Gesproken corpora zijn corpora die bestaan uit gesproken data of materiaal dat gebaseerd is op gesproken data.
@@ Line 8: / Line 10: @@
 *versie 1.0 (2020)
 *dataset van 1982-1984 + replicatie 35 jaar later
-*[http://hdl.handle.net/10032/tm-a2-r4 Download pagina]
+*[http://hdl.handle.net/10032/tm-a2-r4 Downloadpagina]
 == COPAS: Corpus Pathologische en Normale Spraak ==
@@ Line 14: / Line 16: @@
 * Belgisch-Nederlands
-* [http://hdl.handle.net/10032/tm-a2-n3 Download pagina]
+* [http://hdl.handle.net/10032/tm-a2-n3 Downloadpagina]
-* [https://www.esat.kuleuven.be/psi/spraak/projects/SPACE/ Project pagina]
 ==Corpus Gesproken Nederlands==
@@ Line 23: / Line 24: @@
 * 900 uur gesproken Nederlands
-* 1998 - 2004
+* 1998-2004
-* getagged, gelemmatiseerd, geannoteerd (orthografisch/fonetisch)
+* getagd, gelemmatiseerd, geannoteerd (orthografisch/fonetisch)
-* corpus exploration software (Corex)
+* corpusexploratiesoftware (Corex)
 * versie 2.0.3.
-* [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/cgn_website/doc_English/start.htm Project website]
+* [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/cgn_website/doc_English/start.htm Projectwebsite]
-* [http://hdl.handle.net/10032/tm-a2-k6 Download pagina]
+* [http://hdl.handle.net/10032/tm-a2-k6 Downloadpagina]
-* [https://portal.clarin.inl.nl/opensonar_frontend/opensonar/search Online zoeken met OpenSonar].  Ga naar ''Extended Mode'' om uitsluitend in het Corpus Gesproken Nederlands te zoeken. (Zie[[Corpus querying]] voor meer informatie over OpenSonar.)
+* [https://portal.clarin.inl.nl/opensonar_frontend/opensonar/search Online zoeken met OpenSonar].  Ga naar ''Extended Mode'' om uitsluitend in het Corpus Gesproken Nederlands te zoeken. (Zie [[Zoeken in Corpus]] voor meer informatie over OpenSonar.)
 ==IFA Spoken Language Corpus==
-Het IFA Spoken Language Corpus is een gratis (GPL) database van handmatig gesegmenteerde gesproken Nederlands op foneem niveau. Het is samengesteld met pasklare software en gesproken Nederlands afkomstig van 8 sprekers met een verscheidenheid aan spreekstijlen. Voor een totaal van 50.000 woorden (41 minuten/spreker), duurde het vergaren en voorbereiden van spraak ongeveer drie weken per spreker.
+Het IFA Spoken Language Corpus is een gratis (GPL) database van handmatig gesegmenteerde gesproken Nederlands op foneemniveau. Het is samengesteld met pasklare software en gesproken Nederlands afkomstig van 8 sprekers met een verscheidenheid aan spreekstijlen. Voor een totaal van 50.000 woorden (41 minuten/spreker), duurde het vergaren en voorbereiden van spraak ongeveer drie weken per spreker.
 *versie 1.0 (2001)
 *4.6 MB
-*[http://hdl.handle.net/10032/tm-a2-n8 Download pagina]
+*[http://hdl.handle.net/10032/tm-a2-n8 Downloadpagina]
-*[https://www.fon.hum.uva.nl/IFA-SpokenLanguageCorpora/IFAcorpus/ Project website]
+*[https://www.fon.hum.uva.nl/IFA-SpokenLanguageCorpora/IFAcorpus/ Projectwebsite]
 ==JASMIN-spraakcorpus==
-<div lang="en" dir="ltr" class="mw-content-ltr">
+Het JASMIN-spraakcorpus is een verzameling Nederlandse spraak van jongeren, anderstaligen en senioren, woonachtig in Vlaanderen en Nederland. De spraakopnames bestaan uit voorgelezen teksten en mens-machinedialogen, en zijn verrijkt met verschillende annotatielagen. Het JASMIN-spraakcorpus is een aanvulling op het Corpus Gesproken Nederlands (CGN).
-A corpus of contemporary Dutch (Dutch/Flemish) as spoken by children of different age groups, elderly people and non-natives with different mother tongues, and human-machine interaction
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+* 115 uur aan gesproken Nederlands
-* 115 hours of spoken Dutch
+* spraak van kinderen, ouderen en anderstaligen en mens-machinedialogen.
-* speech of children, elderly people and non-natives, and human-machine interaction
+* letterlijke transcriptie, een transcriptie van de mens-machine-interactieverschijnselen, POS-tagging van de woorden, en een automatische fonetische transcriptie.
-* verbatim transcription, a transcription of the human-machine interaction (HMI) phenomena, POS tagging of the words, and an automatic phonetic transcription
+* versie 1.0 (2008)
-* version 1.0 (2008)
 * [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/jasmin_lrec2008_en.pdf Recording Speech of Children, Non-Natives and Elderly People for HLT Applications: the JASMIN-CGN Corpus (LREC Proceedings 2008)]
-* [http://hdl.handle.net/10032/tm-a2-j7 Download page]
+* [http://hdl.handle.net/10032/tm-a2-j7 Downloadpagina]
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 ==SABeD -- Spoken Academic Belgian Dutch==
-The SABeD corpus collection project has started on the 1st of March 2021 and is not yet available. The corpus of spoken academic Belgian Dutch will consist of at least 200 lectures.
+Het Spoken Academic Belgian Dutch Corpus (SABeD) bestaat uit 200 colleges gegeven op Vlaamse hogescholen en universiteiten. De eerste 25 en de laatste 5 minuten van elk college werden getranscribeerd met behulp van een ASR-systeem dat is afgestemd op Belgisch-Nederlands. Vervolgens werd de spraak manueel opgedeeld in afzonderlijke uitingen (utterance segmentation) en werden de transcripties manueel geverifieerd. De resulterende teksten werden geanalyseerd door de Frog language analyser.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+* Version 1.1 (2025)
-* [https://www.arts.kuleuven.be/ling/language-education-society/projects/sabed Project website]
+* [https://www.arts.kuleuven.be/ling/language-education-society/projects/sabed Projectwebsite]
-</div>
+* [https://hdl.handle.net/10032/tm-a3-a9 Downloadpagina]
-<div lang="en" dir="ltr" class="mw-content-ltr">
 ==AUTONOMATA-namencorpus==
-The AUTONOMATA Spoken Names Corpus is a database with in total about 5000 read first names, surnames, straat names, city names and check words.
+Het AUTONOMATA-namencorpus is een database van in totaal circa 5.000 voorgelezen voornamen, achternamen, straatnamen, plaatsnamen en controlewoorden. Het corpus bestaat uit een Nederlands en een Vlaams deel.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+* versie 1.0 (2008)
-* version 1.0 (2008)
 * [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/auto-nc_lrec2006_en.pdf Paper]
-* [http://hdl.handle.net/10032/tm-a2-m2 Download page]
+* [http://hdl.handle.net/10032/tm-a2-m2 Downloadpagina]
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 ==AUTONOMATA-POI-corpus==
-The AUTONOMATA POI Corpus is a corpus of 800 pronounced points of interest from the Netherlands and Belgium containing names of restaurants, camping sites, cafés, etc.
+Het AUTONOMATA-POI-corpus is een database van 800 voorgelezen points of interest (POI's) uit Nederland en België, bestaande uit namen van restaurants, hotels, campings, cafés etc. Het corpus bevat opnames van 80 sprekers met verschillende taalachtergronden, in totaal 16.000 geluidsbestanden. Daarnaast kregen sprekers de mogelijkheid om meerdere pogingen voor een POI op te nemen, wat heeft geresulteerd in 5.677 extra geluidsbestanden. Alle uitingen zijn handmatig fonetisch getranscribeerd.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+* [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/auto-poi_documentatie_nl.pdf Documentatie]
-* [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/auto-poi_documentatie_nl.pdf Documentation]
+* [http://lands.let.ru.nl/projects/AutonomataToo/index.php Projectwebsite]
-* [[http://lands.let.ru.nl/projects/AutonomataToo/index.php Project website]
+* [http://hdl.handle.net/10032/tm-a2-n7 Downloadpagina]
-* [http://hdl.handle.net/10032/tm-a2-n7 Download page]
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 ==Children's Oral Reading Corpus (CHOREC)==
-The CHOREC Corpus contains recorded, transcribed and annotated read speech (42 GB or 130 hours) of 400 Dutch speaking elementary school children with or without reading difficulties. Analyses of inter- and intra-annotator agreement are carried out in order to investigate the consistency with which reading errors are detected, orthographic and phonetic transcriptions are made, and reading errors and reading strategies are labeled.
+Het CHOREC-corpus bevat opgenomen, getranscribeerde en geannoteerde voorgelezen spraak (42 GB of 130 uur) van 400 Nederlandssprekende basisschoolkinderen met of zonder leesproblemen. Analyses van inter- en intra-annotatorovereenkomst zijn uitgevoerd om de consistentie waarmee leesfouten zijn gedetecteerd te onderzoeken. Orthografische en fonetische transcripties zijn gemaakt, en leesfouten en leesstrategieën zijn gelabeld.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 * [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/chorec_documentatie_en.pdf Paper]
-* [https://www.esat.kuleuven.be/psi/spraak/projects/SPACE/ Project page]
+* [http://hdl.handle.net/10032/tm-a2-j5 Downloadpagina]
-* [http://hdl.handle.net/10032/tm-a2-j5 Download page]
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 ==BLISS Dialogue Summaries==
-This dataset consists of Dutch recordings of participants talking with the BLISS dialogue system about their everyday occupations and their favorite activities. The corpus contains 55 recordings with an average duration of 2 minutes and 34 seconds.
+Deze dataset bestaat uit Nederlandse opnamen van deelnemers die praten met het BLISS-dialoogsysteem over hun alledaagse bezigheden en hun favoriete activiteiten. Het corpus bestaat uit 55 opnames met een gemiddelde duur van 2 minuten en 34 seconden.
-</div>
+*[http://hdl.handle.net/10032/tm-a2-v3 Downloadpagina]
+==The Ernestus Corpus of Spontaneous Dutch==
+Het Ernestus Corpus of Spontaneous Dutch bevat opnames van hoge kwaliteit van 10 gesprekken, elk 90 minuten lang, tussen vrienden of directe collega's. Het corpus is opgenomen tussen de herfst van 1995 en de lente van 1996 in het Instituut voor Fonetiek van de Universiteit van Amsterdam.
+Professionele transcribenten hebben met de hand een orthografische transcriptie van het corpus gemaakt, terwijl een fonemische transcriptie automatisch is gemaakt.
+*Publicatie: M. Ernestus (2000). Voice assimilation and segment reduction in casual Dutch: A corpus-based study of the phonology-phonetic interface. Holland Institute of Generative Linguistics, Utrecht.
+*Website: [https://mirjamernestus.nl/Ernestus/ECSD/index.php]
+*[https://hdl.handle.net/1839/a8025f06-cf20-4183-aae5-7c3309bc8c9d Mirjam Ernestus (2000). Item "The Ernestus Corpus of Spontaneous Dutch" in collection "Nijmegen corpora of casual speech". The Language Archive. https://hdl.handle.net/1839/a8025f06-cf20-4183-aae5-7c3309bc8c9d]
+<span id="The_Parsed_corpus_of_Southern_Dutch_Dialects_(GCND)"></span>
+== Gesproken Corpus van de zuidelijk-Nederlandse dialecten (GCND) ==
+Het GCND, een geparseerd, gesproken corpus van Zuid-Nederlandse Dialecten is een taalkundig geannoteerd corpus gebaseerd op bestaande dialectopnames uit de jaren 1960 en 1970: Stemmen uit het verleden, aangevuld met bestaande opnames van het Meertens Instituut en een aantal nieuwe opnameshe. Het corpus biedt audio-uitgelijnde transcripties in twee lagen, één dichter bij het dialect en één dichter bij het Standaardnederlands, beide zijn ge-POS-tagd en syntactisch getagd. Het corpus is bedoeld om grootschalig onderzoek naar syntactische bijzonderheden van de Zuid-Nederlandse dialecten te vergemakkelijken.
-<div lang="en" dir="ltr" class="mw-content-ltr">
+* [https://www.gcnd.ugent.be/en/home/ Website]
-*[https://hstrik.ruhosting.nl/bliss/ Project page]
+* [https://hdl.handle.net/10032/tm-a2-z8 Zoek online]
-*[http://hdl.handle.net/10032/tm-a2-v3 Download page]
+* [https://gcnd-gretel.ivdnt.org Treebank query]
-</div>