Spoken corpora/nl: Difference between revisions
(Created page with "== COPAS: Corpus Pathologische en Normale Spraak == Het Corpus Pathologische en Normale Spraak (COPAS) bevat opnames van de DIA (Dutch Intelligibility Assessment). Daarnaast bevat het ook voorgelezen tekstpassages, afzonderlijke zinnen en spontane spraak van een deel van de sprekers. Het corpus bevat opnames van bijna 200 Vlaamse pathologische sprekers (= sprekers met een hoorbare stoornis) en 122 Vlaamse controlesprekers. De nodige annotaties werden voorzien.") |
(Updating to match new version of source page) |
||
(7 intermediate revisions by 2 users not shown) | |||
Line 1: | Line 1: | ||
<languages/> | |||
Gesproken corpora zijn corpora die bestaan uit gesproken data of materiaal dat gebaseerd is op gesproken data. | Gesproken corpora zijn corpora die bestaan uit gesproken data of materiaal dat gebaseerd is op gesproken data. | ||
==Boarnsterhim Corpus (BHC) (Momenteel niet beschikbaar)== | ==Boarnsterhim Corpus (BHC) (Momenteel niet beschikbaar)== | ||
Het Boarnsterhim Corpus bestaat uit 250 uur spraak in zowel West-Fries als Nederlands door dezelfde groep tweetalige sprekers. Het corpus bevat originele opnamen uit 1982-1984 en een replicerend onderzoek 35 jaar later. De dataverzameling omvat de spraak van vier generaties en combineert paneldata en trenddata. | Het Boarnsterhim Corpus bestaat uit 250 uur spraak in zowel West-Fries als Nederlands door dezelfde groep tweetalige sprekers. Het corpus bevat originele opnamen uit 1982-1984 en een replicerend onderzoek 35 jaar later. De dataverzameling omvat de spraak van vier generaties en combineert paneldata en trenddata. | ||
''##Dit corpus is tijdelijk niet beschikbaar omdat er aanpassingen noodzakelijk zijn. Voor meer informatie hierover kunt u contact opnemen met Hans van de Velde (HvandeVelde@fryske-akademy.nl) of met Wilbert Heeringa, de datamanager van de FA (wheeringa@fryske-akademy.nl).## | ''##Dit corpus is tijdelijk niet beschikbaar omdat er aanpassingen noodzakelijk zijn. Een nieuwe versie wordt verwacht in de zomer van 2024. Voor meer informatie hierover kunt u contact opnemen met Hans van de Velde (HvandeVelde@fryske-akademy.nl) of met Wilbert Heeringa, de datamanager van de FA (wheeringa@fryske-akademy.nl).## | ||
'' | '' | ||
*42.6 MB | *42.6 MB | ||
*versie 1.0 (2020) | *versie 1.0 (2020) | ||
*dataset van 1982-1984 + replicatie 35 jaar later | *dataset van 1982-1984 + replicatie 35 jaar later | ||
*[http://hdl.handle.net/10032/tm-a2-r4 | *[http://hdl.handle.net/10032/tm-a2-r4 Downloadpagina] | ||
== COPAS: Corpus Pathologische en Normale Spraak == | == COPAS: Corpus Pathologische en Normale Spraak == | ||
Line 14: | Line 16: | ||
* Belgisch-Nederlands | * Belgisch-Nederlands | ||
* [http://hdl.handle.net/10032/tm-a2-n3 | * [http://hdl.handle.net/10032/tm-a2-n3 Downloadpagina] | ||
* [https://www.esat.kuleuven.be/psi/spraak/projects/SPACE/ | * [https://www.esat.kuleuven.be/psi/spraak/projects/SPACE/ Projectpagina] | ||
==Corpus Gesproken Nederlands== | ==Corpus Gesproken Nederlands== | ||
Line 23: | Line 25: | ||
* 900 uur gesproken Nederlands | * 900 uur gesproken Nederlands | ||
* 1998 - 2004 | * 1998-2004 | ||
* | * getagd, gelemmatiseerd, geannoteerd (orthografisch/fonetisch) | ||
* | * corpusexploratiesoftware (Corex) | ||
* versie 2.0.3. | * versie 2.0.3. | ||
* [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/cgn_website/doc_English/start.htm | * [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/cgn_website/doc_English/start.htm Projectwebsite] | ||
* [http://hdl.handle.net/10032/tm-a2-k6 | * [http://hdl.handle.net/10032/tm-a2-k6 Downloadpagina] | ||
* [https://portal.clarin.inl.nl/opensonar_frontend/opensonar/search Online zoeken met OpenSonar]. Ga naar ''Extended Mode'' om uitsluitend in het Corpus Gesproken Nederlands te zoeken. (Zie[[Corpus | * [https://portal.clarin.inl.nl/opensonar_frontend/opensonar/search Online zoeken met OpenSonar]. Ga naar ''Extended Mode'' om uitsluitend in het Corpus Gesproken Nederlands te zoeken. (Zie [[Zoeken in Corpus]] voor meer informatie over OpenSonar.) | ||
==IFA Spoken Language Corpus== | ==IFA Spoken Language Corpus== | ||
Het IFA Spoken Language Corpus is een gratis (GPL) database van handmatig gesegmenteerde gesproken Nederlands op | Het IFA Spoken Language Corpus is een gratis (GPL) database van handmatig gesegmenteerde gesproken Nederlands op foneemniveau. Het is samengesteld met pasklare software en gesproken Nederlands afkomstig van 8 sprekers met een verscheidenheid aan spreekstijlen. Voor een totaal van 50.000 woorden (41 minuten/spreker), duurde het vergaren en voorbereiden van spraak ongeveer drie weken per spreker. | ||
*versie 1.0 (2001) | *versie 1.0 (2001) | ||
*4.6 MB | *4.6 MB | ||
*[http://hdl.handle.net/10032/tm-a2-n8 | *[http://hdl.handle.net/10032/tm-a2-n8 Downloadpagina] | ||
*[https://www.fon.hum.uva.nl/IFA-SpokenLanguageCorpora/IFAcorpus/ | *[https://www.fon.hum.uva.nl/IFA-SpokenLanguageCorpora/IFAcorpus/ Projectwebsite] | ||
==JASMIN-spraakcorpus== | ==JASMIN-spraakcorpus== | ||
Line 45: | Line 47: | ||
* 115 uur aan gesproken Nederlands | * 115 uur aan gesproken Nederlands | ||
* spraak van kinderen, ouderen en anderstaligen en mens-machinedialogen. | * spraak van kinderen, ouderen en anderstaligen en mens-machinedialogen. | ||
* letterlijke transcriptie, een transcriptie van | * letterlijke transcriptie, een transcriptie van de mens-machine-interactieverschijnselen, POS-tagging van de woorden, en een automatische fonetische transcriptie. | ||
* versie 1.0 (2008) | * versie 1.0 (2008) | ||
* [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/jasmin_lrec2008_en.pdf Recording Speech of Children, Non-Natives and Elderly People for HLT Applications: the JASMIN-CGN Corpus (LREC Proceedings 2008)] | * [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/jasmin_lrec2008_en.pdf Recording Speech of Children, Non-Natives and Elderly People for HLT Applications: the JASMIN-CGN Corpus (LREC Proceedings 2008)] | ||
* [http://hdl.handle.net/10032/tm-a2-j7 | * [http://hdl.handle.net/10032/tm-a2-j7 Downloadpagina] | ||
==SABeD -- Spoken Academic Belgian Dutch== | ==SABeD -- Spoken Academic Belgian Dutch== | ||
Het SABeD | Het SABeD-corpusverzamelingsproject is begonnen op 1 maart 2021 en is nog niet beschikbaar. Het corpus van gesproken academisch Belgisch-Nederlands zal bestaan uit 200 colleges. | ||
* [https://www.arts.kuleuven.be/ling/language-education-society/projects/sabed | * [https://www.arts.kuleuven.be/ling/language-education-society/projects/sabed Projectwebsite] | ||
==AUTONOMATA-namencorpus== | ==AUTONOMATA-namencorpus== | ||
Het AUTONOMATA-namencorpus is een database van in totaal circa | Het AUTONOMATA-namencorpus is een database van in totaal circa 5.000 voorgelezen voornamen, achternamen, straatnamen, plaatsnamen en controlewoorden. Het corpus bestaat uit een Nederlands en een Vlaams deel. | ||
* versie 1.0 (2008) | * versie 1.0 (2008) | ||
* [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/auto-nc_lrec2006_en.pdf Paper] | * [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/auto-nc_lrec2006_en.pdf Paper] | ||
* [http://hdl.handle.net/10032/tm-a2-m2 | * [http://hdl.handle.net/10032/tm-a2-m2 Downloadpagina] | ||
==AUTONOMATA-POI-corpus== | ==AUTONOMATA-POI-corpus== | ||
Het AUTONOMATA-POI-corpus is een database van 800 voorgelezen points of interest (POI's) uit Nederland en België, bestaande uit namen van restaurants, hotels, campings, cafés etc. Het corpus bevat opnames van 80 sprekers met verschillende taalachtergronden, in totaal 16.000 geluidsbestanden. Daarnaast kregen sprekers de mogelijkheid om meerdere pogingen voor een POI op te nemen, wat heeft geresulteerd in 5.677 extra geluidsbestanden. Alle uitingen zijn handmatig fonetisch getranscribeerd. | |||
* [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/auto-poi_documentatie_nl.pdf Documentatie] | |||
* [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/auto-poi_documentatie_nl.pdf | * [http://lands.let.ru.nl/projects/AutonomataToo/index.php Projectwebsite] | ||
* | * [http://hdl.handle.net/10032/tm-a2-n7 Downloadpagina] | ||
* [http://hdl.handle.net/10032/tm-a2-n7 | |||
==Children's Oral Reading Corpus (CHOREC)== | ==Children's Oral Reading Corpus (CHOREC)== | ||
Het CHOREC-corpus bevat opgenomen, getranscribeerde en geannoteerde voorgelezen spraak (42 GB of 130 uur) van 400 Nederlandssprekende basisschoolkinderen met of zonder leesproblemen. Analyses van inter- en intra-annotatorovereenkomst zijn uitgevoerd om de consistentie waarmee leesfouten zijn gedetecteerd te onderzoeken. Orthografische en fonetische transcripties zijn gemaakt, en leesfouten en leesstrategieën zijn gelabeld. | |||
* [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/chorec_documentatie_en.pdf Paper] | * [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/chorec_documentatie_en.pdf Paper] | ||
* [https://www.esat.kuleuven.be/psi/spraak/projects/SPACE/ | * [https://www.esat.kuleuven.be/psi/spraak/projects/SPACE/ Projectpagina] | ||
* [http://hdl.handle.net/10032/tm-a2-j5 | * [http://hdl.handle.net/10032/tm-a2-j5 Downloadpagina] | ||
==BLISS Dialogue Summaries== | ==BLISS Dialogue Summaries== | ||
Deze dataset bestaat uit Nederlandse opnamen van deelnemers die praten met het BLISS-dialoogsysteem over hun alledaagse bezigheden en hun favoriete activiteiten. Het corpus bestaat uit 55 opnames met een gemiddelde duur van 2 minuten en 34 seconden. | |||
*[https://hstrik.ruhosting.nl/bliss/ Projectpagina] | |||
*[https://hstrik.ruhosting.nl/bliss/ | *[http://hdl.handle.net/10032/tm-a2-v3 Downloadpagina] | ||
*[http://hdl.handle.net/10032/tm-a2-v3 | |||
Latest revision as of 12:32, 11 June 2024
Gesproken corpora zijn corpora die bestaan uit gesproken data of materiaal dat gebaseerd is op gesproken data.
Boarnsterhim Corpus (BHC) (Momenteel niet beschikbaar)
Het Boarnsterhim Corpus bestaat uit 250 uur spraak in zowel West-Fries als Nederlands door dezelfde groep tweetalige sprekers. Het corpus bevat originele opnamen uit 1982-1984 en een replicerend onderzoek 35 jaar later. De dataverzameling omvat de spraak van vier generaties en combineert paneldata en trenddata. ##Dit corpus is tijdelijk niet beschikbaar omdat er aanpassingen noodzakelijk zijn. Een nieuwe versie wordt verwacht in de zomer van 2024. Voor meer informatie hierover kunt u contact opnemen met Hans van de Velde (HvandeVelde@fryske-akademy.nl) of met Wilbert Heeringa, de datamanager van de FA (wheeringa@fryske-akademy.nl).##
- 42.6 MB
- versie 1.0 (2020)
- dataset van 1982-1984 + replicatie 35 jaar later
- Downloadpagina
COPAS: Corpus Pathologische en Normale Spraak
Het Corpus Pathologische en Normale Spraak (COPAS) bevat opnames van de DIA (Dutch Intelligibility Assessment). Daarnaast bevat het ook voorgelezen tekstpassages, afzonderlijke zinnen en spontane spraak van een deel van de sprekers. Het corpus bevat opnames van bijna 200 Vlaamse pathologische sprekers (= sprekers met een hoorbare stoornis) en 122 Vlaamse controlesprekers. De nodige annotaties werden voorzien.
- Belgisch-Nederlands
- Downloadpagina
- Projectpagina
Corpus Gesproken Nederlands
Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders.
De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Metadata, lexica, frequentielijsten en de corpusexploratiesoftware Corex behoren ook tot het CGN.
- 900 uur gesproken Nederlands
- 1998-2004
- getagd, gelemmatiseerd, geannoteerd (orthografisch/fonetisch)
- corpusexploratiesoftware (Corex)
- versie 2.0.3.
- Projectwebsite
- Downloadpagina
- Online zoeken met OpenSonar. Ga naar Extended Mode om uitsluitend in het Corpus Gesproken Nederlands te zoeken. (Zie Zoeken in Corpus voor meer informatie over OpenSonar.)
IFA Spoken Language Corpus
Het IFA Spoken Language Corpus is een gratis (GPL) database van handmatig gesegmenteerde gesproken Nederlands op foneemniveau. Het is samengesteld met pasklare software en gesproken Nederlands afkomstig van 8 sprekers met een verscheidenheid aan spreekstijlen. Voor een totaal van 50.000 woorden (41 minuten/spreker), duurde het vergaren en voorbereiden van spraak ongeveer drie weken per spreker.
- versie 1.0 (2001)
- 4.6 MB
- Downloadpagina
- Projectwebsite
JASMIN-spraakcorpus
Het JASMIN-spraakcorpus is een verzameling Nederlandse spraak van jongeren, anderstaligen en senioren, woonachtig in Vlaanderen en Nederland. De spraakopnames bestaan uit voorgelezen teksten en mens-machinedialogen, en zijn verrijkt met verschillende annotatielagen. Het JASMIN-spraakcorpus is een aanvulling op het Corpus Gesproken Nederlands (CGN).
- 115 uur aan gesproken Nederlands
- spraak van kinderen, ouderen en anderstaligen en mens-machinedialogen.
- letterlijke transcriptie, een transcriptie van de mens-machine-interactieverschijnselen, POS-tagging van de woorden, en een automatische fonetische transcriptie.
- versie 1.0 (2008)
- Recording Speech of Children, Non-Natives and Elderly People for HLT Applications: the JASMIN-CGN Corpus (LREC Proceedings 2008)
- Downloadpagina
SABeD -- Spoken Academic Belgian Dutch
Het SABeD-corpusverzamelingsproject is begonnen op 1 maart 2021 en is nog niet beschikbaar. Het corpus van gesproken academisch Belgisch-Nederlands zal bestaan uit 200 colleges.
AUTONOMATA-namencorpus
Het AUTONOMATA-namencorpus is een database van in totaal circa 5.000 voorgelezen voornamen, achternamen, straatnamen, plaatsnamen en controlewoorden. Het corpus bestaat uit een Nederlands en een Vlaams deel.
- versie 1.0 (2008)
- Paper
- Downloadpagina
AUTONOMATA-POI-corpus
Het AUTONOMATA-POI-corpus is een database van 800 voorgelezen points of interest (POI's) uit Nederland en België, bestaande uit namen van restaurants, hotels, campings, cafés etc. Het corpus bevat opnames van 80 sprekers met verschillende taalachtergronden, in totaal 16.000 geluidsbestanden. Daarnaast kregen sprekers de mogelijkheid om meerdere pogingen voor een POI op te nemen, wat heeft geresulteerd in 5.677 extra geluidsbestanden. Alle uitingen zijn handmatig fonetisch getranscribeerd.
Children's Oral Reading Corpus (CHOREC)
Het CHOREC-corpus bevat opgenomen, getranscribeerde en geannoteerde voorgelezen spraak (42 GB of 130 uur) van 400 Nederlandssprekende basisschoolkinderen met of zonder leesproblemen. Analyses van inter- en intra-annotatorovereenkomst zijn uitgevoerd om de consistentie waarmee leesfouten zijn gedetecteerd te onderzoeken. Orthografische en fonetische transcripties zijn gemaakt, en leesfouten en leesstrategieën zijn gelabeld.
BLISS Dialogue Summaries
Deze dataset bestaat uit Nederlandse opnamen van deelnemers die praten met het BLISS-dialoogsysteem over hun alledaagse bezigheden en hun favoriete activiteiten. Het corpus bestaat uit 55 opnames met een gemiddelde duur van 2 minuten en 34 seconden.