Gesproken corpora
Gesproken corpora zijn corpora die bestaan uit gesproken data of materiaal dat gebaseerd is op gesproken data.
Boarnsterhim Corpus (BHC) (Momenteel niet beschikbaar)
Het Boarnsterhim Corpus bestaat uit 250 uur spraak in zowel West-Fries als Nederlands door dezelfde groep tweetalige sprekers. Het corpus bevat originele opnamen uit 1982-1984 en een replicerend onderzoek 35 jaar later. De dataverzameling omvat de spraak van vier generaties en combineert paneldata en trenddata. ##Dit corpus is tijdelijk niet beschikbaar omdat er aanpassingen noodzakelijk zijn. Voor meer informatie hierover kunt u contact opnemen met Hans van de Velde (HvandeVelde@fryske-akademy.nl) of met Wilbert Heeringa, de datamanager van de FA (wheeringa@fryske-akademy.nl).##
- 42.6 MB
- versie 1.0 (2020)
- dataset van 1982-1984 + replicatie 35 jaar later
- Download pagina
COPAS: Corpus Pathologische en Normale Spraak
Het Corpus Pathologische en Normale Spraak (COPAS) bevat opnames van de DIA (Dutch Intelligibility Assessment). Daarnaast bevat het ook voorgelezen tekstpassages, afzonderlijke zinnen en spontane spraak van een deel van de sprekers. Het corpus bevat opnames van bijna 200 Vlaamse pathologische sprekers (= sprekers met een hoorbare stoornis) en 122 Vlaamse controlesprekers. De nodige annotaties werden voorzien.
- Belgisch-Nederlands
- Download pagina
- Project pagina
Corpus Gesproken Nederlands
Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders.
De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Metadata, lexica, frequentielijsten en de corpusexploratiesoftware Corex behoren ook tot het CGN.
- 900 uur gesproken Nederlands
- 1998 - 2004
- getagged, gelemmatiseerd, geannoteerd (orthografisch/fonetisch)
- corpus exploration software (Corex)
- versie 2.0.3.
- Project website
- Download pagina
- Online zoeken met OpenSonar. Ga naar Extended Mode om uitsluitend in het Corpus Gesproken Nederlands te zoeken. (ZieCorpus querying voor meer informatie over OpenSonar.)
IFA Spoken Language Corpus
The IFA Spoken Language corpus is a free (GPL) database of hand-segmented Dutch speech at the phoneme level. It was constructed with off-the-shelf software using speech from 8 speakers in a variety of speaking styles. For a total of 50,000 words (41 minutes/speaker), speech acquisition and preparation took around 3 person-weeks per speaker.
- version 1.0 (2001)
- 4.6 MB
- Download page
- Project website
JASMIN-spraakcorpus
A corpus of contemporary Dutch (Dutch/Flemish) as spoken by children of different age groups, elderly people and non-natives with different mother tongues, and human-machine interaction
- 115 hours of spoken Dutch
- speech of children, elderly people and non-natives, and human-machine interaction
- verbatim transcription, a transcription of the human-machine interaction (HMI) phenomena, POS tagging of the words, and an automatic phonetic transcription
- version 1.0 (2008)
- Recording Speech of Children, Non-Natives and Elderly People for HLT Applications: the JASMIN-CGN Corpus (LREC Proceedings 2008)
- Download page
SABeD -- Spoken Academic Belgian Dutch
The SABeD corpus collection project has started on the 1st of March 2021 and is not yet available. The corpus of spoken academic Belgian Dutch will consist of at least 200 lectures.
AUTONOMATA-namencorpus
The AUTONOMATA Spoken Names Corpus is a database with in total about 5000 read first names, surnames, straat names, city names and check words.
- version 1.0 (2008)
- Paper
- Download page
AUTONOMATA-POI-corpus
The AUTONOMATA POI Corpus is a corpus of 800 pronounced points of interest from the Netherlands and Belgium containing names of restaurants, camping sites, cafés, etc.
Children's Oral Reading Corpus (CHOREC)
The CHOREC Corpus contains recorded, transcribed and annotated read speech (42 GB or 130 hours) of 400 Dutch speaking elementary school children with or without reading difficulties. Analyses of inter- and intra-annotator agreement are carried out in order to investigate the consistency with which reading errors are detected, orthographic and phonetic transcriptions are made, and reading errors and reading strategies are labeled.
BLISS Dialogue Summaries
This dataset consists of Dutch recordings of participants talking with the BLISS dialogue system about their everyday occupations and their favorite activities. The corpus contains 55 recordings with an average duration of 2 minutes and 34 seconds.