Jump to content

Gesproken corpora

From Clarin K-Centre
Revision as of 17:46, 3 April 2025 by Griet (talk | contribs)

Gesproken corpora zijn corpora die bestaan uit gesproken data of materiaal dat gebaseerd is op gesproken data.

Boarnsterhim Corpus (BHC) (Momenteel niet beschikbaar)

Het Boarnsterhim Corpus bestaat uit 250 uur spraak in zowel West-Fries als Nederlands door dezelfde groep tweetalige sprekers. Het corpus bevat originele opnamen uit 1982-1984 en een replicerend onderzoek 35 jaar later. De dataverzameling omvat de spraak van vier generaties en combineert paneldata en trenddata. ##Dit corpus is tijdelijk niet beschikbaar omdat er aanpassingen noodzakelijk zijn. Voor meer informatie hierover kunt u contact opnemen met Hans van de Velde (HvandeVelde@fryske-akademy.nl) of met Wilbert Heeringa, de datamanager van de FA (wheeringa@fryske-akademy.nl).##

  • 42.6 MB
  • versie 1.0 (2020)
  • dataset van 1982-1984 + replicatie 35 jaar later
  • Downloadpagina

COPAS: Corpus Pathologische en Normale Spraak

Het Corpus Pathologische en Normale Spraak (COPAS) bevat opnames van de DIA (Dutch Intelligibility Assessment). Daarnaast bevat het ook voorgelezen tekstpassages, afzonderlijke zinnen en spontane spraak van een deel van de sprekers. Het corpus bevat opnames van bijna 200 Vlaamse pathologische sprekers (= sprekers met een hoorbare stoornis) en 122 Vlaamse controlesprekers. De nodige annotaties werden voorzien.

Corpus Gesproken Nederlands

Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders.

De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Metadata, lexica, frequentielijsten en de corpusexploratiesoftware Corex behoren ook tot het CGN.

IFA Spoken Language Corpus

Het IFA Spoken Language Corpus is een gratis (GPL) database van handmatig gesegmenteerde gesproken Nederlands op foneemniveau. Het is samengesteld met pasklare software en gesproken Nederlands afkomstig van 8 sprekers met een verscheidenheid aan spreekstijlen. Voor een totaal van 50.000 woorden (41 minuten/spreker), duurde het vergaren en voorbereiden van spraak ongeveer drie weken per spreker.

JASMIN-spraakcorpus

Het JASMIN-spraakcorpus is een verzameling Nederlandse spraak van jongeren, anderstaligen en senioren, woonachtig in Vlaanderen en Nederland. De spraakopnames bestaan uit voorgelezen teksten en mens-machinedialogen, en zijn verrijkt met verschillende annotatielagen. Het JASMIN-spraakcorpus is een aanvulling op het Corpus Gesproken Nederlands (CGN).

SABeD -- Spoken Academic Belgian Dutch

Het Spoken Academic Belgian Dutch Corpus (SABeD) bestaat uit 200 colleges gegeven op Vlaamse hogescholen en universiteiten. De eerste 25 en de laatste 5 minuten van elk college werden getranscribeerd met behulp van een ASR-systeem dat is afgestemd op Belgisch-Nederlands. Vervolgens werd de spraak manueel opgedeeld in afzonderlijke uitingen (utterance segmentation) en werden de transcripties manueel geverifieerd. De resulterende teksten werden geanalyseerd door de Frog language analyser.

AUTONOMATA-namencorpus

Het AUTONOMATA-namencorpus is een database van in totaal circa 5.000 voorgelezen voornamen, achternamen, straatnamen, plaatsnamen en controlewoorden. Het corpus bestaat uit een Nederlands en een Vlaams deel.

AUTONOMATA-POI-corpus

Het AUTONOMATA-POI-corpus is een database van 800 voorgelezen points of interest (POI's) uit Nederland en België, bestaande uit namen van restaurants, hotels, campings, cafés etc. Het corpus bevat opnames van 80 sprekers met verschillende taalachtergronden, in totaal 16.000 geluidsbestanden. Daarnaast kregen sprekers de mogelijkheid om meerdere pogingen voor een POI op te nemen, wat heeft geresulteerd in 5.677 extra geluidsbestanden. Alle uitingen zijn handmatig fonetisch getranscribeerd.

Children's Oral Reading Corpus (CHOREC)

Het CHOREC-corpus bevat opgenomen, getranscribeerde en geannoteerde voorgelezen spraak (42 GB of 130 uur) van 400 Nederlandssprekende basisschoolkinderen met of zonder leesproblemen. Analyses van inter- en intra-annotatorovereenkomst zijn uitgevoerd om de consistentie waarmee leesfouten zijn gedetecteerd te onderzoeken. Orthografische en fonetische transcripties zijn gemaakt, en leesfouten en leesstrategieën zijn gelabeld.

BLISS Dialogue Summaries

Deze dataset bestaat uit Nederlandse opnamen van deelnemers die praten met het BLISS-dialoogsysteem over hun alledaagse bezigheden en hun favoriete activiteiten. Het corpus bestaat uit 55 opnames met een gemiddelde duur van 2 minuten en 34 seconden.

The Ernestus Corpus of Spontaneous Dutch

The Ernestus Corpus of Spontaneous Dutch contains high quality recordings of 10 conversations, each 90 minutes long, between friends or direct colleagues. The corpus was recorded between autumn 1995 and spring 1996 at the Institute of Phonetics of the University of Amsterdam. Professional transcribers have created an orthographic transcription of the corpus by hand, while a phonemic transcription has been created automatically.


The Parsed corpus of Southern Dutch Dialects (GCND)

The parsed corpus of Southern Dutch Dialects (GCND) is a linguistically annotated corpus based on existing dialect recordings from the 1960s and 1970s: Voices from the past, supplemented with existing recordings form the Meertens Institute and a number of new recordingshe. The corpus provides audio aligned transcriptions in two layers, one closer to the dialect and one closer to Standard Dutch, both are part-of-speech tagged and syntactically tagged. The corpus is meant to facilitate large-scale research into syntactical particularities of the southern Dutch dialects.