Corpora van academische teksten

From Clarin K-Centre
Revision as of 18:21, 25 March 2024 by Griet (talk | contribs)
Jump to navigation Jump to search

Corpora van academische teksten bevatten wetenschappelijke publicaties, zoals onderzoekspapers, essays en abstracts die zijn gepubliceerd in academische tijdschriften, conferentienotulen, scripties geschreven door bachelorstudenten en gediplomeerde studenten, en wetenschappelijke monografieën.

Corpus Ondertitelde UVN-Colleges (COUC)

Dit corpus bevat 57 (2020-07-16) ondertitelde colleges van de Universiteit van Nederland (UVN). Er is ondertiteling toegevoegd aan bestaande video-opnames van colleges van de UVN.

In tegenstelling tot gewone ondertitels, zijn de ondertitels in dit project een zo goed als 100% letterlijke representatie van wat wordt gezegd door de mensen in de opnames. Ze bevatten exacte orthografische transcripties van opeenvolgende woorden en tonen daarmee dus de eigenaardigheden van de gesproken taalmodaliteit, met een gebrek aan de grammaticale coherentie die kenmerkend is voor geschreven teksten. De transcripties bevatten echter geen sprekergeluiden zoals smakken met de lippen of hoesten of aarzelingsgeluiden zoals 'ehm'. Omwille van de leesbaarheid is er interpunctie toegevoegd.

Corpus Nederlands door Natives (CNN)

Argumentatieve schrijftaken geschreven door tweedejaarsstudenten.

SABeD corpus

Het SABeD-corpusverzamelingsproject is begonnen op 1 maart 2021 en is nog niet beschikbaar. Het corpus van gesproken academisch Belgisch-Nederlands zal uit op zijn minst 200 colleges bestaan.