Corpora of academic texts/nl: Difference between revisions

From Clarin K-Centre
Jump to navigation Jump to search
(Created page with "Corpora van academische teksten")
 
No edit summary
 
(7 intermediate revisions by 2 users not shown)
Line 1: Line 1:
Corpora van academische teksten bevatten wetenschappelijke publicaties, zoals onderzoekspapers, essays en abstracts die zijn gepubliceerd in academische tijdschriften, conferentie notulen, scripties geschreven door studenten van bachelor en gediplomeerd niveau en wetenschappelijke monografieën.
Corpora van academische teksten bevatten wetenschappelijke publicaties, zoals onderzoekspapers, essays en abstracts die zijn gepubliceerd in academische tijdschriften, conferentienotulen, scripties geschreven door bachelorstudenten en gediplomeerde studenten, en wetenschappelijke monografieën.


==Corpus Ondertitelde UVN-Colleges (COUC)==
==Corpus Ondertitelde UVN-Colleges (COUC)==
Dit corpus bevat 57 (2020-07-16) ondertitelde colleges van de Universiteit van Nederland (UVN). Er is ondertiteling toegevoegd aan bestaande video-opnames van colleges van de UVN.
Dit corpus bevat 57 (2020-07-16) ondertitelde colleges van de Universiteit van Nederland (UVN). Er is ondertiteling toegevoegd aan bestaande video-opnames van colleges van de UVN.


<div lang="en" dir="ltr" class="mw-content-ltr">
In tegenstelling tot gewone ondertitels, zijn de ondertitels in dit project een zo goed als 100% letterlijke representatie van wat wordt gezegd door de mensen in de opnames. Ze bevatten exacte orthografische transcripties van opeenvolgende woorden en tonen daarmee dus de eigenaardigheden van de gesproken taalmodaliteit, met een gebrek aan de grammaticale coherentie die kenmerkend is voor geschreven teksten. De transcripties bevatten echter geen sprekergeluiden zoals smakken met de lippen of hoesten of aarzelende geluiden zoals 'ehm'. Omwille van de leesbaarheid is er interpunctie toegevoegd.
Unlike common subtitles, the subtitles generated in this project are a nearly 100% literal representation of the speech as spoken by the people in the recordings. They contain exact orthographic transcriptions of subsequent words and thus show the peculiarities of the spoken language modality, lacking grammatical coherence typical for written texts.
On the other hand, the transcriptions do not contain speaker noises (such as lip smacks or coughs) nor hesitation sounds as "ehm". For the sake of readability punctuation markers were included.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*22 MB
*22 MB
*version 1.0 (2020)
*versie 1.0 (2020)
*[http://hdl.handle.net/10032/tm-a2-s3 Download page]
*[http://hdl.handle.net/10032/tm-a2-s3 Downloadpagina]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Corpus Nederlands door Natives (CNN)==
==Corpus Nederlands door Natives (CNN)==
Argumentative writing tasks written by 2nd year students.
Argumentatieve schrijftaken geschreven door tweedejaarsstudenten.
* [https://corpora.uclouvain.be/catalog/corpus/corpus-nederlands-door-natives-cnn Corpus website]
* [https://corpora.uclouvain.be/catalog/corpus/corpus-nederlands-door-natives-cnn Corpuswebsite]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==SABeD-corpus==
==SABeD corpus==
Het SABeD-corpusverzamelingsproject is begonnen op 1 maart 2021 en is nog niet beschikbaar. Het corpus van gesproken academisch Belgisch-Nederlands zal uit op zijn minst 200 colleges bestaan.  
The SABeD corpus collection project has started on the 1st of March 2021 and is not yet available. The corpus of spoken academic Belgian Dutch will consist of at least 200 lectures.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* [https://www.arts.kuleuven.be/ling/language-education-society/projects/sabed Projectwebsite]
* [https://www.arts.kuleuven.be/ling/language-education-society/projects/sabed Project website]
</div>

Latest revision as of 08:36, 26 March 2024

Corpora van academische teksten bevatten wetenschappelijke publicaties, zoals onderzoekspapers, essays en abstracts die zijn gepubliceerd in academische tijdschriften, conferentienotulen, scripties geschreven door bachelorstudenten en gediplomeerde studenten, en wetenschappelijke monografieën.

Corpus Ondertitelde UVN-Colleges (COUC)

Dit corpus bevat 57 (2020-07-16) ondertitelde colleges van de Universiteit van Nederland (UVN). Er is ondertiteling toegevoegd aan bestaande video-opnames van colleges van de UVN.

In tegenstelling tot gewone ondertitels, zijn de ondertitels in dit project een zo goed als 100% letterlijke representatie van wat wordt gezegd door de mensen in de opnames. Ze bevatten exacte orthografische transcripties van opeenvolgende woorden en tonen daarmee dus de eigenaardigheden van de gesproken taalmodaliteit, met een gebrek aan de grammaticale coherentie die kenmerkend is voor geschreven teksten. De transcripties bevatten echter geen sprekergeluiden zoals smakken met de lippen of hoesten of aarzelende geluiden zoals 'ehm'. Omwille van de leesbaarheid is er interpunctie toegevoegd.

Corpus Nederlands door Natives (CNN)

Argumentatieve schrijftaken geschreven door tweedejaarsstudenten.

SABeD-corpus

Het SABeD-corpusverzamelingsproject is begonnen op 1 maart 2021 en is nog niet beschikbaar. Het corpus van gesproken academisch Belgisch-Nederlands zal uit op zijn minst 200 colleges bestaan.