Newspaper corpora/nl: Difference between revisions
(Created page with "==SumNL: samenvattingencorpus== Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten.") |
(Created page with "Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de krant volledig digitaal en online beschikbaar is, van 2011 tot december 2017.") |
||
Line 16: | Line 16: | ||
Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief. | Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief. | ||
Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de krant volledig digitaal en online beschikbaar is, van 2011 tot december 2017. | |||
De data is beschikbaar in verschillende formaten: oorspronkelijke tekstbestanden, tekstbestanden met één zin per lijn, geannoteerd met Frog (POS-tagging, lemmatisering, morfologie, named entity recognition, chunking, dependency relaties) in FoLiA of CoNNL, en syntactisch geanalyseerd met Alpino, in Alpino-xml. | |||
Er is een overeenkomst met Wablieft voor de verspreiding van dit materiaal voor niet-commerciële doeleinden. Commerciële partijen kunnen contact opnemen met Wablieft om een licentie voor het materiaal te verkrijgen. | |||
<div lang="en" dir="ltr" class="mw-content-ltr"> | <div lang="en" dir="ltr" class="mw-content-ltr"> |
Revision as of 11:59, 13 March 2024
SoNaR corpus
Het SoNaR Corpus heeft een krantencomponent (WR-P-P-G) dat bestaat uit bijna 15 miljoen zinnen. Zie ook Referentie corpora.
SumNL: samenvattingencorpus
Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten.
- versie 1.0.1
- data set uit 2014
- 1.60 MB
- Download pagina
Wablieft corpus: eenvoudige taal
Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief.
Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de krant volledig digitaal en online beschikbaar is, van 2011 tot december 2017.
De data is beschikbaar in verschillende formaten: oorspronkelijke tekstbestanden, tekstbestanden met één zin per lijn, geannoteerd met Frog (POS-tagging, lemmatisering, morfologie, named entity recognition, chunking, dependency relaties) in FoLiA of CoNNL, en syntactisch geanalyseerd met Alpino, in Alpino-xml.
Er is een overeenkomst met Wablieft voor de verspreiding van dit materiaal voor niet-commerciële doeleinden. Commerciële partijen kunnen contact opnemen met Wablieft om een licentie voor het materiaal te verkrijgen.
- 2011-2017 archive of easy language newspaper in Belgian Dutch.
- tagged, lemmatized, parsed, available in several file formats
- version 1.2
- Vincent Vandeghinste, Bram Bulté & Liesbeth Augustinus (2019). Wablieft: An Easy-to-Read Newspaper corpus for Dutch. In CLARIN Annual Conference 2019 Proceedings. pp.188-191. Leipzig, Germany.
- Download page
WAI-NOT Corpus
The WAI-NOT Corpus contains the digital archive of the WAI-NOT newspaper (period 2009-2021). The newspaper articles are written in easy to read Dutch.
- 2009-2021 archive of easy language newspaper in Belgian Dutch
- version 1.0
- Download page
Corpus VU-DNC (VU University Diachronic News text Corpus)
The VU-DNC Corpus is a diachronic Dutch newspaper corpus (VU Free University Dutch Newspaper Corpus).
The corpus consists of data from five newspapers: Algemeen Dagblad, NRC (Handelsblad), De Telegraaf, Trouw and De Volkskrant. For each of the newspapers, data of two years (1950/1951 and 2002) are available. The articles were selected by topic (e.g. headline news, foreign news and sports). Special feature of the corpus is that both the presence of subjective elements in the articles and the presence of direct speech have been annotated. The subjective elements are annotated based on a set of lexical elements (subjectivity lexicon). As a result, the corpus is very useful to linguistically oriented researchers who are interested in diachrony and/or subjectivity and to communication scientists and media scholars who are interested in changing practices regarding the framing of coverage.