Newspaper corpora/nl: Difference between revisions

From Clarin K-Centre
Jump to navigation Jump to search
(Created page with "==SoNaR corpus== Het SoNaR Corpus heeft een krantencomponent (WR-P-P-G) dat bestaat uit bijna 15 miljoen zinnen. Zie ook Referentie corpora. * [https://opensonar.ivdnt.org Online zoeken] * [http://hdl.handle.net/10032/tm-a2-h5 Download pagina] * [http://lands.let.ru.nl/projects/SoNaR/ Project pagina]")
 
No edit summary
 
(10 intermediate revisions by 2 users not shown)
Line 1: Line 1:
==SoNaR corpus==
==SoNaR corpus==
Het SoNaR Corpus heeft een krantencomponent (WR-P-P-G) dat bestaat uit bijna 15 miljoen zinnen. Zie ook [[Referentie corpora]].
Het SoNaR-corpus heeft een krantencomponent (WR-P-P-G) die bestaat uit bijna 15 miljoen zinnen. Zie ook [[Referentiecorpora]].
* [https://opensonar.ivdnt.org Online zoeken]
* [https://opensonar.ivdnt.org Online zoeken]
* [http://hdl.handle.net/10032/tm-a2-h5 Download pagina]
* [http://hdl.handle.net/10032/tm-a2-h5 Downloadpagina]
* [http://lands.let.ru.nl/projects/SoNaR/ Project pagina]
* [http://lands.let.ru.nl/projects/SoNaR/ Projectpagina]


==SumNL: samenvattingencorpus==
==SumNL: samenvattingencorpus==
Line 9: Line 9:


* versie 1.0.1
* versie 1.0.1
* data set uit 2014
* dataset uit 2014
* 1.60 MB
* 1.60 MB
* [http://hdl.handle.net/10032/tm-a2-h7 Download pagina]
* [http://hdl.handle.net/10032/tm-a2-h7 Downloadpagina]


<div lang="en" dir="ltr" class="mw-content-ltr">
==Wablieft corpus: eenvoudige taal==
==Wablieft corpus: easy language==
Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief.
The Wablieft corpus contains the digital archive of the Wablieft newspaper (period 2011-2017), as also available on the website http://www.wablieft.be/krant/archief.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Het corpus bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de krant volledig digitaal en online beschikbaar is, van 2011 tot december 2017.
It contains 2 million words of newspaper material in easy to read Dutch. Metadata is available regarding the newspaper section (interior, sport, ...) and the publication date. This concerns all material since the newspaper became fully available digitally and online, from 2011 to December 2017.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
De data is beschikbaar in verschillende formaten: oorspronkelijke tekstbestanden, tekstbestanden met één zin per lijn, geannoteerd met Frog (POS-tagging, lemmatisering, morfologie, named entity recognition, chunking, dependentierelaties) in FoLiA of CoNNL, en syntactisch geanalyseerd met Alpino, in Alpino-xml.
The data is available in different formats: original text files, text files with one sentence per line, annotated with Frog (POS tagging, lemmatisation, morphology, named entity recognition, chunking, dependency relationships) in FoLiA or CoNNL, and analyzed syntactically with Alpino, in Alpino-XML.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Er is een overeenkomst met Wablieft voor de verspreiding van dit materiaal voor niet-commerciële doeleinden. Commerciële partijen kunnen contact opnemen met Wablieft om een licentie voor het materiaal te verkrijgen.
There is an agreement with Wablieft for the distribution of this material for non-commercial purposes. Commercial parties can contact Wablieft to obtain a license for the material.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* 2011-2017 archief van een krant in eenvoudige taal in Belgisch-Nederlands.
* 2011-2017 archive of easy language newspaper in Belgian Dutch.
* gemarkeerd, gelemmatiseerd, geparseerd, beschikbaar in verscheidene bestandsformaten
* tagged, lemmatized, parsed, available in several file formats
* versie 1.2
* version 1.2
* [https://lirias.kuleuven.be/retrieve/548433 Vincent Vandeghinste, Bram Bulté & Liesbeth Augustinus (2019).  Wablieft: An Easy-to-Read Newspaper corpus for Dutch. In ''CLARIN Annual Conference 2019 Proceedings''. pp.188-191. Leipzig, Germany.]
* [https://limo.libis.be/primo-explore/fulldisplay?docid=LIRIAS2859003&context=L&vid=Lirias&search_scope=Lirias&tab=default_tab&lang=en_US&fromSitemap=1 Vincent Vandeghinste, Bram Bulté & Liesbeth Augustinus (2019).  Wablieft: An Easy-to-Read Newspaper corpus for Dutch. In ''CLARIN Annual Conference 2019 Proceedings''. pp.188-191. Leipzig, Germany.]
* [http://hdl.handle.net/10032/tm-a2-q6 Downloadpagina]
* [http://hdl.handle.net/10032/tm-a2-q6 Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==WAI-NOT-corpus ==
==WAI-NOT Corpus ==
Het WAI-NOT-corpus bevat het digitaal archief van de [https://www.wai-not.be/page/10 WAI-NOT-krant] (periode 2009-2021). De krantenartikelen zijn geschreven in makkelijk te lezen Nederlands.  
The WAI-NOT Corpus contains the digital archive of the [https://www.wai-not.be/page/10 WAI-NOT newspaper] (period 2009-2021). The newspaper articles are written in easy to read Dutch.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* 2009-2021-archief van een krant in eenvoudige taal in Belgisch-Nederlands
* 2009-2021 archive of easy language newspaper in Belgian Dutch
* versie 1.0
* version 1.0
* [http://hdl.handle.net/10032/tm-a2-t9 Downloadpagina]
* [http://hdl.handle.net/10032/tm-a2-t9 Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Corpus VU-DNC (VU University Diachronic News text Corpus)==
==Corpus VU-DNC (VU University Diachronic News text Corpus)==
The VU-DNC Corpus is a diachronic Dutch newspaper corpus (VU Free University Dutch Newspaper Corpus).
Het VU-DNC-corpus is een diachroon Nederlands krantencorpus (VU Free University Dutch Newspaper Corpus).  
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Het corpus bestaat uit data van vijf kranten: Algemeen Dagblad, NRC (Handelsblad), De Telegraaf, Trouw en de Volkskrant. Voor elk van de kranten is data van twee jaren (1950-1951 en 2002) beschikbaar. De artikelen zijn geselecteerd per onderwerp (bijv. voorpaginanieuws, buitenlands nieuws en sportnieuws). Een bijzonder kenmerk van het corpus is dat zowel de aanwezige subjectieve elementen, als de aanwezige directe rede zijn geannoteerd. De subjectieve elementen zijn geannoteerd op basis van een set lexicale elementen (subjectiviteitslexicon). Zodoende is het corpus zeer bruikbaar voor taalkundig georiënteerde onderzoekers die geïnteresseerd zijn in diachronie en/of subjectiviteit, maar ook voor communicatiewetenschappers en mediageleerden die geïnteresseerd zijn in het veranderende praktijken i.v.m. de omkadering van de berichtgeving.
The corpus consists of data from five newspapers: Algemeen Dagblad, NRC (Handelsblad), De Telegraaf, Trouw and De Volkskrant. For each of the newspapers, data of two years (1950/1951 and 2002) are available. The articles were selected by topic (e.g. headline news, foreign news and sports). Special feature of the corpus is that both the presence of subjective elements in the articles and the presence of direct speech have been annotated. The subjective elements are annotated based on a set of lexical elements (subjectivity lexicon). As a result, the corpus is very useful to linguistically oriented researchers who are interested in diachrony and/or subjectivity and to communication scientists and media scholars who are interested in changing practices regarding the framing of coverage.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* [https://ivdnt.org/wp-content/apps/vu-dnc/index.html Corpuswebsite]
* [https://ivdnt.org/wp-content/apps/vu-dnc/index.html Corpus website]
</div>

Latest revision as of 13:09, 6 August 2024

SoNaR corpus

Het SoNaR-corpus heeft een krantencomponent (WR-P-P-G) die bestaat uit bijna 15 miljoen zinnen. Zie ook Referentiecorpora.

SumNL: samenvattingencorpus

Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten.

Wablieft corpus: eenvoudige taal

Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief.

Het corpus bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de krant volledig digitaal en online beschikbaar is, van 2011 tot december 2017.

De data is beschikbaar in verschillende formaten: oorspronkelijke tekstbestanden, tekstbestanden met één zin per lijn, geannoteerd met Frog (POS-tagging, lemmatisering, morfologie, named entity recognition, chunking, dependentierelaties) in FoLiA of CoNNL, en syntactisch geanalyseerd met Alpino, in Alpino-xml.

Er is een overeenkomst met Wablieft voor de verspreiding van dit materiaal voor niet-commerciële doeleinden. Commerciële partijen kunnen contact opnemen met Wablieft om een licentie voor het materiaal te verkrijgen.

WAI-NOT-corpus

Het WAI-NOT-corpus bevat het digitaal archief van de WAI-NOT-krant (periode 2009-2021). De krantenartikelen zijn geschreven in makkelijk te lezen Nederlands.

  • 2009-2021-archief van een krant in eenvoudige taal in Belgisch-Nederlands
  • versie 1.0
  • Downloadpagina

Corpus VU-DNC (VU University Diachronic News text Corpus)

Het VU-DNC-corpus is een diachroon Nederlands krantencorpus (VU Free University Dutch Newspaper Corpus).

Het corpus bestaat uit data van vijf kranten: Algemeen Dagblad, NRC (Handelsblad), De Telegraaf, Trouw en de Volkskrant. Voor elk van de kranten is data van twee jaren (1950-1951 en 2002) beschikbaar. De artikelen zijn geselecteerd per onderwerp (bijv. voorpaginanieuws, buitenlands nieuws en sportnieuws). Een bijzonder kenmerk van het corpus is dat zowel de aanwezige subjectieve elementen, als de aanwezige directe rede zijn geannoteerd. De subjectieve elementen zijn geannoteerd op basis van een set lexicale elementen (subjectiviteitslexicon). Zodoende is het corpus zeer bruikbaar voor taalkundig georiënteerde onderzoekers die geïnteresseerd zijn in diachronie en/of subjectiviteit, maar ook voor communicatiewetenschappers en mediageleerden die geïnteresseerd zijn in het veranderende praktijken i.v.m. de omkadering van de berichtgeving.