Newspaper corpora/nl: Difference between revisions
(Created page with "De data is beschikbaar in verschillende formaten: oorspronkelijke tekstbestanden, tekstbestanden met één zin per lijn, geannoteerd met Frog (POS-tagging, lemmatisering, morfologie, named entity recognition, chunking, dependency relaties) in FoLiA of CoNNL, en syntactisch geanalyseerd met Alpino, in Alpino-xml.") |
No edit summary |
||
(7 intermediate revisions by 2 users not shown) | |||
Line 1: | Line 1: | ||
==SoNaR corpus== | ==SoNaR corpus== | ||
Het SoNaR | Het SoNaR-corpus heeft een krantencomponent (WR-P-P-G) die bestaat uit bijna 15 miljoen zinnen. Zie ook [[Referentiecorpora]]. | ||
* [https://opensonar.ivdnt.org Online zoeken] | * [https://opensonar.ivdnt.org Online zoeken] | ||
* [http://hdl.handle.net/10032/tm-a2-h5 | * [http://hdl.handle.net/10032/tm-a2-h5 Downloadpagina] | ||
* [http://lands.let.ru.nl/projects/SoNaR/ | * [http://lands.let.ru.nl/projects/SoNaR/ Projectpagina] | ||
==SumNL: samenvattingencorpus== | ==SumNL: samenvattingencorpus== | ||
Line 9: | Line 9: | ||
* versie 1.0.1 | * versie 1.0.1 | ||
* | * dataset uit 2014 | ||
* 1.60 MB | * 1.60 MB | ||
* [http://hdl.handle.net/10032/tm-a2-h7 | * [http://hdl.handle.net/10032/tm-a2-h7 Downloadpagina] | ||
==Wablieft corpus: eenvoudige taal== | ==Wablieft corpus: eenvoudige taal== | ||
Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief. | Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief. | ||
Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de krant volledig digitaal en online beschikbaar is, van 2011 tot december 2017. | Het corpus bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de krant volledig digitaal en online beschikbaar is, van 2011 tot december 2017. | ||
De data is beschikbaar in verschillende formaten: oorspronkelijke tekstbestanden, tekstbestanden met één zin per lijn, geannoteerd met Frog (POS-tagging, lemmatisering, morfologie, named entity recognition, chunking, | De data is beschikbaar in verschillende formaten: oorspronkelijke tekstbestanden, tekstbestanden met één zin per lijn, geannoteerd met Frog (POS-tagging, lemmatisering, morfologie, named entity recognition, chunking, dependentierelaties) in FoLiA of CoNNL, en syntactisch geanalyseerd met Alpino, in Alpino-xml. | ||
Er is een overeenkomst met Wablieft voor de verspreiding van dit materiaal voor niet-commerciële doeleinden. Commerciële partijen kunnen contact opnemen met Wablieft om een licentie voor het materiaal te verkrijgen. | Er is een overeenkomst met Wablieft voor de verspreiding van dit materiaal voor niet-commerciële doeleinden. Commerciële partijen kunnen contact opnemen met Wablieft om een licentie voor het materiaal te verkrijgen. | ||
* 2011-2017 archief van een krant in eenvoudige taal in Belgisch Nederlands. | * 2011-2017 archief van een krant in eenvoudige taal in Belgisch-Nederlands. | ||
* gemarkeerd, gelemmatiseerd, geparseerd, beschikbaar in verscheidene bestandsformaten | * gemarkeerd, gelemmatiseerd, geparseerd, beschikbaar in verscheidene bestandsformaten | ||
* versie 1.2 | * versie 1.2 | ||
* [https:// | * [https://lirias.kuleuven.be/retrieve/548433 Vincent Vandeghinste, Bram Bulté & Liesbeth Augustinus (2019). Wablieft: An Easy-to-Read Newspaper corpus for Dutch. In ''CLARIN Annual Conference 2019 Proceedings''. pp.188-191. Leipzig, Germany.] | ||
* [http://hdl.handle.net/10032/tm-a2-q6 | * [http://hdl.handle.net/10032/tm-a2-q6 Downloadpagina] | ||
==WAI-NOT | ==WAI-NOT-corpus == | ||
Het WAI-NOT | Het WAI-NOT-corpus bevat het digitaal archief van de [https://www.wai-not.be/page/10 WAI-NOT-krant] (periode 2009-2021). De krantenartikelen zijn geschreven in makkelijk te lezen Nederlands. | ||
* 2009-2021-archief van een krant in eenvoudige taal in Belgisch-Nederlands | |||
* 2009-2021 | * versie 1.0 | ||
* | * [http://hdl.handle.net/10032/tm-a2-t9 Downloadpagina] | ||
* [http://hdl.handle.net/10032/tm-a2-t9 | |||
==Corpus VU-DNC (VU University Diachronic News text Corpus)== | ==Corpus VU-DNC (VU University Diachronic News text Corpus)== | ||
Het VU-DNC-corpus is een diachroon Nederlands krantencorpus (VU Free University Dutch Newspaper Corpus). | |||
Het corpus bestaat uit data van vijf kranten: Algemeen Dagblad, NRC (Handelsblad), De Telegraaf, Trouw en de Volkskrant. Voor elk van de kranten is data van twee jaren (1950-1951 en 2002) beschikbaar. De artikelen zijn geselecteerd per onderwerp (bijv. voorpaginanieuws, buitenlands nieuws en sportnieuws). Een bijzonder kenmerk van het corpus is dat zowel de aanwezige subjectieve elementen, als de aanwezige directe rede zijn geannoteerd. De subjectieve elementen zijn geannoteerd op basis van een set lexicale elementen (subjectiviteitslexicon). Zodoende is het corpus zeer bruikbaar voor taalkundig georiënteerde onderzoekers die geïnteresseerd zijn in diachronie en/of subjectiviteit, maar ook voor communicatiewetenschappers en mediageleerden die geïnteresseerd zijn in het veranderende praktijken i.v.m. de omkadering van de berichtgeving. | |||
* [https://ivdnt.org/wp-content/apps/vu-dnc/index.html Corpuswebsite] | |||
* [https://ivdnt.org/wp-content/apps/vu-dnc/index.html | |||
Latest revision as of 13:09, 6 August 2024
SoNaR corpus
Het SoNaR-corpus heeft een krantencomponent (WR-P-P-G) die bestaat uit bijna 15 miljoen zinnen. Zie ook Referentiecorpora.
SumNL: samenvattingencorpus
Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten.
- versie 1.0.1
- dataset uit 2014
- 1.60 MB
- Downloadpagina
Wablieft corpus: eenvoudige taal
Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief.
Het corpus bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de krant volledig digitaal en online beschikbaar is, van 2011 tot december 2017.
De data is beschikbaar in verschillende formaten: oorspronkelijke tekstbestanden, tekstbestanden met één zin per lijn, geannoteerd met Frog (POS-tagging, lemmatisering, morfologie, named entity recognition, chunking, dependentierelaties) in FoLiA of CoNNL, en syntactisch geanalyseerd met Alpino, in Alpino-xml.
Er is een overeenkomst met Wablieft voor de verspreiding van dit materiaal voor niet-commerciële doeleinden. Commerciële partijen kunnen contact opnemen met Wablieft om een licentie voor het materiaal te verkrijgen.
- 2011-2017 archief van een krant in eenvoudige taal in Belgisch-Nederlands.
- gemarkeerd, gelemmatiseerd, geparseerd, beschikbaar in verscheidene bestandsformaten
- versie 1.2
- Vincent Vandeghinste, Bram Bulté & Liesbeth Augustinus (2019). Wablieft: An Easy-to-Read Newspaper corpus for Dutch. In CLARIN Annual Conference 2019 Proceedings. pp.188-191. Leipzig, Germany.
- Downloadpagina
WAI-NOT-corpus
Het WAI-NOT-corpus bevat het digitaal archief van de WAI-NOT-krant (periode 2009-2021). De krantenartikelen zijn geschreven in makkelijk te lezen Nederlands.
- 2009-2021-archief van een krant in eenvoudige taal in Belgisch-Nederlands
- versie 1.0
- Downloadpagina
Corpus VU-DNC (VU University Diachronic News text Corpus)
Het VU-DNC-corpus is een diachroon Nederlands krantencorpus (VU Free University Dutch Newspaper Corpus).
Het corpus bestaat uit data van vijf kranten: Algemeen Dagblad, NRC (Handelsblad), De Telegraaf, Trouw en de Volkskrant. Voor elk van de kranten is data van twee jaren (1950-1951 en 2002) beschikbaar. De artikelen zijn geselecteerd per onderwerp (bijv. voorpaginanieuws, buitenlands nieuws en sportnieuws). Een bijzonder kenmerk van het corpus is dat zowel de aanwezige subjectieve elementen, als de aanwezige directe rede zijn geannoteerd. De subjectieve elementen zijn geannoteerd op basis van een set lexicale elementen (subjectiviteitslexicon). Zodoende is het corpus zeer bruikbaar voor taalkundig georiënteerde onderzoekers die geïnteresseerd zijn in diachronie en/of subjectiviteit, maar ook voor communicatiewetenschappers en mediageleerden die geïnteresseerd zijn in het veranderende praktijken i.v.m. de omkadering van de berichtgeving.