Reference corpora/nl: Difference between revisions

From Clarin K-Centre
Jump to navigation Jump to search
(Created page with "== Lassy Groot == Het Lassy Groot-corpus is een corpus van ongeveer 700 miljoen woorden met automatisch gegenereerde syntactische annotaties. De lemma's en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino.")
 
No edit summary
 
Line 1: Line 1:
== Corpus Hedendaags Nederlands ==
== Corpus Hedendaags Nederlands ==
Het Corpus Hedendaags Nederlands (CHN) is een groeiende tekstverzameling van meer dan 2.500.000 teksten uit kranten, tijdschriften, journaaluitzendingen, blogs, websites en romans.  
Het Corpus Hedendaags Nederlands (CHN) is een groeiende tekstverzameling van meer dan 9 miljoen teksten uit kranten, tijdschriften, journaaluitzendingen, blogs, websites en romans.  


Het CHN bevat al het beschikbare moderne Nederlandse tekstmateriaal waarvan het INT het recht heeft verworven om de data online te zetten. Het corpus omvat materiaal uit Nederlands, Vlaanderen, Suriname en de Nederlandse Antillen. De voorganger van het INT, het Instituut voor Nederlandse Lexicologie (INL), heeft sinds 1994 verschillende corpora van hedendaags Nederlands online gezet: de 5, 27 en 38 miljoenwoordencorpora en het Dutch PAROLE Internet Corpus. Het materiaal van deze corpora is toegevoegd aan het CHN.
Het CHN bevat al het beschikbare moderne Nederlandse tekstmateriaal waarvan het INT het recht heeft verworven om de data online te zetten. Het corpus omvat materiaal uit Nederlands, Vlaanderen, Suriname en de Nederlandse Antillen. De voorganger van het INT, het Instituut voor Nederlandse Lexicologie (INL), heeft sinds 1994 verschillende corpora van hedendaags Nederlands online gezet: de 5, 27 en 38 miljoenwoordencorpora en het Dutch PAROLE Corpus. Het materiaal van deze corpora is toegevoegd aan het CHN.


Het juridische corpus met data van 1814-2000 dat oorspronkelijk onderdeel was van het 38 miljoenwoordencorpora is uit het corpus weggelaten. Dit corpus is beschikbaar gemaakt als los onderdeel via [https://corpusjuridischnederlands.ivdnt.org/ corpus].
Het juridische corpus met data van 1814-2000 dat oorspronkelijk onderdeel was van het 38 miljoenwoordencorpora is uit het corpus weggelaten. Dit corpus is beschikbaar gemaakt als los onderdeel via [https://corpusjuridischnederlands.ivdnt.org/ corpus].


*[http://chn.ivdnt.org/ Online zoeken]
*[http://chn.ivdnt.org/ Online zoeken]
Line 22: Line 22:
SoNaR-1 is grotendeels een subset van SoNaR-500 en bevat 1 miljoen woorden. SoNaR-1 werd voorzien van verschillende soorten semantische annotaties, nl. named entity labelling, coreferentieannotatie en de annotatie van spatiële en temporele relaties. Alle annotaties van SoNaR-1 werden manueel geverifieerd.
SoNaR-1 is grotendeels een subset van SoNaR-500 en bevat 1 miljoen woorden. SoNaR-1 werd voorzien van verschillende soorten semantische annotaties, nl. named entity labelling, coreferentieannotatie en de annotatie van spatiële en temporele relaties. Alle annotaties van SoNaR-1 werden manueel geverifieerd.


De nieuwemediateksten (tweets, chats en sms'en), die ook verzameld werden in het kader van het STEVIN-project SoNaR maken geen deel uit van het SoNaR-corpus 1.0. en zijn apart als het SoNaR Nieuwe Media Corpus beschikbaar.
De nieuwemediateksten (tweets, chats en sms'en), die ook verzameld werden in het kader van het STEVIN-project SoNaR maken geen deel uit van het SoNaR-corpus 1.0. en zijn apart beschikbaar als het SoNaR Nieuwe Media Corpus.


*[http://opensonar.clarin.inl.nl/ Online zoeken]
*[http://opensonar.clarin.inl.nl/ Online zoeken]
*[http://hdl.handle.net/10032/tm-a2-h5 Download pagina]
*[http://hdl.handle.net/10032/tm-a2-h5 Downloadpagina]
*[http://lands.let.ru.nl/projects/SoNaR/ Project pagina]
*[http://lands.let.ru.nl/projects/SoNaR/ Projectpagina]

Latest revision as of 10:21, 26 March 2024

Corpus Hedendaags Nederlands

Het Corpus Hedendaags Nederlands (CHN) is een groeiende tekstverzameling van meer dan 9 miljoen teksten uit kranten, tijdschriften, journaaluitzendingen, blogs, websites en romans.

Het CHN bevat al het beschikbare moderne Nederlandse tekstmateriaal waarvan het INT het recht heeft verworven om de data online te zetten. Het corpus omvat materiaal uit Nederlands, Vlaanderen, Suriname en de Nederlandse Antillen. De voorganger van het INT, het Instituut voor Nederlandse Lexicologie (INL), heeft sinds 1994 verschillende corpora van hedendaags Nederlands online gezet: de 5, 27 en 38 miljoenwoordencorpora en het Dutch PAROLE Corpus. Het materiaal van deze corpora is toegevoegd aan het CHN.

Het juridische corpus met data van 1814-2000 dat oorspronkelijk onderdeel was van het 38 miljoenwoordencorpora is uit het corpus weggelaten. Dit corpus is beschikbaar gemaakt als los onderdeel via corpus.

Lassy Groot

Het Lassy Groot-corpus is een corpus van ongeveer 700 miljoen woorden met automatisch gegenereerde syntactische annotaties. De lemma's en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino.

SoNaR corpus

Het SoNaR-corpus is een tekstcorpus dat bestaat uit twee delen, nl. SoNaR-500 en SoNaR-1.

SoNaR-500 bevat meer dan 500 miljoen woorden tekst afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties van SoNaR-500 werden automatisch geproduceerd.

SoNaR-1 is grotendeels een subset van SoNaR-500 en bevat 1 miljoen woorden. SoNaR-1 werd voorzien van verschillende soorten semantische annotaties, nl. named entity labelling, coreferentieannotatie en de annotatie van spatiële en temporele relaties. Alle annotaties van SoNaR-1 werden manueel geverifieerd.

De nieuwemediateksten (tweets, chats en sms'en), die ook verzameld werden in het kader van het STEVIN-project SoNaR maken geen deel uit van het SoNaR-corpus 1.0. en zijn apart beschikbaar als het SoNaR Nieuwe Media Corpus.