Wordlists/nl: Difference between revisions

Latest revision as of 17:48, 13 November 2025

Woordenlijst van de Nederlandse Taal

Sinds 1804 wordt de Nederlandse spelling bepaald door de overheid. Dit omvat standaardprincipes en specifieke regels, zoals de spelling van klinkers en medeklinkers, het gebruik van hoofdletters en tekens (accenten, koppeltekens, interpunctietekens en apostrofs), de spelling van samenstellingen met een tussenklank en de scheiding van woorden in lettergrepen. Daarnaast publiceert de overheid een lijst van woorden die zijn gespeld volgens de regels en andere woorden die moeilijk af te leiden zijn uit de regels, bijvoorbeeld woorden die we overnemen uit andere talen.

Aan het einde van 2015 bestond de Woordenlijst van de Nederlandse Taal uit meer dan 180.000 trefwoorden. In de online versie van de Woordenlijst (woordenlijst.org) kunnen deze woorden allemaal worden gevonden, met bijgevoegde data over bijv. woordafbrekingen en vervoegingen.

Woordenlijst.org

SUBTLEX NL

SUBTLEX-NL is een database van Nederlandse woordfrequenties gebaseerd op 44 miljoen woorden uit film- en televisieondertitels.

Paper
Downloadpagina
Reference: Keuleers, E., Brysbaert, M. & New, B. (2010). SUBTLEX-NL: A new frequency measure for Dutch words based on film subtitles. Behavior Research Methods, 42(3), 643-650.

CombiLex

CombiLex is een lijst van lemma's en woordvormen zonder toegevoegde taalkundige informatie. De woordenlijst is gebaseerd op drie bronnen: BWNT05, e-Lex 1.0, RBN 2.0. Het aantal (uniek gesorteerde) lemma's in CombiLex is ruim 213.000. Het totale aantal van lemma's en woordvormen is 442.508.

INT Historische Woordenlijst

De INT Historische Woordenlijst bestaat uit 2 lijsten met ieder ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode van ca. 1550 - ca. 1970.

CHN-N-grams

N-grammen zijn reeksen opeenvolgende woorden uit lopende teksten. De n-grammen in dit product zijn afkomstig uit het Corpus Hedendaags Nederlands (CHN), een groot corpus van voornamelijk hedendaagse kranten, tijdschriften, journaaluitzendingen en juridisch materiaal.

CHN N-grams bevat n-grammen met reeksen van één, twee en drie opeenvolgende woorden, met de bijbehorende absolute frequentie.

Versie 1.0 (2019)
Downloadpagina

Middelnederlandse woorden gesplitst in lettergrepen

Deze woordenlijst bevat 43.710 in lettergrepen gesplitste Middelnederlandse woorden. Dit is het totaal aantal unieke woorden uit het corpus van Van Reenen-Mulder. Dit corpus, gecreëerd door Pieter van Reenen en Maaike Mulder aan de Vrije Universiteit Amsterdam bevat ongeveer 2.500 Middelnederlandse oorkonden. Het heeft ongeveer 750.000 tokens. De oorkonden werden geschreven in het Nederlands en het Vlaams tussen 1300 en 1400.

Downloadpagina

RND Woordenlijsten

RND Woordenlijsten bevat de digitalisatie van een reeks specifieke woorden uit de Reeks Nederlandse Dialectatlassen. De Reeks Nederlandse Dialectatlassen (RND) is een serie boeken, uitgegeven tussen 1925 en 1976, met daarin de fonetische transcripties van een vast aantal zinnen. Daarbij is de uitspraak vastgelegd van zegslieden uit een groot aantal dorpen en steden in Nederland en Vlaanderen. De volledige inhoud van die boeken is te vinden bij de Universiteit van Gent.

Versie 1.1 (2021)
Documentatie
Downloadpagina

Cognaten NL-EN-FR

Gouden standaard voor cognaatparen in Engels-Nederlands en Frans-Nederlands. Reference: Labat, S. and Lefever, E. (2020). Gold Standard for Cognate Pairs in English-Dutch and French-Dutch. LT3, Ghent University, 1.0, ISLRN 288-099-424-255-6

Basiswoordenlijst Amsterdamse Kleuters

De Basiswoordenlijst Amsterdamse Kleuters (BAK) bestaat uit 3.000 woorden: 2.000 basiswoorden en 1.000 uitbreidingswoorden. De woordenlijst is opgesplitst in woorden voor groep één en woorden voor groep twee.

Website

De-Bias Vocabulary

The choice of words describing cultural heritage can cause debates. It is especially sensitive when artefacts relate to different cultures and peoples who have been historically marginalised. Words chosen by archivists or curators may transmit stereotypes. The cultural heritage community has produced knowledge on potentially stereotyping and offensive terminology in heritage collections. At the same time, their knowledge is difficult to incorporate into existing online collections unless this knowledge is structured and machine-readable.

The DE-BIAS Vocabulary, covering 700 words across five languages, supports professionals to review descriptions of cultural heritage collections with regards to potential bias.

Website

@@ Line 1: / Line 1: @@
+<languages/>
 == Woordenlijst van de Nederlandse Taal ==
-Sinds 1804 wordt de Nederlandse spelling bepaald door de overheid. Dit omvat standaardprincipes en specifieke regels, zoals de spelling van klinkers en medeklinkers, het gebruik van hoofdletters en tekens (accenten, koppeltekens, interpunctietekens en apostrofs), de spelling van samenstellingen met een midden klank en de scheiding van woorden in lettergrepen. Daarnaast publiceert de overheid een lijst van woorden die zijn gespeld volgens de regels en anderen die moeilijk af te leiden zijn uit de regels, bijvoorbeeld woorden die we overnemen uit andere talen.
+Sinds 1804 wordt de Nederlandse spelling bepaald door de overheid. Dit omvat standaardprincipes en specifieke regels, zoals de spelling van klinkers en medeklinkers, het gebruik van hoofdletters en tekens (accenten, koppeltekens, interpunctietekens en apostrofs), de spelling van samenstellingen met een tussenklank en de scheiding van woorden in lettergrepen. Daarnaast publiceert de overheid een lijst van woorden die zijn gespeld volgens de regels en andere woorden die moeilijk af te leiden zijn uit de regels, bijvoorbeeld woorden die we overnemen uit andere talen.
 Aan het einde van 2015 bestond de Woordenlijst van de Nederlandse Taal uit meer dan 180.000 trefwoorden. In de online versie van de Woordenlijst (woordenlijst.org) kunnen deze woorden allemaal worden gevonden, met bijgevoegde data over bijv. woordafbrekingen en vervoegingen.
@@ Line 7: / Line 9: @@
 * [https://woordenlijst.org/#/ Woordenlijst.org]
-== Subtlex NL ==
+== SUBTLEX NL ==
-SUBTLEX-NL is een database van Nederlandse woordfrequenties gebaseerd op 44 miljoen woorden uit film-en televisieondertitels.
+SUBTLEX-NL is een database van Nederlandse woordfrequenties gebaseerd op 44 miljoen woorden uit film- en televisieondertitels.
-* [http://crr.ugent.be/programs-data/subtitle-frequencies/subtlex-nl Project pagina]
+* [https://research.tilburguniversity.edu/en/publications/subtlex-nl-a-new-measure-for-dutch-word-frequency-based-on-film-s Paper]
-* [https://osf.io/3d8cx/ Download pagina]
+* [https://osf.io/3d8cx/ Downloadpagina]
 * Reference: Keuleers, E., Brysbaert, M. & New, B. (2010). SUBTLEX-NL: A new frequency measure for Dutch words based on film subtitles. Behavior Research Methods, 42(3), 643-650.
 ==CombiLex==
-CombiLex is een lijst van woorden en woordvormen zonder toegevoegde taalkundige informatie. De woordenlijst is gebaseerd op drie bronnen: BWNT05, e-Lex 1.0, RBN 2.0. Het aantal (uniek gesorteerde) lemma's in CombiLex is ruim 213.000. Het totale aantal van lemma's en woordvormen is 442.508.
+CombiLex is een lijst van lemma's en woordvormen zonder toegevoegde taalkundige informatie. De woordenlijst is gebaseerd op drie bronnen: BWNT05, e-Lex 1.0, RBN 2.0. Het aantal (uniek gesorteerde) lemma's in CombiLex is ruim 213.000. Het totale aantal van lemma's en woordvormen is 442.508.
 * [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/clex_documentatie_en.pdf Documentatie]
-* [http://hdl.handle.net/10032/tm-a2-k2 Download pagina]
+* [http://hdl.handle.net/10032/tm-a2-k2 Downloadpagina]
 == INT Historische Woordenlijst ==
-De INT Historische Woordenlijst bestaat uit 2 lijsten met ieder ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 - ca. 1970.
+De INT Historische Woordenlijst bestaat uit 2 lijsten met ieder ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode van ca. 1550 - ca. 1970.
-* [https://cordis.europa.eu/project/id/215064 Project informatie]
+* [https://cordis.europa.eu/project/id/215064 Projectinformatie]
-* [http://hdl.handle.net/10032/tm-a2-a6 Download pagina]
+* [http://hdl.handle.net/10032/tm-a2-a6 Downloadpagina]
-* [https://ivdnt.org/images/stories/producten/Does-Depuydt-2012_v6.pdf Evaluatiepaper]
+* [https://ivdnt.org/wp-content/uploads/2020/08/Does-Depuydt-2012_v6.pdf  Evaluatiepaper]
-== CHN N-grams ==
+<span id="CHN_N-grams"></span>
+== CHN-N-grams ==
 N-grammen zijn reeksen opeenvolgende woorden uit lopende teksten. De n-grammen in dit product zijn afkomstig uit het Corpus Hedendaags Nederlands (CHN), een groot corpus van voornamelijk hedendaagse kranten, tijdschriften, journaaluitzendingen en juridisch materiaal.
@@ Line 34: / Line 37: @@
 * Versie 1.0 (2019)
-* [http://hdl.handle.net/10032/tm-a2-p6 Download pagina]
+* [http://hdl.handle.net/10032/tm-a2-p6 Downloadpagina]
-<div lang="en" dir="ltr" class="mw-content-ltr">
+== Middelnederlandse woorden gesplitst in lettergrepen==
-== Middle Dutch syllabified words==
+Deze woordenlijst bevat 43.710 in lettergrepen gesplitste Middelnederlandse woorden. Dit is het totaal aantal unieke woorden uit het corpus van Van Reenen-Mulder. Dit corpus, gecreëerd door Pieter van Reenen en Maaike Mulder aan de Vrije Universiteit Amsterdam bevat ongeveer 2.500 Middelnederlandse oorkonden. Het heeft ongeveer 750.000 tokens. De oorkonden werden geschreven in het Nederlands en het Vlaams tussen 1300 en 1400.
-This wordlist contains 43,710 syllabified Middle Dutch words, which is the total amount of unique words from the Corpus Van Reenen-Mulder. This corpus, created by Pieter van Reenen en Maaike Mulder at the Free University Amsterdam, contains about 2,500 Middle Dutch charters. It has about 750,000 tokens. The charters were written in the Netherlands and Flanders between 1300 and 1400.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+*[https://zenodo.org/record/2402048#.YjikzjXvJNZ Downloadpagina]
-*[https://zenodo.org/record/2402048#.YjikzjXvJNZ Download page]
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 == RND Woordenlijsten ==
-The RND Word Lists contain phonetic transcriptions of dialect words collected in the Netherlands and Belgium. They were originally published in the "Reeks Nederlandse Dialectatlassen".
+RND Woordenlijsten bevat de digitalisatie van een reeks specifieke woorden uit de Reeks Nederlandse Dialectatlassen. De Reeks Nederlandse Dialectatlassen (RND) is een serie boeken, uitgegeven tussen 1925 en 1976, met daarin de fonetische transcripties van een vast aantal zinnen. Daarbij is de uitspraak vastgelegd van zegslieden uit een groot aantal dorpen en steden in Nederland en Vlaanderen. De volledige inhoud van die boeken is te vinden bij de Universiteit van Gent.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+* Versie 1.1 (2021)
-* Version 1.1 (2021)
+* [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/info.pdf Documentatie]
-* [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/info.pdf Documentation (in Dutch)]
+* [http://hdl.handle.net/10032/tm-a2-t6 Downloadpagina]
-* [http://hdl.handle.net/10032/tm-a2-t6 Download page]
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+== Cognaten NL-EN-FR==
-== Cognates NL-EN-FR==
+Gouden standaard voor cognaatparen in Engels-Nederlands en Frans-Nederlands.
-Gold Standard for Cognate Pairs in English-Dutch and French-Dutch.
 Reference: Labat, S. and Lefever, E. (2020). Gold Standard for Cognate Pairs in English-Dutch and French-Dutch. LT3, Ghent University, 1.0, ISLRN 288-099-424-255-6
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 * [https://lt3.ugent.be/resources/cognates-nl-fr-en/ Website]
 * [https://lt3.ugent.be/media/uploads/tools/Cognate_GS_eM67Zdk.zip Download]
+== Basiswoordenlijst Amsterdamse Kleuters ==
+De Basiswoordenlijst Amsterdamse Kleuters (BAK) bestaat uit 3.000 woorden: 2.000 basiswoorden en 1.000 uitbreidingswoorden. De woordenlijst is opgesplitst in woorden voor groep één en woorden voor groep twee.
+* [https://woorden.wiki.kennisnet.nl/Baklijsten Website]
+<div lang="en" dir="ltr" class="mw-content-ltr">
+== De-Bias Vocabulary==
+The choice of words describing cultural heritage can cause debates. It is especially sensitive when artefacts relate to different cultures and peoples who have been historically marginalised. Words chosen by archivists or curators may transmit stereotypes. The cultural heritage community has produced knowledge on potentially stereotyping and offensive terminology in heritage collections. At the same time, their knowledge is difficult to incorporate into existing online collections unless this knowledge is structured and machine-readable.
 </div>
 <div lang="en" dir="ltr" class="mw-content-ltr">
-== Basiswoordenlijst Amsterdamse Kleuters ==
+The DE-BIAS Vocabulary, covering 700 words across five languages, supports professionals to review descriptions of cultural heritage collections with regards to potential bias.
-The Basic Wordlist Amsterdam Toddlers consists of 3000 words: 2000 basic words and 1000 extension words. The wordlist is split up in words for group 1 and words for group 2.
 </div>
 <div lang="en" dir="ltr" class="mw-content-ltr">
-* [https://woorden.wiki.kennisnet.nl/Baklijsten Website]
+* [https://doi.org/10.5281/zenodo.7456064 Website]
 </div>