Wordlists/nl: Difference between revisions

Revision as of 11:35, 26 March 2024

Woordenlijst van de Nederlandse Taal

Sinds 1804 wordt de Nederlandse spelling bepaald door de overheid. Dit omvat standaardprincipes en specifieke regels, zoals de spelling van klinkers en medeklinkers, het gebruik van hoofdletters en tekens (accenten, koppeltekens, interpunctietekens en apostrofs), de spelling van samenstellingen met een midden klank en de scheiding van woorden in lettergrepen. Daarnaast publiceert de overheid een lijst van woorden die zijn gespeld volgens de regels en anderen die moeilijk af te leiden zijn uit de regels, bijvoorbeeld woorden die we overnemen uit andere talen.

Aan het einde van 2015 bestond de Woordenlijst van de Nederlandse Taal uit meer dan 180.000 trefwoorden. In de online versie van de Woordenlijst (woordenlijst.org) kunnen deze woorden allemaal worden gevonden, met bijgevoegde data over bijv. woordafbrekingen en vervoegingen.

Woordenlijst.org

Subtlex NL

SUBTLEX-NL is een database van Nederlandse woordfrequenties gebaseerd op 44 miljoen woorden uit film-en televisieondertitels.

Project pagina
Download pagina
Reference: Keuleers, E., Brysbaert, M. & New, B. (2010). SUBTLEX-NL: A new frequency measure for Dutch words based on film subtitles. Behavior Research Methods, 42(3), 643-650.

CombiLex

CombiLex is een lijst van woorden en woordvormen zonder toegevoegde taalkundige informatie. De woordenlijst is gebaseerd op drie bronnen: BWNT05, e-Lex 1.0, RBN 2.0. Het aantal (uniek gesorteerde) lemma's in CombiLex is ruim 213.000. Het totale aantal van lemma's en woordvormen is 442.508.

INT Historische Woordenlijst

De INT Historische Woordenlijst bestaat uit 2 lijsten met ieder ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 - ca. 1970.

CHN N-grams

N-grammen zijn reeksen opeenvolgende woorden uit lopende teksten. De n-grammen in dit product zijn afkomstig uit het Corpus Hedendaags Nederlands (CHN), een groot corpus van voornamelijk hedendaagse kranten, tijdschriften, journaaluitzendingen en juridisch materiaal.

CHN N-grams bevat n-grammen met reeksen van één, twee en drie opeenvolgende woorden, met de bijbehorende absolute frequentie.

Versie 1.0 (2019)
Download pagina

Middle Dutch syllabified words

This wordlist contains 43,710 syllabified Middle Dutch words, which is the total amount of unique words from the Corpus Van Reenen-Mulder. This corpus, created by Pieter van Reenen en Maaike Mulder at the Free University Amsterdam, contains about 2,500 Middle Dutch charters. It has about 750,000 tokens. The charters were written in the Netherlands and Flanders between 1300 and 1400.

Download page

RND Woordenlijsten

The RND Word Lists contain phonetic transcriptions of dialect words collected in the Netherlands and Belgium. They were originally published in the "Reeks Nederlandse Dialectatlassen".

Cognates NL-EN-FR

Gold Standard for Cognate Pairs in English-Dutch and French-Dutch. Reference: Labat, S. and Lefever, E. (2020). Gold Standard for Cognate Pairs in English-Dutch and French-Dutch. LT3, Ghent University, 1.0, ISLRN 288-099-424-255-6

Basiswoordenlijst Amsterdamse Kleuters

The Basic Wordlist Amsterdam Toddlers consists of 3000 words: 2000 basic words and 1000 extension words. The wordlist is split up in words for group 1 and words for group 2.

Website

@@ Line 7: / Line 7: @@
 * [https://woordenlijst.org/#/ Woordenlijst.org]
-<div lang="en" dir="ltr" class="mw-content-ltr">
 == Subtlex NL ==
-SUBTLEX-NL is a database of Dutch word frequencies based on 44 million words from film and television subtitles.
+SUBTLEX-NL is een database van Nederlandse woordfrequenties gebaseerd op 44 miljoen woorden uit film-en televisieondertitels.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+* [http://crr.ugent.be/programs-data/subtitle-frequencies/subtlex-nl Project pagina]
-* [http://crr.ugent.be/programs-data/subtitle-frequencies/subtlex-nl Project page]
+* [https://osf.io/3d8cx/ Download pagina]
-* [https://osf.io/3d8cx/ Download page]
 * Reference: Keuleers, E., Brysbaert, M. & New, B. (2010). SUBTLEX-NL: A new frequency measure for Dutch words based on film subtitles. Behavior Research Methods, 42(3), 643-650.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 ==CombiLex==
-CombiLex is a list of Dutch lemmas and word forms without further annotation. The lexicon contains over 213.000 unique lemmas and over 442.000 unique lemmas and word forms.
+CombiLex is een lijst van woorden en woordvormen zonder toegevoegde taalkundige informatie. De woordenlijst is gebaseerd op drie bronnen: BWNT05, e-Lex 1.0, RBN 2.0. Het aantal (uniek gesorteerde) lemma's in CombiLex is ruim 213.000. Het totale aantal van lemma's en woordvormen is 442.508.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+* [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/clex_documentatie_en.pdf Documentatie]
-* [https://taalmaterialen.ivdnt.org/wp-content/uploads/documentatie/clex_documentatie_en.pdf Documentation]
+* [http://hdl.handle.net/10032/tm-a2-k2 Download pagina]
-* [http://hdl.handle.net/10032/tm-a2-k2 Download page]
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 == INT Historische Woordenlijst ==
-The INT Historical Wordlist consists of 2 lists with each ca. 500.000 historical word forms for the purpose of OCR and OCR post-correction for the period ca. 1550 - ca. 1970.
+De INT Historische Woordenlijst bestaat uit 2 lijsten met ieder ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 - ca. 1970.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+* [https://cordis.europa.eu/project/id/215064 Project informatie]
-* [https://cordis.europa.eu/project/id/215064 Project information]
+* [http://hdl.handle.net/10032/tm-a2-a6 Download pagina]
-* [http://hdl.handle.net/10032/tm-a2-a6 Download page]
+* [https://ivdnt.org/images/stories/producten/Does-Depuydt-2012_v6.pdf Evaluatiepaper]
-* [https://ivdnt.org/images/stories/producten/Does-Depuydt-2012_v6.pdf Evaluation paper]
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 == CHN N-grams ==
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+N-grammen zijn reeksen opeenvolgende woorden uit lopende teksten. De n-grammen in dit product zijn afkomstig uit het Corpus Hedendaags Nederlands (CHN), een groot corpus van voornamelijk hedendaagse kranten, tijdschriften, journaaluitzendingen en juridisch materiaal.
-N-grams (lengths one, two, and three) and their frequencies from the Corpus of Contemporary Dutch (CHN).
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+CHN N-grams bevat n-grammen met reeksen van één, twee en drie opeenvolgende woorden, met de bijbehorende absolute frequentie.
-* Version 1.0 (2019)
-* [http://hdl.handle.net/10032/tm-a2-p6 Download page]
+* Versie 1.0 (2019)
-</div>
+* [http://hdl.handle.net/10032/tm-a2-p6 Download pagina]
 <div lang="en" dir="ltr" class="mw-content-ltr">