Jump to content

Embeddings/nl: Difference between revisions

From Clarin K-Centre
No edit summary
No edit summary
 
(12 intermediate revisions by 3 users not shown)
Line 1: Line 1:
Voor Large Language Models (LLM), verwijzen wij naar [[Taalmodellering]].
<languages/>


== Word2Vec embeddings==
Voor Large Language Models (LLM), verwijzen wij naar [[Language_modeling/nl|Taalmodellering]].


Database van de woordembeddings die zijn beschreven in het paper 'Evaluating Unsupervised Dutch Word Embeddings as a Linguistic Resource', dat werd gepresenteerd bij LREC in 2016.
<span id="Word2Vec_embeddings"></span>
== Word2Vec-embeddings==
 
Database van de woordembeddings die zijn beschreven in het paper 'Evaluating Unsupervised Dutch Word Embeddings as a Linguistic Resource', dat werd gepresenteerd op LREC in 2016.
* [https://github.com/clips/dutchembeddings Downloadpagina]
* [https://github.com/clips/dutchembeddings Downloadpagina]


== FastText embeddings==
== FastText-embeddings==
Woord-vectors in 157 talen, getraind op CommonCrawl en Wikipedia-corpora.
Woord-vectors in 157 talen, getraind op CommonCrawl- en Wikipedia-corpora.
* [https://fasttext.cc/docs/en/crawl-vectors.html Download page]
* [https://fasttext.cc/docs/en/crawl-vectors.html Downloadpagina]
 
==Coosto-embeddings==
Deze database bevat een Word2Vec-model dat is getraind op een groot Nederlands corpus, bestaande uit socialemediaberichten en posts van Nederlands nieuws, blogs en forums.


==Coosto embeddings==
* [https://github.com/coosto/dutch-word-embeddings Github-pagina]
Deze database bevat een Word2Vec-model dat is getraind op een groot Nederlands corpus, bestaande uit social-media berichten en posts van Nederlands nieuws, blogs en fora.


* [https://github.com/coosto/dutch-word-embeddings Github pagina]
<span id="GeenStijl.nl_embeddings"></span>
==GeenStijl.nl-embeddings ==


==GeenStijl.nl embeddings ==
GeenStijl.nl-embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word embedding model te trainen dat de representaties van toxische taal in de dataset naar voren brengt. De getrainde word embeddings (±150MB) worden gratis vrijgegeven en kunnen bruikbaar zijn voor vervolgonderzoek naar toxisch online discours.
GeenStijl.nl embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word-embedding model te trainen dat de representaties van toxische taal in de dataset naar voren brengt. De getrainde word-embeddings (±150MB) worden gratis vrijgegeven en kunnen bruikbaar zijn voor vervolgonderzoek naar toxisch online discours.


*[https://www.textgain.com/portfolio/geenstijl-embeddings/ Project pagina]
*[https://www.textgain.com/resources/publications/#geenstijl Rapport]
*[https://www.textgain.com/wp-content/uploads/2021/06/TGTR4-geenstijl.pdf Report]
*[https://www.textgain.com/resources/publications/geenstijl-nl-embeddings-tgtr-4/ Beschikbaar op aanvraag]
*[https://www.textgain.com/projects/geenstijl/geenstijl_embeddings.zip Download pagina]


==NLPL Word Embeddings Repository==
==NLPL Word Embeddings Repository==
Gemaakt door de Universiteit van Oslo. Modellen die zijn getraind met duidelijk gestelde hyperparameters, op duidelijke beschreven en taalkundig voorbereide corpora.
Gemaakt door de Universiteit van Oslo. Modellen die zijn getraind met duidelijk gestelde hyperparameters, op duidelijke beschreven en taalkundig voorbereide corpora.


Voor het Nederlands zijn Word2Vec en ELMO-embeddings beschikbaar.
Voor het Nederlands zijn Word2Vec- en ELMO-embeddings beschikbaar.


*[http://vectors.nlpl.eu/repository/ Repository pagina]
*[http://vectors.nlpl.eu/repository/ Repositorypagina]

Latest revision as of 14:39, 7 May 2025

Voor Large Language Models (LLM), verwijzen wij naar Taalmodellering.

Word2Vec-embeddings

Database van de woordembeddings die zijn beschreven in het paper 'Evaluating Unsupervised Dutch Word Embeddings as a Linguistic Resource', dat werd gepresenteerd op LREC in 2016.

FastText-embeddings

Woord-vectors in 157 talen, getraind op CommonCrawl- en Wikipedia-corpora.

Coosto-embeddings

Deze database bevat een Word2Vec-model dat is getraind op een groot Nederlands corpus, bestaande uit socialemediaberichten en posts van Nederlands nieuws, blogs en forums.

GeenStijl.nl-embeddings

GeenStijl.nl-embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word embedding model te trainen dat de representaties van toxische taal in de dataset naar voren brengt. De getrainde word embeddings (±150MB) worden gratis vrijgegeven en kunnen bruikbaar zijn voor vervolgonderzoek naar toxisch online discours.

NLPL Word Embeddings Repository

Gemaakt door de Universiteit van Oslo. Modellen die zijn getraind met duidelijk gestelde hyperparameters, op duidelijke beschreven en taalkundig voorbereide corpora.

Voor het Nederlands zijn Word2Vec- en ELMO-embeddings beschikbaar.