Embeddings/nl: Difference between revisions
No edit summary |
No edit summary |
||
(2 intermediate revisions by the same user not shown) | |||
Line 1: | Line 1: | ||
Voor Large Language Models (LLM), verwijzen wij naar [[Taalmodellering]]. | Voor Large Language Models (LLM), verwijzen wij naar [[Taalmodellering]]. | ||
== Word2Vec embeddings== | <span id="Word2Vec_embeddings"></span> | ||
== Word2Vec-embeddings== | |||
Database van de woordembeddings die zijn beschreven in het paper 'Evaluating Unsupervised Dutch Word Embeddings as a Linguistic Resource', dat werd gepresenteerd | Database van de woordembeddings die zijn beschreven in het paper 'Evaluating Unsupervised Dutch Word Embeddings as a Linguistic Resource', dat werd gepresenteerd op LREC in 2016. | ||
* [https://github.com/clips/dutchembeddings Downloadpagina] | * [https://github.com/clips/dutchembeddings Downloadpagina] | ||
== FastText embeddings== | == FastText-embeddings== | ||
Woord-vectors in 157 talen, getraind op CommonCrawl- en Wikipedia-corpora. | Woord-vectors in 157 talen, getraind op CommonCrawl- en Wikipedia-corpora. | ||
* [https://fasttext.cc/docs/en/crawl-vectors.html Downloadpagina] | * [https://fasttext.cc/docs/en/crawl-vectors.html Downloadpagina] | ||
==Coosto embeddings== | ==Coosto-embeddings== | ||
Deze database bevat een Word2Vec-model dat is getraind op een groot Nederlands corpus, bestaande uit socialemediaberichten en posts van Nederlands nieuws, blogs en forums. | Deze database bevat een Word2Vec-model dat is getraind op een groot Nederlands corpus, bestaande uit socialemediaberichten en posts van Nederlands nieuws, blogs en forums. | ||
Line 16: | Line 17: | ||
==GeenStijl.nl-embeddings == | ==GeenStijl.nl-embeddings == | ||
GeenStijl.nl-embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word | GeenStijl.nl-embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word embedding model te trainen dat de representaties van toxische taal in de dataset naar voren brengt. De getrainde word embeddings (±150MB) worden gratis vrijgegeven en kunnen bruikbaar zijn voor vervolgonderzoek naar toxisch online discours. | ||
*[https://www.textgain.com/portfolio/geenstijl-embeddings/ Projectpagina] | *[https://www.textgain.com/portfolio/geenstijl-embeddings/ Projectpagina] |
Latest revision as of 10:51, 28 May 2024
Voor Large Language Models (LLM), verwijzen wij naar Taalmodellering.
Word2Vec-embeddings
Database van de woordembeddings die zijn beschreven in het paper 'Evaluating Unsupervised Dutch Word Embeddings as a Linguistic Resource', dat werd gepresenteerd op LREC in 2016.
FastText-embeddings
Woord-vectors in 157 talen, getraind op CommonCrawl- en Wikipedia-corpora.
Coosto-embeddings
Deze database bevat een Word2Vec-model dat is getraind op een groot Nederlands corpus, bestaande uit socialemediaberichten en posts van Nederlands nieuws, blogs en forums.
GeenStijl.nl-embeddings
GeenStijl.nl-embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word embedding model te trainen dat de representaties van toxische taal in de dataset naar voren brengt. De getrainde word embeddings (±150MB) worden gratis vrijgegeven en kunnen bruikbaar zijn voor vervolgonderzoek naar toxisch online discours.
NLPL Word Embeddings Repository
Gemaakt door de Universiteit van Oslo. Modellen die zijn getraind met duidelijk gestelde hyperparameters, op duidelijke beschreven en taalkundig voorbereide corpora.
Voor het Nederlands zijn Word2Vec- en ELMO-embeddings beschikbaar.