Embeddings/nl: Difference between revisions

From Clarin K-Centre
Jump to navigation Jump to search
(Created page with "Embeddings")
 
No edit summary
 
(8 intermediate revisions by 2 users not shown)
Line 1: Line 1:
<div lang="en" dir="ltr" class="mw-content-ltr">
Voor Large Language Models (LLM), verwijzen wij naar [[Taalmodellering]].
For Large Language Models, we refer to [[Language_Modeling]].
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="Word2Vec_embeddings"></span>
== Word2Vec embeddings==
== Word2Vec-embeddings==
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Database van de woordembeddings die zijn beschreven in het paper 'Evaluating Unsupervised Dutch Word Embeddings as a Linguistic Resource', dat werd gepresenteerd bij LREC in 2016.
Repository for the word embeddings described in Evaluating Unsupervised Dutch Word Embeddings as a Linguistic Resource, presented at LREC 2016.
* [https://github.com/clips/dutchembeddings Downloadpagina]
* [https://github.com/clips/dutchembeddings Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
== FastText-embeddings==
== FastText embeddings==
Woord-vectors in 157 talen, getraind op CommonCrawl- en Wikipedia-corpora.
Word vectors in 157 languages trained on CommonCrawl and Wikipedia corpora.
* [https://fasttext.cc/docs/en/crawl-vectors.html Downloadpagina]
* [https://fasttext.cc/docs/en/crawl-vectors.html Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==Coosto-embeddings==
==Coosto embeddings==
Deze database bevat een Word2Vec-model dat is getraind op een groot Nederlands corpus, bestaande uit socialemediaberichten en posts van Nederlands nieuws, blogs en forums.  
This repository contains a Word2Vec model trained on a large Dutch corpus, comprised of social media messages and posts from Dutch news, blog and fora.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
* [https://github.com/coosto/dutch-word-embeddings Github-pagina]
* [https://github.com/coosto/dutch-word-embeddings Github page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==GeenStijl.nl-embeddings ==
==GeenStijl.nl embeddings ==
GeenStijl.nl-embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word-embedding model te trainen dat de representaties van toxische taal in de dataset naar voren brengt. De getrainde word-embeddings (±150MB) worden gratis vrijgegeven en kunnen bruikbaar zijn voor vervolgonderzoek naar toxisch online discours.
GeenStijl.nl embeddings contains over 8M messages from the controversial Dutch websites GeenStijl and Dumpert to train a word embedding model that captures the toxic language representations contained in the dataset. The trained word embeddings (±150MB) are released for free and may be useful for further study on toxic online discourse.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://www.textgain.com/portfolio/geenstijl-embeddings/ Projectpagina]
*[https://www.textgain.com/portfolio/geenstijl-embeddings/ Project page]
*[https://www.textgain.com/wp-content/uploads/2021/06/TGTR4-geenstijl.pdf Rapport]
*[https://www.textgain.com/wp-content/uploads/2021/06/TGTR4-geenstijl.pdf Report]
*[https://www.textgain.com/projects/geenstijl/geenstijl_embeddings.zip Downloadpagina]
*[https://www.textgain.com/projects/geenstijl/geenstijl_embeddings.zip Download page]
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
==NLPL Word Embeddings Repository==
==NLPL Word Embeddings Repository==
Made by the University of Oslo. Models trained with clearly stated hyperparametes, on clearly described and linguistically pre-processed corpora.
Gemaakt door de Universiteit van Oslo. Modellen die zijn getraind met duidelijk gestelde hyperparameters, op duidelijke beschreven en taalkundig voorbereide corpora.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Voor het Nederlands zijn Word2Vec- en ELMO-embeddings beschikbaar.
For Dutch, Word2Vec and ELMO embeddings are available.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[http://vectors.nlpl.eu/repository/ Repositorypagina]
*[http://vectors.nlpl.eu/repository/ Repository page]
</div>

Latest revision as of 07:10, 18 April 2024

Voor Large Language Models (LLM), verwijzen wij naar Taalmodellering.

Word2Vec-embeddings

Database van de woordembeddings die zijn beschreven in het paper 'Evaluating Unsupervised Dutch Word Embeddings as a Linguistic Resource', dat werd gepresenteerd bij LREC in 2016.

FastText-embeddings

Woord-vectors in 157 talen, getraind op CommonCrawl- en Wikipedia-corpora.

Coosto-embeddings

Deze database bevat een Word2Vec-model dat is getraind op een groot Nederlands corpus, bestaande uit socialemediaberichten en posts van Nederlands nieuws, blogs en forums.

GeenStijl.nl-embeddings

GeenStijl.nl-embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word-embedding model te trainen dat de representaties van toxische taal in de dataset naar voren brengt. De getrainde word-embeddings (±150MB) worden gratis vrijgegeven en kunnen bruikbaar zijn voor vervolgonderzoek naar toxisch online discours.

NLPL Word Embeddings Repository

Gemaakt door de Universiteit van Oslo. Modellen die zijn getraind met duidelijk gestelde hyperparameters, op duidelijke beschreven en taalkundig voorbereide corpora.

Voor het Nederlands zijn Word2Vec- en ELMO-embeddings beschikbaar.