Embeddings/nl: Difference between revisions
No edit summary |
Updating to match new version of source page |
||
Line 1: | Line 1: | ||
<languages/> | |||
Voor Large Language Models (LLM), verwijzen wij naar [[Taalmodellering]]. | Voor Large Language Models (LLM), verwijzen wij naar [[Taalmodellering]]. | ||
Line 16: | Line 18: | ||
* [https://github.com/coosto/dutch-word-embeddings Github-pagina] | * [https://github.com/coosto/dutch-word-embeddings Github-pagina] | ||
<span id="GeenStijl.nl_embeddings"></span> | |||
<div class="mw-translate-fuzzy"> | |||
==GeenStijl.nl-embeddings == | ==GeenStijl.nl-embeddings == | ||
GeenStijl.nl-embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word embedding model te trainen dat de representaties van toxische taal in de dataset naar voren brengt. De getrainde word embeddings (±150MB) worden gratis vrijgegeven en kunnen bruikbaar zijn voor vervolgonderzoek naar toxisch online discours. | GeenStijl.nl-embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word embedding model te trainen dat de representaties van toxische taal in de dataset naar voren brengt. De getrainde word embeddings (±150MB) worden gratis vrijgegeven en kunnen bruikbaar zijn voor vervolgonderzoek naar toxisch online discours. | ||
</div> | |||
<div lang="en" dir="ltr" class="mw-content-ltr"> | |||
GeenStijl.nl embeddings contains over 8M messages from the controversial Dutch websites GeenStijl and Dumpert to train a word embedding model that captures the toxic language representations contained in the dataset. The trained word embeddings (±150MB) are released for free and may be useful for further study on toxic online discourse. | |||
</div> | |||
<div class="mw-translate-fuzzy"> | |||
*[https://www.textgain.com/portfolio/geenstijl-embeddings/ Projectpagina] | *[https://www.textgain.com/portfolio/geenstijl-embeddings/ Projectpagina] | ||
*[https://www.textgain.com/wp-content/uploads/2021/06/TGTR4-geenstijl.pdf Rapport] | *[https://www.textgain.com/wp-content/uploads/2021/06/TGTR4-geenstijl.pdf Rapport] | ||
*[https://www.textgain.com/projects/geenstijl/geenstijl_embeddings.zip Downloadpagina] | *[https://www.textgain.com/projects/geenstijl/geenstijl_embeddings.zip Downloadpagina] | ||
</div> | |||
<div lang="en" dir="ltr" class="mw-content-ltr"> | |||
==NLPL Word Embeddings Repository== | ==NLPL Word Embeddings Repository== | ||
Made by the University of Oslo. Models trained with clearly stated hyperparameters, on clearly described and linguistically pre-processed corpora. | |||
</div> | |||
Voor het Nederlands zijn Word2Vec- en ELMO-embeddings beschikbaar. | Voor het Nederlands zijn Word2Vec- en ELMO-embeddings beschikbaar. | ||
*[http://vectors.nlpl.eu/repository/ Repositorypagina] | *[http://vectors.nlpl.eu/repository/ Repositorypagina] |
Revision as of 14:32, 7 May 2025
Voor Large Language Models (LLM), verwijzen wij naar Taalmodellering.
Word2Vec-embeddings
Database van de woordembeddings die zijn beschreven in het paper 'Evaluating Unsupervised Dutch Word Embeddings as a Linguistic Resource', dat werd gepresenteerd op LREC in 2016.
FastText-embeddings
Woord-vectors in 157 talen, getraind op CommonCrawl- en Wikipedia-corpora.
Coosto-embeddings
Deze database bevat een Word2Vec-model dat is getraind op een groot Nederlands corpus, bestaande uit socialemediaberichten en posts van Nederlands nieuws, blogs en forums.
GeenStijl.nl-embeddings
GeenStijl.nl-embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word embedding model te trainen dat de representaties van toxische taal in de dataset naar voren brengt. De getrainde word embeddings (±150MB) worden gratis vrijgegeven en kunnen bruikbaar zijn voor vervolgonderzoek naar toxisch online discours.
GeenStijl.nl embeddings contains over 8M messages from the controversial Dutch websites GeenStijl and Dumpert to train a word embedding model that captures the toxic language representations contained in the dataset. The trained word embeddings (±150MB) are released for free and may be useful for further study on toxic online discourse.
NLPL Word Embeddings Repository
Made by the University of Oslo. Models trained with clearly stated hyperparameters, on clearly described and linguistically pre-processed corpora.
Voor het Nederlands zijn Word2Vec- en ELMO-embeddings beschikbaar.