Embeddings/nl: Difference between revisions
No edit summary |
(Created page with "*[https://www.textgain.com/portfolio/geenstijl-embeddings/ Project pagina] *[https://www.textgain.com/wp-content/uploads/2021/06/TGTR4-geenstijl.pdf Report] *[https://www.textgain.com/projects/geenstijl/geenstijl_embeddings.zip Download pagina]") |
||
Line 18: | Line 18: | ||
GeenStijl.nl embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word-embedding model te trainen dat de representaties van toxische taal in de dataset naar voren brengt. De getrainde word-embeddings (±150MB) worden gratis vrijgegeven en kunnen bruikbaar zijn voor vervolgonderzoek naar toxisch online discours. | GeenStijl.nl embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word-embedding model te trainen dat de representaties van toxische taal in de dataset naar voren brengt. De getrainde word-embeddings (±150MB) worden gratis vrijgegeven en kunnen bruikbaar zijn voor vervolgonderzoek naar toxisch online discours. | ||
*[https://www.textgain.com/portfolio/geenstijl-embeddings/ Project pagina] | |||
*[https://www.textgain.com/portfolio/geenstijl-embeddings/ Project | |||
*[https://www.textgain.com/wp-content/uploads/2021/06/TGTR4-geenstijl.pdf Report] | *[https://www.textgain.com/wp-content/uploads/2021/06/TGTR4-geenstijl.pdf Report] | ||
*[https://www.textgain.com/projects/geenstijl/geenstijl_embeddings.zip Download | *[https://www.textgain.com/projects/geenstijl/geenstijl_embeddings.zip Download pagina] | ||
<div lang="en" dir="ltr" class="mw-content-ltr"> | <div lang="en" dir="ltr" class="mw-content-ltr"> |
Revision as of 12:54, 26 March 2024
Voor Large Language Models (LLM), verwijzen wij naar Taalmodellering.
Word2Vec embeddings
Database van de word embeddings die zijn beschreven in het paper 'Evaluating Unsupervised Dutch Word Embeddings as a Linguistic Resource', dat werd gepresenteerd bij LREC in 2016.
FastText embeddings
Woord-vectors in 157 talen, getraind op CommonCrawl en Wikipedia-corpora.
Coosto embeddings
Deze database bevat een Word2Vec-model dat is getraind op een groot Nederlands corpus, bestaande uit social-media berichten en posts van Nederlands nieuws, blogs en fora.
GeenStijl.nl embeddings
GeenStijl.nl embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word-embedding model te trainen dat de representaties van toxische taal in de dataset naar voren brengt. De getrainde word-embeddings (±150MB) worden gratis vrijgegeven en kunnen bruikbaar zijn voor vervolgonderzoek naar toxisch online discours.
NLPL Word Embeddings Repository
Made by the University of Oslo. Models trained with clearly stated hyperparametes, on clearly described and linguistically pre-processed corpora.
For Dutch, Word2Vec and ELMO embeddings are available.