Translations:Embeddings/7/nl

From Clarin K-Centre
Jump to navigation Jump to search

GeenStijl.nl-embeddings

GeenStijl.nl-embeddings bevat meer dan 8 miljoen berichten van de controversiële Nederlandse websites GeenStijl en Dumpert, met als doel om een word-embedding model te trainen dat de representaties van toxische taal in de dataset naar voren brengt. De getrainde word-embeddings (±150MB) worden gratis vrijgegeven en kunnen bruikbaar zijn voor vervolgonderzoek naar toxisch online discours.