Translations:Parallel Monolingual Corpora/15/nl

From Clarin K-Centre
Revision as of 14:58, 11 June 2024 by Griet (talk | contribs) (Created page with "2) De tweede dataset is gemaakt door UWV Nederland als onderdeel van het “Leesplank”-project, een poging om datasets te genereren die ethisch en juridisch verantwoord zijn. De dataset bestaat uit 2,87 miljoen alinea's en de bijbehorende vereenvoudigde tekst. De paragrafen zijn gebaseerd op het Nederlandse Wikipedia-extract uit [http://gigacorpus.nl/ Gigacorpus]. De tekst is gefilterd en opgeschoond door [https://learn.microsoft.com/en-us/azure/ai-services/openai/conc...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

2) De tweede dataset is gemaakt door UWV Nederland als onderdeel van het “Leesplank”-project, een poging om datasets te genereren die ethisch en juridisch verantwoord zijn. De dataset bestaat uit 2,87 miljoen alinea's en de bijbehorende vereenvoudigde tekst. De paragrafen zijn gebaseerd op het Nederlandse Wikipedia-extract uit Gigacorpus. De tekst is gefilterd en opgeschoond door GPT-4 1106 preview te gebruiken.