Translations:Parallel Monolingual Corpora/15/nl

From Clarin K-Centre
Jump to navigation Jump to search

2) De tweede dataset is gemaakt door UWV Nederland als onderdeel van het “Leesplank”-project, een poging om datasets te genereren die ethisch en juridisch verantwoord zijn. De dataset bestaat uit 2,87 miljoen alinea's en de bijbehorende vereenvoudigde tekst. De paragrafen zijn gebaseerd op het Nederlandse Wikipedia-extract uit Gigacorpus. De tekst is gefilterd en opgeschoond door GPT-4 1106 preview te gebruiken.