Translations:Simplification Data/30/nl

From Clarin K-Centre
Jump to navigation Jump to search

De synthetische simplificatiedataset werd gecompileerd in het kader van het Duidelijke Taal-project en is gebaseerd op de WR-P-E-I component (websites) van het SoNaR corpus. De dataset bestaat uit drie delen: 6986 zinnen uit het SoNaR corpus, een synthetische vereenvoudiging van deze zinnen, gemaakt door GPT-4 en een bestand met zinsparen, waarbij SoNaR zin gealigeneerd is met de vereenvoudigde versie.