Jump to content

Simplification Data/nl: Difference between revisions

From Clarin K-Centre
FuzzyBot (talk | contribs)
Updating to match new version of source page
Created page with "De zinnen werden vereenvoudigd door 23 moedertaalsprekers van het Nederlands met een academische graad of die een academische graad beogen. Ze kregen een zin te zien met gehighlighte complexe woorden en vijf simplificatieopties gegenereerd door LSBertje. De annotatoren konden uit deze opties selecteren en additionele vereenvoudigingen voorstellen."
 
(2 intermediate revisions by the same user not shown)
Line 40: Line 40:
==Synthetische datasets==
==Synthetische datasets==


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="SONAR_WRPEI_Simplification_Dataset"></span>
===SONAR WRPEI Simplification Dataset===
===SONAR WRPEI Simplificatiedataset===
</div>


De synthetische simplificatiedataset werd gecompileerd in het kader van het Duidelijke Taal-project en is gebaseerd op de WR-P-E-I component (websites) van het SoNaR corpus. De dataset bestaat uit drie delen: 6986 zinnen uit het SoNaR corpus, een synthetische vereenvoudiging van deze zinnen, gemaakt door GPT-4 en een bestand met zinsparen, waarbij SoNaR zin gealigeneerd is met de vereenvoudigde versie.
De synthetische simplificatiedataset werd gecompileerd in het kader van het Duidelijke Taal-project en is gebaseerd op de WR-P-E-I component (websites) van het SoNaR corpus. De dataset bestaat uit drie delen: 6986 zinnen uit het SoNaR corpus, een synthetische vereenvoudiging van deze zinnen, gemaakt door GPT-4 en een bestand met zinsparen, waarbij SoNaR zin gealigeneerd is met de vereenvoudigde versie.
Line 90: Line 89:
*[https://github.com/Amsterdam-AI-Team/dutch-municipal-text-simplification Github]
*[https://github.com/Amsterdam-AI-Team/dutch-municipal-text-simplification Github]


<div lang="en" dir="ltr" class="mw-content-ltr">
<span id="Dutch_Contextualized_Lexical_Simplification_Evaluation_Dataset"></span>
===Dutch Contextualized Lexical Simplification Evaluation Dataset===
===Nederlandse Gecontextualiseerde Lexicale Simplificatie-Evaluatiedataset===
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
Als deel van haar stage heeft Eliza Hobo een eerste contextueel lexicaal simplificatiemodel voor het Nederlands ontwikkeld. Door het gebrek aan Nederlandsse evaluatiedata voor lexical simplificatie werd een pilot benchmark dataset voor deze taka notwikkeld, gebruik makend van gemeentelijke data. Er werden zinnen geselecteerd uit een collectie van 48 documenten, gebaseerd op de aanwezigheid van complex woorden uit een lijst gecureerd door domeinexperten en op de zinslengte (minder dan 20 woorden).
As part of her internship with us last year, Eliza Hobo developed the first contextual lexical simplification model for Dutch. Due to the lack of Dutch evaluation data for lexical simplification, we developed a pilot benchmark dataset for the task using authentic municipal data. We select sentences from a collection of 48 municipal documents based on the presence of a complex word from a list curated by domain experts and based on their word count (less than 20 words).
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
De zinnen werden vereenvoudigd door 23 moedertaalsprekers van het Nederlands met een academische graad of die een academische graad beogen. Ze kregen een zin te zien met gehighlighte complexe woorden en vijf simplificatieopties gegenereerd door LSBertje. De annotatoren konden uit deze opties selecteren en additionele vereenvoudigingen voorstellen.
The sentences were simplified by 23 native speakers of Dutch who pursued or obtained an academic degree. They were shown a sentence with the highlighted complex word and five simplification options that LSBertje generated. The annotators could select from these options and propose additional simplifications.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://amsterdamintelligence.com/resources/geen-makkie-data Website]
*[https://amsterdamintelligence.com/resources/geen-makkie-data Website]
*[https://aclanthology.org/2023.bea-1.42/ Paper]
*[https://aclanthology.org/2023.bea-1.42/ Paper]
</div>

Latest revision as of 12:40, 11 August 2025

Automatisch vertaalde datasets

ASSET Simplificatiecorpus

De Abstractive Sentence Simplification Evaluation and Tuning (ASSET) Dataset (Alva-Manchego et al, 2020) is automatisch vertaald naar het Nederlands (Seidl et al., 2023), en is vrij beschikbaar.

  • Github download
  • Alva-Manchego, F., Martin, L., Bordes, A., Scarton, C., Sagot, B., & Specia, L. (2020). ASSET: A dataset for tuning and evaluation of sentence simplification models with multiple rewriting transformations. arXiv preprint arXiv:2005.00481.
  • Seidl, T., Vandeghinste, V., & Van de Cruys, T. (2023). Controllable Sentence Simplification in Dutch. KU Leuven. Faculteit Ingenieurswetenschappen.

Wikilarge Dataset

Automatische vertaling van de Wikilarge dataset, nuttig voor automatische vereenvoudiging (Seidl et al., 2023). Vrij beschikbaar. Originele dataset van Zhang & Lapata

  • Github download
  • Seidl, T., Vandeghinste, V., & Van de Cruys, T. (2023). Controllable Sentence Simplification in Dutch. KU Leuven. Faculteit Ingenieurswetenschappen.
  • Seidl, T., Vandeghinste, V. (2024). Controllable Sentence Simplification in Dutch. Computational Linguistics in the Netherlands Journal, 13, 31–61.
  • Zhang, X. & Lapata, M. (2017). Sentence Simplification with Deep Reinforcement Learning. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 584–594, Copenhagen, Denmark. Association for Computational Linguistics.

NFI SimpleWiki dataset

Vertaalde dataset gecreëerd door het Nederlands Forensisch Instituut met Meta's No Language Left Behind model. Het bevat 167000 gealigneerde zinsparen en doet dienst als de Nederlandse vertaling van de SimpleWiki dataset.

Vergelijkbaar Corpus Wablieft De Standaard

Corpus gecreëerd door Nick Vanackere. Het bevat 12.687 Wablieft-artikelen uit de periode 2012-2017 en 206.466 De Standaard-artikelen uit de periode 2013-2017. Om de vergelijkbaarheid te garanderen, werden alleen artikels van 08/01/2013 tot 16/11/2017 bekeken, wat resulteerde in 8.744 Wablieft-artikels en 202.284 De Standaard-artikels. Het verschil in het aantal artikelen is te wijten aan de verschijningsfrequentie: Wablieft verschijnt wekelijks en De Standaard dagelijks.

Synthetische datasets

SONAR WRPEI Simplificatiedataset

De synthetische simplificatiedataset werd gecompileerd in het kader van het Duidelijke Taal-project en is gebaseerd op de WR-P-E-I component (websites) van het SoNaR corpus. De dataset bestaat uit drie delen: 6986 zinnen uit het SoNaR corpus, een synthetische vereenvoudiging van deze zinnen, gemaakt door GPT-4 en een bestand met zinsparen, waarbij SoNaR zin gealigeneerd is met de vereenvoudigde versie.

Menselijke evaluatie van geautomatiseerde tekstvereenvoudiging: resultaten van crowdsourcing

Het taalmateriaal "Menselijke evaluatie van geautomatiseerde tekstvereenvoudiging: resultaten van crowdsourcing" is samengesteld in het kader van het project Duidelijke Taal. De dataset bestaat uit zinnen uit het SoNaR-corpus, een door GPT-4 vereenvoudigde versie daarvan en de menselijke beoordelingen van die vereenvoudigingen met betrekking tot eenvoud, accuraatheid en vlotheid.

UWV Leesplank NL wikipedia

Data bevat 2,391,206 pragrafen van prompt/resultaat-combinatiess, waar het prompt een paragraaf uit de Nederlandse Wikipedia is en het resultaat een vereenvoudigde tekst is, die een of meer paragrafen kan bevatten. Deze dataset werd gecreëerd door UWV, als onderdeel van project "Leesplank", een inspanning om datasets te genereren die ethisch en wettelijk in orde zijn.

Een uitgebreidere versie van deze dataset werd gemaakt door Michiel Buisman en Bram Vanroy. Deze dataset bevat een eerste, kleine set variaties van Wikipediaparagrafen in verschillende stijlen (jargon, officieel, archaïsche taal, technisch, academisch en poëtisch).

Door ChatGPT gegenereerde dataset (Van de Velde)

Gecreëerd in het kader van de masterthesis van Charlotte Van de Velde. De dataset bevat Nederlandse bronzinnen gealigneerd met vereenvoudigde zinnen, beide gegenereerd door ChatGPT. Alles gecombineerd bestaat de dataset uit 1267 ingangen.

  1. Training = 1013 zinnen (262 KB)
  2. Validatie = 126 zinnen (32.6 KB)
  3. Test = 128 zinnen (33 KB)

Manueel vereenvoudigd

Nederlandse gemeentelijke data

Het Nederlandse gemeentelijke corpus is een parallel monolinguaal corpus voor de evaluatie van zinsvereenvoudiging in het Nederlandse gemeentelijke domein. Het corpus is gemaakt door Amsterdam Intelligence. Het bevat 1.311 vertaalde parallelle zinsparen die automatisch gealigneerd werden. De zinsparen zijn afkomstig uit 50 documenten van de communicatieafdeling van de gemeente Amsterdam die handmatig werden vereenvoudigd om de vereenvoudiging voor het Nederlands te evalueren.

Nederlandse Gecontextualiseerde Lexicale Simplificatie-Evaluatiedataset

Als deel van haar stage heeft Eliza Hobo een eerste contextueel lexicaal simplificatiemodel voor het Nederlands ontwikkeld. Door het gebrek aan Nederlandsse evaluatiedata voor lexical simplificatie werd een pilot benchmark dataset voor deze taka notwikkeld, gebruik makend van gemeentelijke data. Er werden zinnen geselecteerd uit een collectie van 48 documenten, gebaseerd op de aanwezigheid van complex woorden uit een lijst gecureerd door domeinexperten en op de zinslengte (minder dan 20 woorden).

De zinnen werden vereenvoudigd door 23 moedertaalsprekers van het Nederlands met een academische graad of die een academische graad beogen. Ze kregen een zin te zien met gehighlighte complexe woorden en vijf simplificatieopties gegenereerd door LSBertje. De annotatoren konden uit deze opties selecteren en additionele vereenvoudigingen voorstellen.