Jump to content

Compound splitting/nl: Difference between revisions

From Clarin K-Centre
Created page with "Samenstellingen splitsen"
 
Created page with "==Wordbuilder== *[https://www.aclweb.org/anthology/L02-1004/ Vincent Vandeghinste (2002). Lexicon Optimization: Maximizing Lexical Coverage in Speech Recognition through Automated Compounding.] Proceedings of the Third International Conference on Language Resources and Evaluation (LREC2002). ELRA. Paris."
 
(5 intermediate revisions by 3 users not shown)
Line 1: Line 1:
<div lang="en" dir="ltr" class="mw-content-ltr">
<languages/>
==Compound splitter demo==
==Samenstellingssplitser demo==
A compound splitter splits compounds into their component parts, e.g. liefde+s+drank or [post+zegel]+verzamelaar.
Een samenstellingssplitser splitst samenstellingen in hun samenstellende delen, bijvoorbeeld liefde+s+drank of [post+zegel]+verzamelaar.
This demo allows Dutch input up to 500 characters. You can either input running text or single words (one word per line). If you are interested in using the compound splitter for other purposes contact Lieve.Macken@UGent.be.
In deze demo kun je tot 500 tekens Nederlands invoeren. Je kan zowel lopende tekst als losse woorden invoeren (één woord per regel). Als je geïnteresseerd bent in het gebruik van de samenstellingssplitser voor andere doeleinden, neem dan contact op met Lieve.Macken@UGent.be.
</div>


<div lang="en" dir="ltr" class="mw-content-ltr">
*[https://biblio.ugent.be/publication/7126122 Lieve Macken and Arda Tezcan. 2018. “Dutch Compound Splitting for Bilingual Terminology Extraction.” In Multiword Units in Machine Translation and Translation Technology, ed. Ruslan Mitkov, Johanna Monti, Gloria Corpas Pastor, and Violeta Seretan. Vol. 341. John Benjamins, pp. 148–162.]
*[https://biblio.ugent.be/publication/7126122 Lieve Macken and Arda Tezcan. 2018. “Dutch Compound Splitting for Bilingual Terminology Extraction.” In Multiword Units in Machine Translation and Translation Technology, ed. Ruslan Mitkov, Johanna Monti, Gloria Corpas Pastor, and Violeta Seretan. Vol. 341. John Benjamins, pp. 148–162.]
*[https://lt3.ugent.be/compound-splitter-demo/ Demo]
*[https://lt3.ugent.be/compound-splitter-demo/ Demo]
</div>
 
==CharSplit - An ngram-based compound splitter==
Pythonmodule die een samenstelling opsplitst in het hoofd en de rest van de samenstelling. Op dit moment worden enkel Duits en Nederlands ondersteund.
 
*[https://pypi.org/project/compound-split/ Webpagina]
 
==Wordbuilder==
*[https://www.aclweb.org/anthology/L02-1004/ Vincent Vandeghinste (2002). Lexicon Optimization: Maximizing Lexical Coverage in Speech Recognition through Automated Compounding.] Proceedings of the Third International Conference on Language Resources and Evaluation (LREC2002). ELRA. Paris.

Latest revision as of 17:29, 3 April 2025

Samenstellingssplitser demo

Een samenstellingssplitser splitst samenstellingen in hun samenstellende delen, bijvoorbeeld liefde+s+drank of [post+zegel]+verzamelaar. In deze demo kun je tot 500 tekens Nederlands invoeren. Je kan zowel lopende tekst als losse woorden invoeren (één woord per regel). Als je geïnteresseerd bent in het gebruik van de samenstellingssplitser voor andere doeleinden, neem dan contact op met Lieve.Macken@UGent.be.

CharSplit - An ngram-based compound splitter

Pythonmodule die een samenstelling opsplitst in het hoofd en de rest van de samenstelling. Op dit moment worden enkel Duits en Nederlands ondersteund.

Wordbuilder