Jump to content

Translations:Q&A/84/nl: Difference between revisions

From Clarin K-Centre
Created page with "We vergelijken de Nederlandse en Turkse vertalingen van de Linguistic Inquiry and Word Count [LIWC] woordenboeken. Kent u enige corpora die geschikt zouden kunnen zijn? Ik heb verscheidene kandidaten gevonden op OPUS (https://opus.nlpl.eu/) en heb de TED2020-lezingen gedownload. Echter, dit zijn .xml-bestanden met paragraaf/lijn IDs en ik heb .txt-bestanden nodig. Heeft u wellicht een script of een manier om deze bestanden automatisch anders te coderen en de onnodige tag..."
 
(No difference)

Latest revision as of 14:22, 5 July 2024

Information about message (contribute)
This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
Message definition (Q&A)
We are comparing the Dutch and Turkish translations of the Linguistic Inquiry and Word Count [LIWC] dictionaries. Do you know of any corpora that would be suitable?
I found several candidates on OPUS (https://opus.nlpl.eu/), and downloaded the TED2020 talks. However these are .xml files with paragraph/line IDs and I need .txt files. Would you have a script or a way to automatically recode them and remove the unnecessary tags?

We vergelijken de Nederlandse en Turkse vertalingen van de Linguistic Inquiry and Word Count [LIWC] woordenboeken. Kent u enige corpora die geschikt zouden kunnen zijn? Ik heb verscheidene kandidaten gevonden op OPUS (https://opus.nlpl.eu/) en heb de TED2020-lezingen gedownload. Echter, dit zijn .xml-bestanden met paragraaf/lijn IDs en ik heb .txt-bestanden nodig. Heeft u wellicht een script of een manier om deze bestanden automatisch anders te coderen en de onnodige tags te verwijderen?