Jump to content

Translations:Q&A/94/nl: Difference between revisions

From Clarin K-Centre
Created page with "De downloadbestanden van het Corpus Gesproken Nederlands (CGN) bevatten geen versies met alleen maar tekst. De <code>ort</code> bestanden bevatten orthografische transcripties en tijdsaanduidingen en de <code>plk</code> bestanden bevatten POS- en lemma-informatie. Het volgende perl-script neemt een lijst van plk-bestanden als input en print de tekst. Als u dit script runt vanaf de command-lijn in uw terminal, dan kunt u tekstbestanden creëren."
 
(No difference)

Latest revision as of 14:24, 5 July 2024

Information about message (contribute)
This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
Message definition (Q&A)
The download files of the Corpus Spoken Dutch (CGN) do not contain the text only. The <code>ort</code> files contain ortographic transcriptions and timestamps and the <code>plk</code> files contain part-of-speech and lemma information.  The following perl script takes a list of plk files as input and prints the text. If you run this script from the command line in your terminal, then you can create text files.

De downloadbestanden van het Corpus Gesproken Nederlands (CGN) bevatten geen versies met alleen maar tekst. De ort bestanden bevatten orthografische transcripties en tijdsaanduidingen en de plk bestanden bevatten POS- en lemma-informatie. Het volgende perl-script neemt een lijst van plk-bestanden als input en print de tekst. Als u dit script runt vanaf de command-lijn in uw terminal, dan kunt u tekstbestanden creëren.