Translations:Manually annotated corpora/13/nl: Difference between revisions
Jump to navigation
Jump to search
No edit summary |
No edit summary |
||
(One intermediate revision by the same user not shown) | |||
Line 1: | Line 1: | ||
==Dutch Archaeology NER Training Dataset== | ==Dutch Archaeology NER Training Dataset== | ||
Een handmatig geannoteerde NER-dataset (Named Entity Recognition), bestaande uit Nederlandse archeologische opgravingsverslagen. De volgende entiteittypes zijn gelabeld: Artefacten, Tijdperiodes, Materialen, Plaatsen (geografische locaties), Archeologische contexten en Soorten. | Een handmatig geannoteerde NER-dataset (Named Entity Recognition), bestaande uit Nederlandse archeologische opgravingsverslagen. De volgende entiteittypes zijn gelabeld: Artefacten, Tijdperiodes, Materialen, Plaatsen (geografische locaties), Archeologische contexten en Soorten. | ||
De dataset wordt geleverd in het BIO-formaat, met elk token op 1 lijn en lege regels die zinsgrenzen aanduiden. Op elke regel staat een token, een | De dataset wordt geleverd in het BIO-formaat, met elk token op 1 lijn en lege regels die zinsgrenzen aanduiden. Op elke regel staat een token, een POS-tag, de morfologische segmentatie en ten slotte het label, gescheiden door spaties. De POS-tags en de morfologische segmentatie zijn toegewezen door Frog. |
Latest revision as of 17:56, 27 May 2024
Dutch Archaeology NER Training Dataset
Een handmatig geannoteerde NER-dataset (Named Entity Recognition), bestaande uit Nederlandse archeologische opgravingsverslagen. De volgende entiteittypes zijn gelabeld: Artefacten, Tijdperiodes, Materialen, Plaatsen (geografische locaties), Archeologische contexten en Soorten. De dataset wordt geleverd in het BIO-formaat, met elk token op 1 lijn en lege regels die zinsgrenzen aanduiden. Op elke regel staat een token, een POS-tag, de morfologische segmentatie en ten slotte het label, gescheiden door spaties. De POS-tags en de morfologische segmentatie zijn toegewezen door Frog.