Translations:Manually annotated corpora/13/nl

From Clarin K-Centre
Revision as of 17:56, 27 May 2024 by Griet (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

Dutch Archaeology NER Training Dataset

Een handmatig geannoteerde NER-dataset (Named Entity Recognition), bestaande uit Nederlandse archeologische opgravingsverslagen. De volgende entiteittypes zijn gelabeld: Artefacten, Tijdperiodes, Materialen, Plaatsen (geografische locaties), Archeologische contexten en Soorten. De dataset wordt geleverd in het BIO-formaat, met elk token op 1 lijn en lege regels die zinsgrenzen aanduiden. Op elke regel staat een token, een POS-tag, de morfologische segmentatie en ten slotte het label, gescheiden door spaties. De POS-tags en de morfologische segmentatie zijn toegewezen door Frog.