Translations:Manually annotated corpora/13/nl

From Clarin K-Centre
Jump to navigation Jump to search

Dutch Archaeology NER Training Dataset

Een handmatig geannoteerde NER-dataset (Named Entity Recognition), bestaande uit Nederlandse archeologische opgravingsverslagen. De volgende entiteittypes zijn gelabeld: Artefacten, Tijdperiodes, Materialen, Plaatsen (geografische locaties), Archeologische contexten en Soorten. De dataset wordt geleverd in het BIO-formaat, met elk token op 1 lijn en lege regels die zinsgrenzen aanduiden. Op elke regel staat een token, een POS-tag, de morfologische segmentatie en ten slotte het label, gescheiden door spaties. De POS-tag en morfologische segmentatie zijn toegewezen door Frog.