Translations:Manually annotated corpora/13/nl
Dutch Archaeology NER Training Dataset
Een handmatig geannoteerde Named Entity Recognition (NER) dataset, bestaand uit Nederlandse archeologische opgravingsverslagen. De volgende entity types zijn gelabeld: Artefacten, Tijdperiodes, Materialen, Plaatsen (geografische locaties), Archeologische contexten en Soorten. The dataset wordt aangeboden in het BIO format, met elk token op 1 lijn en lege lijnen die grenzen van zinnen aanduiden. Op elke lijn staat een token, PoS tag, morfologische segmentatie en ten slotte het label, gescheiden door ruimtes. De PoS tag en morforlogische segmentatie zijn toegewezen door Frog.