Zoeken in een Corpus

From Clarin K-Centre
Jump to navigation Jump to search
This page is a translated version of the page Corpus querying and the translation is 100% complete.

Autosearch

Deze demonstrateur staat gebruikers toe om een of meerdere corpora aan te wijzen en data voor deze corpora te uploaden, waarna de corpora automatisch op te zoeken zijn op een particuliere werkplek.

Gebruikers kunnen tekstdata uploaden die geannoteerd zijn met lemma + gedeelte van spraak tags in TEI of FoLiA formaat. Dit kan in een los XML-bestand, of als een archief (zip of tar.gz) dat meerdere bestanden bevat. Om te beginnen is de corpusgrootte gelimiteerd (25 MB limiet per geüpload bestand; 500.000 token limiet voor een geheel corpus), maar deze limieten kunnen worden verhoogd op een later moment. De zoekapplicatie wordt aangedreven door de INL BlackLab-corpus zoekmachine. De zoek-interface is dezelfde als die gebruikt wordt voor bijvoorbeeld het Corpus Hedendaags Nederlands.

OpenSonar

De huidige applicatie bevat twee corpora:

  • Het SoNaR corpus (Zie Referentiecorpora voor meer informatie.)
  • Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers, zie

hier.

De applicatie is ontwikkeld in de CLARIN-NL en CLARIAH projecten door een samengesteld team van het Instituut voor de Nederlandse Taal, Universiteit Tilburg en de Radboud Universiteit.

De applicatie is een web-based frontend voor de BlackLab zoekmachine voor corpora met annotatie gebaseerd op tokens. Het huidige frontend is een verdere ontwikkeling van de door het INT ontwikkelde corpus-frontend applicatie(https://github.com/INL/corpus-frontend) en het ontwerp is geïnspireerd door de eerste versie van de OpenSoNaR gebruikersinterface van de Universiteit Tilburg en de Radboud Universiteit. (https://github.com/Taalmonsters/WhiteLab2.0).

Hulpmiddelen voor corpusanalyse

Een uitgebreide lijst met hulpmiddelen die kunnen worden gebruikt bij de analyse en samenstelling van corpora.