Corpus querying/nl: Difference between revisions

From Clarin K-Centre
Jump to navigation Jump to search
(Created page with "==Autosearch== Deze demonstrateur staat gebruikers toe om een of meerdere corpora aan te wijzen en data voor deze corpora te uploaden, waarna de corpora automatisch op te zoeken zijn in een particuliere werkplek.")
(Created page with "==[https://opensonar.ivdnt.org/ OpenSonar]== De huidige applicatie bevat twee corpora: *Het SoNaR corpus (Zie Referentiecorpora voor meer informatie.) *Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-t...")
Line 6: Line 6:
* [http://portal.clarin.inl.nl/autocorp/ Demonstrateur]
* [http://portal.clarin.inl.nl/autocorp/ Demonstrateur]


<div lang="en" dir="ltr" class="mw-content-ltr">
==[https://opensonar.ivdnt.org/ OpenSonar]==
==[https://opensonar.ivdnt.org/ OpenSonar]==
The current application contains two corpora:
De huidige applicatie bevat twee corpora:
*The SoNaR corpus (See [[Reference corpora]] for more information.)
*Het SoNaR corpus (Zie [[Referentiecorpora]] voor meer informatie.)
*The Corpus of Spoken Dutch (Corpus Gesproken Nederlands, CGN) is a collection of 900 hours (almost 9 million words) of contemporary Dutch speech, originating from Flemish and Dutch speakers. The speech fragments (spontaneous and prepared) are aligned with various transcriptions (including orthographic, phonetic) and annotations (lemma, POS tags). All annotations have been verified manually, except for the phonetic transcription: only 11,3% was verified. The corpus data are available for researchers, see [http://hdl.handle.net/10032/tm-a2-k6 here].
*Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers,  
</div>
[http://hdl.handle.net/10032/tm-a2-k6 hier].


<div lang="en" dir="ltr" class="mw-content-ltr">
<div lang="en" dir="ltr" class="mw-content-ltr">

Revision as of 09:09, 4 April 2024

Autosearch

Deze demonstrateur staat gebruikers toe om een of meerdere corpora aan te wijzen en data voor deze corpora te uploaden, waarna de corpora automatisch op te zoeken zijn op een particuliere werkplek.

Gebruikers kunnen tekstdata uploaden die geannoteerd zijn met lemma + gedeelte van spraak tags in TEI of FoLiA formaat. Dit kan in een los XML-bestand, of als een archief (zip of tar.gz) dat meerdere bestanden bevat. Om te beginnen is de corpusgrootte gelimiteerd (25 MB limiet per geüpload bestand; 500.000 token limiet voor een geheel corpus), maar deze limieten kunnen worden verhoogd op een later moment. De zoekapplicatie wordt aangedreven door de INL BlackLab-corpus zoekmachine. De zoek-interface is dezelfde als die gebruikt wordt voor bijvoorbeeld het Corpus Hedendaags Nederlands.

OpenSonar

De huidige applicatie bevat twee corpora:

  • Het SoNaR corpus (Zie Referentiecorpora voor meer informatie.)
  • Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers,
hier.

The application has been developed in the CLARIN-NL and CLARIAH projects by a joint team of the Dutch Language Institute, Tilburg University and Radboud University.

The application is a web-based frontend for the BlackLab search engine for corpora with token-based annotation. The current frontend is a further development of the corpus-frontend application developed by INT (https://github.com/INL/corpus-frontend) and its design is inspired by the first version of the OpenSoNaR user interface by Tilburg and Radboud University (https://github.com/Taalmonsters/WhiteLab2.0).

Corpus Analysis Tools

A hopefully comprehensive list of tools used in corpus compilation and analysis.