Corpus querying/nl: Difference between revisions

Latest revision as of 14:54, 6 August 2024

Autosearch

Met deze demo kunnen gebruikers een of meer corpora definiëren en gegevens voor de corpora uploaden, waarna de corpora automatisch doorzoekbaar worden gemaakt in een besloten werkruimte.

Gebruikers kunnen tekstdata uploaden die geannoteerd zijn met lemmata en POS-tags in TEI- of FoLiA-formaat. Dit kan in een los XML-bestand, of als een archief (zip of tar.gz) dat meerdere bestanden bevat. Om te beginnen is de corpusgrootte gelimiteerd (25 MB limiet per geüpload bestand; een limiet van 500.000 tokens voor een geheel corpus), maar deze limieten kunnen worden verhoogd op een later moment. De zoekapplicatie wordt aangedreven door de INL BlackLab-corpuszoekmachine. De zoekinterface is dezelfde als die gebruikt wordt voor bijvoorbeeld het Corpus Hedendaags Nederlands.

Demo (Enkel toegankelijk met een CLARIN-account)

OpenSonar

De huidige applicatie bevat twee corpora:

Het SoNaR-corpus (Zie Referentiecorpora voor meer informatie.)
Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers, zie

hier.

De applicatie is ontwikkeld in de CLARIN-NL- en CLARIAH-projecten door een samengesteld team van het Instituut voor de Nederlandse Taal, Universiteit Tilburg en de Radboud Universiteit.

De applicatie is een web-based frontend voor de BlackLab-zoekmachine voor corpora met annotatie gebaseerd op tokens. Het huidige frontend is een verdere ontwikkeling van de door het INT ontwikkelde corpus-frontendapplicatie (https://github.com/INL/corpus-frontend) en het ontwerp is geïnspireerd door de eerste versie van de OpenSoNaR-gebruikersinterface van de Universiteit Tilburg en de Radboud Universiteit. (https://github.com/Taalmonsters/WhiteLab2.0).

Website (Enkel toegankelijk met een CLARIN-account)

Hulpmiddelen voor corpusanalyse

Een uitgebreide lijst met hulpmiddelen die kunnen worden gebruikt bij de analyse en samenstelling van corpora.

Website

@@ Line 1: / Line 1: @@
-<div lang="en" dir="ltr" class="mw-content-ltr">
+<languages/>
 ==Autosearch==
-This demonstrator allows users to define one or more corpora and upload data for the corpora, after which the corpora will be made automatically searchable in a private workspace.
+Met deze demo kunnen gebruikers een of meer corpora definiëren en gegevens voor de corpora uploaden, waarna de corpora automatisch doorzoekbaar worden gemaakt in een besloten werkruimte.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+Gebruikers kunnen tekstdata uploaden die geannoteerd zijn met lemmata en POS-tags in TEI- of FoLiA-formaat. Dit kan in een los XML-bestand, of als een archief (zip of tar.gz) dat meerdere bestanden bevat. Om te beginnen is de corpusgrootte gelimiteerd (25 MB limiet per geüpload bestand; een limiet van 500.000 tokens voor een geheel corpus), maar deze limieten kunnen worden verhoogd op een later moment. De zoekapplicatie wordt aangedreven door de INL BlackLab-corpuszoekmachine. De zoekinterface is dezelfde als die gebruikt wordt voor bijvoorbeeld het [https://chn.ivdnt.org Corpus Hedendaags Nederlands].
-Users can upload text data annotated with lemma + part of speech tags in TEI or FoLiA format, either as a single XML file or as an archive (zip or tar.gz) containing several XML files. Corpus size is limited to begin with (25 MB limit per uploaded file; 500,000 token limit for an entire corpus), but these limits may be increased at a later point in time. The search application is powered by the INL BlackLab corpus search engine. The search interface is the same as the one used in for example the [https://chn.ivdnt.org Corpus of Contemporary Dutch / Corpus Hedendaags Nederlands].
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+* [http://portal.clarin.inl.nl/autocorp/ Demo] (Enkel toegankelijk met een CLARIN-account)
-* [http://portal.clarin.inl.nl/autocorp/ Demonstrator]
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+== OpenSonar ==
-==[https://opensonar.ivdnt.org/ OpenSonar]==
+De huidige applicatie bevat twee corpora:
-The current application contains two corpora:
+*Het SoNaR-corpus (Zie [[Referentiecorpora]] voor meer informatie.)
-*The SoNaR corpus (See [[Reference corpora]] for more information.)
+*Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers, zie
-*The Corpus of Spoken Dutch (Corpus Gesproken Nederlands, CGN) is a collection of 900 hours (almost 9 million words) of contemporary Dutch speech, originating from Flemish and Dutch speakers. The speech fragments (spontaneous and prepared) are aligned with various transcriptions (including orthographic, phonetic) and annotations (lemma, POS tags). All annotations have been verified manually, except for the phonetic transcription: only 11,3% was verified. The corpus data are available for researchers, see [http://hdl.handle.net/10032/tm-a2-k6 here].
+[http://hdl.handle.net/10032/tm-a2-k6 hier].
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
-The application has been developed in the CLARIN-NL and CLARIAH projects by a joint team of the Dutch Language Institute, Tilburg University and Radboud University.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+De applicatie is ontwikkeld in de CLARIN-NL- en CLARIAH-projecten door een samengesteld team van het Instituut voor de Nederlandse Taal, Universiteit Tilburg en de Radboud Universiteit.
-The application is a web-based frontend for the BlackLab search engine for corpora with token-based annotation. The current frontend is a further development of the corpus-frontend application developed by INT (https://github.com/INL/corpus-frontend) and its design is inspired by the first version of the OpenSoNaR user interface by Tilburg and Radboud University (https://github.com/Taalmonsters/WhiteLab2.0).
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+De applicatie is een web-based frontend voor de BlackLab-zoekmachine voor corpora met annotatie gebaseerd op tokens. Het huidige frontend is een verdere ontwikkeling van de door het INT ontwikkelde corpus-frontendapplicatie (https://github.com/INL/corpus-frontend) en het ontwerp is geïnspireerd door de eerste versie van de OpenSoNaR-gebruikersinterface van de Universiteit Tilburg en de Radboud Universiteit. (https://github.com/Taalmonsters/WhiteLab2.0).
-== Corpus Analysis Tools ==
-A hopefully comprehensive list of tools used in corpus compilation and analysis.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+* [https://opensonar.ivdnt.org/ Website] (Enkel toegankelijk met een CLARIN-account)
-* [https://corpus-analysis.com/ website]
-</div>
+== Hulpmiddelen voor corpusanalyse ==
+Een uitgebreide lijst met hulpmiddelen die kunnen worden gebruikt bij de analyse en samenstelling van corpora.
+* [https://corpus-analysis.com/ Website]