Corpus querying/nl: Difference between revisions
(Created page with "De applicatie is ontwikkeld in de CLARIN-NL en CLARIAH projecten door een samengesteld team van het Instituut voor de Nederlandse Taal, Universiteit Tilburg en de Radboud Universiteit.") |
No edit summary |
||
(16 intermediate revisions by 3 users not shown) | |||
Line 1: | Line 1: | ||
<languages/> | |||
==Autosearch== | ==Autosearch== | ||
Met deze demo kunnen gebruikers een of meer corpora definiëren en gegevens voor de corpora uploaden, waarna de corpora automatisch doorzoekbaar worden gemaakt in een besloten werkruimte. | |||
Gebruikers kunnen tekstdata uploaden die geannoteerd zijn met | Gebruikers kunnen tekstdata uploaden die geannoteerd zijn met lemmata en POS-tags in TEI- of FoLiA-formaat. Dit kan in een los XML-bestand, of als een archief (zip of tar.gz) dat meerdere bestanden bevat. Om te beginnen is de corpusgrootte gelimiteerd (25 MB limiet per geüpload bestand; een limiet van 500.000 tokens voor een geheel corpus), maar deze limieten kunnen worden verhoogd op een later moment. De zoekapplicatie wordt aangedreven door de INL BlackLab-corpuszoekmachine. De zoekinterface is dezelfde als die gebruikt wordt voor bijvoorbeeld het [https://chn.ivdnt.org Corpus Hedendaags Nederlands]. | ||
* [http://portal.clarin.inl.nl/autocorp/ | * [http://portal.clarin.inl.nl/autocorp/ Demo] (Enkel toegankelijk met een CLARIN-account) | ||
== | == OpenSonar == | ||
De huidige applicatie bevat twee corpora: | De huidige applicatie bevat twee corpora: | ||
*Het SoNaR corpus (Zie [[Referentiecorpora]] voor meer informatie.) | *Het SoNaR-corpus (Zie [[Referentiecorpora]] voor meer informatie.) | ||
*Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers, zie | *Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers, zie | ||
[http://hdl.handle.net/10032/tm-a2-k6 hier]. | [http://hdl.handle.net/10032/tm-a2-k6 hier]. | ||
De applicatie is ontwikkeld in de CLARIN-NL- en CLARIAH-projecten door een samengesteld team van het Instituut voor de Nederlandse Taal, Universiteit Tilburg en de Radboud Universiteit. | |||
De applicatie is een web-based frontend voor de BlackLab-zoekmachine voor corpora met annotatie gebaseerd op tokens. Het huidige frontend is een verdere ontwikkeling van de door het INT ontwikkelde corpus-frontendapplicatie (https://github.com/INL/corpus-frontend) en het ontwerp is geïnspireerd door de eerste versie van de OpenSoNaR-gebruikersinterface van de Universiteit Tilburg en de Radboud Universiteit. (https://github.com/Taalmonsters/WhiteLab2.0). | |||
* [https://opensonar.ivdnt.org/ Website] (Enkel toegankelijk met een CLARIN-account) | |||
* [https://corpus-analysis.com/ | |||
== Hulpmiddelen voor corpusanalyse == | |||
Een uitgebreide lijst met hulpmiddelen die kunnen worden gebruikt bij de analyse en samenstelling van corpora. | |||
* [https://corpus-analysis.com/ Website] |
Latest revision as of 14:54, 6 August 2024
Autosearch
Met deze demo kunnen gebruikers een of meer corpora definiëren en gegevens voor de corpora uploaden, waarna de corpora automatisch doorzoekbaar worden gemaakt in een besloten werkruimte.
Gebruikers kunnen tekstdata uploaden die geannoteerd zijn met lemmata en POS-tags in TEI- of FoLiA-formaat. Dit kan in een los XML-bestand, of als een archief (zip of tar.gz) dat meerdere bestanden bevat. Om te beginnen is de corpusgrootte gelimiteerd (25 MB limiet per geüpload bestand; een limiet van 500.000 tokens voor een geheel corpus), maar deze limieten kunnen worden verhoogd op een later moment. De zoekapplicatie wordt aangedreven door de INL BlackLab-corpuszoekmachine. De zoekinterface is dezelfde als die gebruikt wordt voor bijvoorbeeld het Corpus Hedendaags Nederlands.
- Demo (Enkel toegankelijk met een CLARIN-account)
OpenSonar
De huidige applicatie bevat twee corpora:
- Het SoNaR-corpus (Zie Referentiecorpora voor meer informatie.)
- Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Alle annotaties zijn handmatig geverifieerd, behalve de fonetische transcriptie waarvan slechts 11,3% is geverifieerd. De corpusdata is beschikbaar voor onderzoekers, zie
hier.
De applicatie is ontwikkeld in de CLARIN-NL- en CLARIAH-projecten door een samengesteld team van het Instituut voor de Nederlandse Taal, Universiteit Tilburg en de Radboud Universiteit.
De applicatie is een web-based frontend voor de BlackLab-zoekmachine voor corpora met annotatie gebaseerd op tokens. Het huidige frontend is een verdere ontwikkeling van de door het INT ontwikkelde corpus-frontendapplicatie (https://github.com/INL/corpus-frontend) en het ontwerp is geïnspireerd door de eerste versie van de OpenSoNaR-gebruikersinterface van de Universiteit Tilburg en de Radboud Universiteit. (https://github.com/Taalmonsters/WhiteLab2.0).
- Website (Enkel toegankelijk met een CLARIN-account)
Hulpmiddelen voor corpusanalyse
Een uitgebreide lijst met hulpmiddelen die kunnen worden gebruikt bij de analyse en samenstelling van corpora.