All public logs
Jump to navigation
Jump to search
Combined display of all available logs of Clarin K-Centre. You can narrow down the view by selecting a log type, the username (case-sensitive), or the affected page (also case-sensitive).
- 14:23, 5 July 2024 Vincent talk contribs created page Translations:Q&A/89/nl (Created page with "We hebben de n-gram-frequenties geteld tot aan trigrams en ze beschikbaar gemaakt op Letterteken_N-grams.")
- 14:23, 5 July 2024 Vincent talk contribs created page Translations:Q&A/88/nl (Created page with "We hebben een overleg gehad waarin we het gebruik van spraakherkenning, segmentatie, sprekersdiarisatie en post-editing van spraakherkenning hebben besproken. We hebben het advies gegeven om K-Dutch te betrekken in het projectvoorstel zodat K-Dutch de ASR-output kan converteren naar ELAN-niveaus, ELAN-niveaus kan samenvoegen etc.")
- 14:23, 5 July 2024 Vincent talk contribs created page Translations:Q&A/87/nl (Created page with "In principe is het mogelijk om beide opdrachten tegelijkertijd aan te vragen, zie het voorbeeld voor meer informatie.")
- 14:22, 5 July 2024 Vincent talk contribs created page Translations:Q&A/86/nl (Created page with "Op [https://kdutch.ivdnt.org/wiki/Gesproken_corpora] hebben we verzameld wat beschikbaar is voor het Nederlands.")
- 14:22, 5 July 2024 Vincent talk contribs created page Translations:Q&A/85/nl (Created page with "We hebben nu een pagina over sentimentanalyse toegevoegd aan deze wiki.")
- 14:22, 5 July 2024 Vincent talk contribs created page Translations:Q&A/84/nl (Created page with "We vergelijken de Nederlandse en Turkse vertalingen van de Linguistic Inquiry and Word Count [LIWC] woordenboeken. Kent u enige corpora die geschikt zouden kunnen zijn? Ik heb verscheidene kandidaten gevonden op OPUS (https://opus.nlpl.eu/) en heb de TED2020-lezingen gedownload. Echter, dit zijn .xml-bestanden met paragraaf/lijn IDs en ik heb .txt-bestanden nodig. Heeft u wellicht een script of een manier om deze bestanden automatisch anders te coderen en de onnodige tag...")
- 14:22, 5 July 2024 Vincent talk contribs created page Translations:Q&A/83/nl (Created page with "De formule voor Flesch-Douma vereist twee dingen die geteld moeten worden: het aantal woorden in een zin en het aantal lettergrepen per woord. Terwijl het aantal woorden in een zin gemakkelijk te tellen is met elke scripttaal, lijkt het aantal lettergrepen moeilijker te tellen. Het [http://hdl.handle.net/10032/tm-a2-h2 e-Lex]-lexicon bevat woordafbrekingstekens en daarmee het aantal lettergrepen per woord. Een alternatief is om het aantal klinkerclusters in elk woord te...")
- 14:22, 5 July 2024 Vincent talk contribs created page Translations:Q&A/82/nl (Created page with "Er is een hulpmiddel genaamd [https://tscan.hum.uu.nl/tscan/ T-scan] dat wellicht nuttig is daarvoor.")
- 14:22, 5 July 2024 Vincent talk contribs created page Translations:Q&A/81/nl (Created page with "Neem een kijkje op [https://kdutch.ivdnt.org/wiki/K-Dutch#Corpora]")
- 14:21, 5 July 2024 Vincent talk contribs created page Translations:Q&A/80/nl (Created page with "Er is zo geen expliciet corpus beschikbaar. Als we [https://kdutch.ivdnt.org/wiki/Treebank_querying#GrETEL GrETEL] een gebiedend voorbeeld aanbieden kunnen we gelijksoortige zinnen extraheren, die gebruikt zouden kunnen worden als een gebiedend corpus.")
- 14:21, 5 July 2024 Vincent talk contribs created page Translations:Q&A/79/nl (Created page with "We hebben de Treebanks pagina toegevoegd aan deze wiki om antwoord te geven op deze vraag.")
- 14:21, 5 July 2024 Vincent talk contribs created page Translations:Q&A/78/nl (Created page with "Er is een permanente link voor de CGN-wave-bestanddownloadpagina: [http://hdl.handle.net/10032/tm-a2-k6 http://hdl.handle.net/10032/tm-a2-k6]")
- 14:21, 5 July 2024 Vincent talk contribs created page Translations:Q&A/77/nl (Created page with "Het [http://hdl.handle.net/10032/tm-a2-h2 e-Lex-lexicon] bevat als zijn derde dataveld de morfologie van lemma's. We hebben geteld per lemma-id dat een adjectief is voor de frequentie van het laatste achtervoegsel. Voor geen morfologie hebben we de categorie '0' toegewezen.")
- 14:21, 5 July 2024 Vincent talk contribs created page Translations:Q&A/76/nl (Created page with "Het [http://hdl.handle.net/10032/tm-a2-h2 e-Lex-lexicon] bevat als zijn derde dataveld de morfologie van lemma's. We hebben alle rijen in de data geëxtraheerd waarin het teken voor afleiding (|) twee keer op rij voorkwam en de gebruiker een gedetailleerde lijst aangeboden van invoeropdrachten en hoe regelmatig deze voorkomen in het e-Lex.")
- 14:21, 5 July 2024 Vincent talk contribs created page Translations:Q&A/75/nl (Created page with "Wij verwijzen u naar [http://opensonar.ivdnt.org/ OpenSonar] dat de enige zoekmachine is voor zowel het Corpus Gesproken Nederlands (CGN) alsook het SoNaR-referentiecorpus. Deze zoekmachine is beschikbaar via een CLARIN-login. Een alternatief kan het [http://chn.ivdnt.org/ Corpus Hedendaags Nederlands (CHN)] zijn, dat de enige zoekmachine is voor het Corpus Hedendaags Nederlands. Als u recentere data nodig heeft, dan hebben wij bij het INT een monitor-corpus met wekelijk...")
- 14:21, 5 July 2024 Vincent talk contribs created page Translations:Q&A/74/nl (Created page with "Denk je dat het mogelijk is om een lijst samen te stellen van conversieparen van het Nederlands, d.w.z. woorden die kunnen worden gebruikt in meer dan 1 spraakonderdeel, gebaseerd op corpora (of mogelijk ook treebanks)? Ik ben met name geïnteresseerd in de volgende onderdelen van spraak: naamwoorden, adjectieven en werkwoorden. Dus, bijvoorbeeld, het zoekalgoritme zou in staat moeten zijn de vetgedrukte woorden als conversieparen te identificeren in de volgende voorbeel...")
- 14:20, 5 July 2024 Vincent talk contribs created page Translations:Q&A/73/nl (Created page with "We onderzoeken of het mogelijk is om dit te laten financieren door de [https://www.clarin.eu/content/clarin-resource-families-project-funding CLARIN Resource Families Projectfinanciering]. Deze site geeft aan dat het het beste is om het idee eerst informeel in te sturen naar het CLARIN-kantoor, zodat zij erover kunnen adviseren ('Gezien de flexibele aard van dit telefoongesprek worden aanvragers bemoedigd om een projectidee op voorhand in te sturen, om het CLARIN-kantoor...")
- 14:20, 5 July 2024 Vincent talk contribs created page Translations:Q&A/72/nl (Created page with "Er zijn een aantal dialoogonderdelen in het CGN (Corpus Gesproken Nederlands). * a. Spontane conversaties ('face-to-face') * c. Telefoondialogen opgenomen m.b.v. platform * d. Telefoondialogen opgenomen m.b.v. minidiskrecorder * e. Zakelijke onderhandelingen")
- 14:20, 5 July 2024 Vincent talk contribs created page Translations:Q&A/71/nl (Created page with "Er zijn momenteel geen parallelle corpora beschikbaar waarin gewoon Nederlands is gesimplificeerd, wat het onmogelijk maakt om dit eenvoudigweg te behandelen als een machinevertaalprobleem.")
- 14:20, 5 July 2024 Vincent talk contribs created page Translations:Q&A/70/nl (Created page with "Sinds april 2022 is er een nieuwe ASR-machine beschikbaar, die specifiek geschikt is voor spraakherkenning van Belgisch-Nederlands. *[https://www.spraak.org/webservice/dutch_asr/ Online webservice] TIJDELIJK ONBESCHIKBAAR *[https://clinjournal.org/clinj/article/view/119 Wetenschappelijke publicatie over de spraakherkenningsmachine.]")
- 14:20, 5 July 2024 Vincent talk contribs created page Translations:Q&A/69/nl (Created page with "Op de [https://kdutch.ivdnt.org/wiki/Historical_corpora#Public_Domain_Data_.40_DBNL Publiek Domein Pagina] kunt u een link vinden naar de downloadbare publiekedomeinbestanden van DBNL.")
- 14:20, 5 July 2024 Vincent talk contribs created page Translations:Q&A/68/nl (Created page with "Op de [https://kdutch.ivdnt.org/wiki/K-Dutch#Corpora hoofdpagina] vindt u een lijst met verschillende soorten corpora die wij hebben. Domeinspecifieke corpora zijn de Parlementaire corpora en de Corpora van academische teksten. Onder de Parallele corpora bevinden zich ook domeinspecifieke corpora.")
- 14:19, 5 July 2024 Vincent talk contribs created page Translations:Q&A/67/nl (Created page with "Het is mogelijk om een account aan te vragen via de [https://idm.clarin.eu/unitygw/pub#!registration-CLARIN%20Identity%20Registration CLARIN-accountregistratiepagina].")
- 14:19, 5 July 2024 Vincent talk contribs marked Q&A for translation
- 14:14, 5 July 2024 Vincent talk contribs marked Dictionaries for translation
- 13:39, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/28/nl (Created page with "*265 KB *[https://github.com/Amsterdam-AI-Team/dutch-municipal-text-simplification Github]")
- 13:38, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/27/nl (Created page with "Het Nederlandse gemeentelijke corpus is een parallel monolinguaal corpus voor de evaluatie van zinsvereenvoudiging in het Nederlandse gemeentelijke domein. Het corpus is gemaakt door Amsterdam Intelligence. Het bevat 1.311 vertaalde parallelle zinsparen die automatisch gealigneerd werden. De zinsparen zijn afkomstig uit 50 documenten van de communicatieafdeling van de gemeente Amsterdam die handmatig werden vereenvoudigd om de vereenvoudiging voor het Nederlands te evalu...")
- 13:38, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/26/nl (Created page with "===Nederlandse gemeentelijke data===")
- 13:38, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/25/nl (Created page with "==Manueel vereenvoudigd==")
- 13:38, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/24/nl (Created page with "* [https://huggingface.co/datasets/BramVanroy/chatgpt-dutch-simplification Downloadpagina (CSV-bestanden)]")
- 13:38, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/23/nl (Created page with "# Training = 1013 zinnen (262 KB) # Validatie = 126 zinnen (32.6 KB) # Test = 128 zinnen (33 KB)")
- 13:37, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/22/nl (Created page with "Gecreëerd in het kader van de masterthesis van Charlotte Van de Velde. De dataset bevat Nederlandse bronzinnen gealigneerd met vereenvoudigde zinnen, beide gegenereerd door ChatGPT. Alles gecombineerd bestaat de dataset uit 1267 ingangen.")
- 13:36, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/21/nl (Created page with "===Door ChatGPT gegenereerde dataset (Van de Velde)===")
- 11:31, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/20/nl (Created page with "* 3.02 MB * [https://huggingface.co/datasets/UWV/veringewikkelderingen Downloadpagina]")
- 11:31, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/19/nl (Created page with "Een uitgebreidere versie van deze dataset werd gemaakt door Michiel Buisman en Bram Vanroy. Deze dataset bevat een eerste, kleine set variaties van Wikipediaparagrafen in verschillende stijlen (jargon, officieel, archaïsche taal, technisch, academisch en poëtisch).")
- 11:31, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/18/nl (Created page with "* [https://huggingface.co/datasets/UWV/Leesplank_NL_wikipedia_simplifications Downloadpagina]")
- 11:31, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/17/nl (Created page with "* [https://huggingface.co/datasets/UWV/Leesplank_NL_wikipedia_simplifications/blob/main/README.md HuggingFace ReadMe file]")
- 11:30, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/16/nl (Created page with "Data bevat 2,391,206 pragrafen van prompt/resultaat-combinatiess, waar het prompt een paragraaf uit de Nederlandse Wikipedia is en het resultaat een vereenvoudigde tekst is, die een of meer paragrafen kan bevatten. Deze dataset werd gecreëerd door UWV, als onderdeel van project "Leesplank", een inspanning om datasets te genereren die ethisch en wettelijk in orde zijn.")
- 11:28, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/15/nl (Created page with "===UWV Leesplank NL wikipedia===")
- 11:28, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/14/nl (Created page with "==Synthetische datasets==")
- 11:28, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/13/nl (Created page with "*[https://github.com/nivack/comparable_corpus_Wablieft_deStandaard Github] *[https://kuleuven.limo.libis.be/discovery/fulldisplay?docid=alma9993153812401488&context=L&vid=32KUL_KUL:KULeuven&lang=en&search_scope=All_Content&adaptor=Local%20Search%20Engine&tab=all_content_tab&query=any,contains,nick%20vanackere&offset=0 Vanackere, N., & Vandeghinste, V. (2022). Building a comparable corpus between easy-to-read Dutch Wablieft and De Standaard. KU Leuven. Faculteit Ingenieur...")
- 11:28, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/12/nl (Created page with "Corpus gecreëerd door Nick Vanackere. Het bevat 12.687 Wablieft-artikelen uit de periode 2012-2017 en 206.466 De Standaard-artikelen uit de periode 2013-2017. Om de vergelijkbaarheid te garanderen, werden alleen artikels van 08/01/2013 tot 16/11/2017 bekeken, wat resulteerde in 8.744 Wablieft-artikels en 202.284 De Standaard-artikels. Het verschil in het aantal artikelen is te wijten aan de verschijningsfrequentie: Wablieft verschijnt wekelijks en De Standaard dagelijks.")
- 11:27, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/11/nl (Created page with "==Vergelijkbaar Corpus Wablieft De Standaard==")
- 11:27, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/10/nl (Created page with "* 8.67 MB * [https://huggingface.co/datasets/NetherlandsForensicInstitute/simplewiki-translated-nl Download dataset]")
- 11:27, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/9/nl (Created page with "Vertaalde dataset gecreëerd door het Nederlands Forensisch Instituut met Meta's [https://ai.meta.com/research/no-language-left-behind/ No Language Left Behind model]. Het bevat 167000 gealigneerde zinsparen en doet dienst als de Nederlandse vertaling van de SimpleWiki [https://cs.pomona.edu/~dkauchak/simplification/ dataset].")
- 11:25, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/8/nl (Created page with "===NFI SimpleWiki dataset===")
- 11:25, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/7/nl (Created page with "*[https://github.com/tsei902/simplify_dutch/tree/main/resources/datasets/wikilarge Github download] * <small>Seidl, T., Vandeghinste, V., & Van de Cruys, T. (2023). [https://kuleuven.limo.libis.be/discovery/fulldisplay?docid=alma9993527112601488&context=L&vid=32KUL_KUL:KULeuven&lang=en&search_scope=All_Content&adaptor=Local%20Search%20Engine&tab=all_content_tab&query=any,contains,seidl%20theresa&offset=0 Controllable Sentence Simplification in Dutch]. KU Leuven. Facultei...")
- 11:25, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/6/nl (Created page with "Automatische vertaling van de Wikilarge dataset, nuttig voor automatische vereenvoudiging (Seidl et al., 2023). Vrij beschikbaar. Originele dataset van Zhang & Lapata")
- 11:24, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/5/nl (Created page with "===Wikilarge Dataset===")
- 11:23, 2 July 2024 Vincent talk contribs created page Translations:Simplification Data/4/nl (Created page with "*[https://github.com/tsei902/simplify_dutch/tree/main/resources/datasets/asset Github download] * <small>Alva-Manchego, F., Martin, L., Bordes, A., Scarton, C., Sagot, B., & Specia, L. (2020). ASSET: A dataset for tuning and evaluation of sentence simplification models with multiple rewriting transformations. arXiv preprint arXiv:2005.00481.</small> * <small>Seidl, T., Vandeghinste, V., & Van de Cruys, T. (2023). [https://kuleuven.limo.libis.be/discovery/fulldisplay?doci...")