Speech recognition/nl: Difference between revisions

From Clarin K-Centre
Jump to navigation Jump to search
No edit summary
No edit summary
Line 3: Line 3:


==Spraakherkenning voor Belgisch-Nederlands==
==Spraakherkenning voor Belgisch-Nederlands==
Sinds April 2022 is er een nieuwe ASR-engine beschikbaar, die specifiek geschikt is voor spraakherkenning voor Belgisch-Nederlands. Het wordt gerund door de KU Leuven.
Sinds april 2022 is er een nieuwe ASR-engine beschikbaar, die specifiek geschikt is voor spraakherkenning voor Belgisch-Nederlands. Hij wordt gerund door de KU Leuven.


*[https://www.spraak.org/webservice/dutch_asr/ Online webservice]
*[https://www.spraak.org/webservice/dutch_asr/ Online webservice]
Line 12: Line 12:
[https://live.european-language-grid.eu/catalogue/tool-service/20900 https://live.european-language-grid.eu/catalogue/tool-service/20900]
[https://live.european-language-grid.eu/catalogue/tool-service/20900 https://live.european-language-grid.eu/catalogue/tool-service/20900]


==Interpunctie invoeging==
==Interpunctie-invoeging==
Aangezien ASR output meestal bestaat uit woordstromen, is het wellicht voordelig om automatisch interpunctie in te laten voegen.  
Aangezien ASR-output meestal bestaat uit woordstromen, is het wellicht voordelig om automatisch interpunctie in te laten voegen.  


*[https://huggingface.co/oliverguhr/fullstop-dutch-sonar-punctuation-prediction?text=hervatting+van+de+zitting+ik+verklaar+de+zitting+van+het+europees+parlement+die+op+vrijdag+17+december+werd+onderbroken+te+zijn+hervat HuggingFace model]
*[https://huggingface.co/oliverguhr/fullstop-dutch-sonar-punctuation-prediction?text=hervatting+van+de+zitting+ik+verklaar+de+zitting+van+het+europees+parlement+die+op+vrijdag+17+december+werd+onderbroken+te+zijn+hervat HuggingFace-model]
*[https://github.com/VincentCCL/Segment_FullStop/blob/main/Segment_FullStop.py Python-script dat txt bestanden als input accepteert en txt met interpunctie teruggeeft als output.]
*[https://github.com/VincentCCL/Segment_FullStop/blob/main/Segment_FullStop.py Python-script dat txt-bestanden als input accepteert en txt met interpunctie teruggeeft als output.]


==Whisper model van OpenAI==
==Whisper model van OpenAI==
Line 22: Line 22:


*[https://openai.com/research/whisper Webpagina]
*[https://openai.com/research/whisper Webpagina]
*[https://github.com/openai/whisper Github pagina]
*[https://github.com/openai/whisper Githubpagina]
*[https://www.youtube.com/watch?v=ABFqbY_rmEk YouTube video] waarin wordt uitgelegd hoe Whisper kan worden gedownload op een Windows-machine.
*[https://www.youtube.com/watch?v=ABFqbY_rmEk YouTube video] waarin wordt uitgelegd hoe Whisper kan worden gedownload op een Windowsmachine.


==Microsoft Transcriber==
==Microsoft Transcriber==
*[https://support.microsoft.com/nl-nl/office/uw-opnamen-transcriberen-7fc2efec-245e-45f0-b053-2a97531ecf57 Website in het Nederlands]
*[https://support.microsoft.com/nl-nl/office/uw-opnamen-transcriberen-7fc2efec-245e-45f0-b053-2a97531ecf57 Website in het Nederlands]

Revision as of 08:48, 18 April 2024

LaMachine-webservices

Er zijn meerdere spraakherkenningsdiensten web services bij de Radboud Universiteit.

Spraakherkenning voor Belgisch-Nederlands

Sinds april 2022 is er een nieuwe ASR-engine beschikbaar, die specifiek geschikt is voor spraakherkenning voor Belgisch-Nederlands. Hij wordt gerund door de KU Leuven.

HENSOLDT ANALYTICS Spraak-naar-tekst voor het Nederlands

Het European Language Grid host deze spraakherkenningsservice met demo op https://live.european-language-grid.eu/catalogue/tool-service/20900

Interpunctie-invoeging

Aangezien ASR-output meestal bestaat uit woordstromen, is het wellicht voordelig om automatisch interpunctie in te laten voegen.

Whisper model van OpenAI

ASR voor meerdere talen, waaronder Nederlands, zijn beschikbaar bij Whisper. Het downloaden van het volledige model is mogelijk.

Microsoft Transcriber