1. 使用OpenAI開源的whisper來識別下casablanca及中文:
  2. 寧衛通信
  3. 新聞動態
  4. 寧衛新聞
  5. 使用OpenAI開源的whisper來識別下casablanca及中文

使用OpenAI開源的whisper來識別下casablanca及中文

     OpenAI開源了其whisper有一段時間了,但大家更多關注的是其charGPT,這幾天試了下whisper,覺得識別效果還是挺好的,針對中文,缺少的是其grammar的部分,或者說是中文漢語的一些語義及常用詞等。還有一點可能就是里邊沒有把繁體和簡體單獨定義,所以常常會有一些繁體字在里邊。

        開源地址:https://github.com/openai/whisper.git

        gitee鏡像:https://gitee.com/nwaycn/whisper.git

識別效果圖:

第一個文件為英文歌《casablanca》,后續兩個是我們自己錄制的中文語音文件。

下邊我們再來首《我的未來不是夢》,看看識別結果

其使用的是torch,在生成過程中,默認的會生成對應的json、srt、tsv、txt、vtt等,如上圖所示,近五分鐘的錄音識別過程是16.6秒左右,而小文件優勢不是太大。

使用nvidia gpu來為ffmpeg(av-codec)進行運算加速

使用Paddle-gpu進行asr和tts

使用百度飛槳在WSL-DEBIAN11.5中ASR和

Debian 11安裝且使用coqui-ai的TTS

nway_asr_server服務和各語言模型

      寫到這里,感慨一下,曾經用過的卡內基的pocketsphinx,后邊一直再沒見有新的發布。

圖片

台湾佬?偷拍?娱乐?中文网