使用OpenAI開源的whisper來識別下casablanca及中文
OpenAI開源了其whisper有一段時間了,但大家更多關注的是其charGPT,這幾天試了下whisper,覺得識別效果還是挺好的,針對中文,缺少的是其grammar的部分,或者說是中文漢語的一些語義及常用詞等。還有一點可能就是里邊沒有把繁體和簡體單獨定義,所以常常會有一些繁體字在里邊。
開源地址:https://github.com/openai/whisper.git
gitee鏡像:https://gitee.com/nwaycn/whisper.git
識別效果圖:
第一個文件為英文歌《casablanca》,后續兩個是我們自己錄制的中文語音文件。
下邊我們再來首《我的未來不是夢》,看看識別結果
其使用的是torch,在生成過程中,默認的會生成對應的json、srt、tsv、txt、vtt等,如上圖所示,近五分鐘的錄音識別過程是16.6秒左右,而小文件優勢不是太大。
使用nvidia gpu來為ffmpeg(av-codec)進行運算加速
寫到這里,感慨一下,曾經用過的卡內基的pocketsphinx,后邊一直再沒見有新的發布。