语音转文字 funasr、whisper、faster-whisper 三个项目效果的个人比较

最近在做中文语音换文字的功能并对内容做检测方面的功能,由于之前一直用的阿里的商用版。最近两年开源模型也比较多。所以尝试使用一些开源的看能否满足要求。

以下是我个人使用的感受,可能不那么客观公正。我使用的是一些通话语音,不像一些正规录制的音频,可能存在普通话不标准,环境杂音的问题。

识别速度排名:funasr > faster-whisper  > whisper
准确率排名:whisper > faster-whisper  > funasr
硬件资源占用排名:whisper > faster-whisper  > funasr

funasr 的基础模型准确率有点差,我用的 SenseVoice,本文中的funsr的就是指用SenseVoice模型。faster-whisper模型用的 large-v3,whisper 也是用的 large-v3。给出我个人的使用建议:

  1. 如果有大量的比较纯净普通话标准的语音文件,可先尝试用funasr的SenseVoice,应该能得到比较好的效果。
  2. 文件量不多,对识别准确率要求高,有比较的好的硬件配置有12G、16G的显卡或者更好的显卡。优先用whisper的large-v3 模型,通过显卡加速。
  3. faster-whisper如其名,速度比whisper快大概1/3 ? 但是准确率有所下降,优势油不那么明显,是否使用看个人选择了。
posted @ 2025-07-29 17:12  熊先生不开玩笑  阅读(763)  评论(0)    收藏  举报