语音转文字 funasr、whisper、faster-whisper 三个项目效果的个人比较
最近在做中文语音换文字的功能并对内容做检测方面的功能,由于之前一直用的阿里的商用版。最近两年开源模型也比较多。所以尝试使用一些开源的看能否满足要求。
以下是我个人使用的感受,可能不那么客观公正。我使用的是一些通话语音,不像一些正规录制的音频,可能存在普通话不标准,环境杂音的问题。
识别速度排名:funasr > faster-whisper > whisper
准确率排名:whisper > faster-whisper > funasr
硬件资源占用排名:whisper > faster-whisper > funasr
funasr 的基础模型准确率有点差,我用的 SenseVoice,本文中的funsr的就是指用SenseVoice模型。faster-whisper模型用的 large-v3,whisper 也是用的 large-v3。给出我个人的使用建议:
- 如果有大量的比较纯净普通话标准的语音文件,可先尝试用funasr的SenseVoice,应该能得到比较好的效果。
- 文件量不多,对识别准确率要求高,有比较的好的硬件配置有12G、16G的显卡或者更好的显卡。优先用whisper的large-v3 模型,通过显卡加速。
- faster-whisper如其名,速度比whisper快大概1/3 ? 但是准确率有所下降,优势油不那么明显,是否使用看个人选择了。

浙公网安备 33010602011771号