中文语音识别不建议使用VOSK

40几MB的vosk-model-small-cn-0.3,识别率极低,识别速度极慢。

1.3GB的vosk-model-cn-0.22没试,想必速度不会更快。

网站上Models里只有vosk-model-small-cn-0.22,没有0.3

vosk-transcriber --list-models

vosk-transcriber -n model -i input -o output 会下载model

输入可以是有视频的.mp4。

ffmpeg -i $1 -ac 1 -ar 16000 -acodec pcm_s16le t.wav 提取.mp4里的音频。

vosk-transcriber -l cn -n model 把语言也指定上,输入换成wav,识别结果一样。

pip uninstall 卸载。

vosk-transcriber自动下载的模型在~/.cache/vosk下。

posted @ 2025-10-14 15:21  华容道专家  阅读(84)  评论(0)    收藏  举报