中文语音识别不建议使用VOSK

40几MB的vosk-model-small-cn-0.3，识别率极低，识别速度极慢。

1.3GB的vosk-model-cn-0.22没试，想必速度不会更快。

网站上Models里只有vosk-model-small-cn-0.22，没有0.3

vosk-transcriber --list-models

vosk-transcriber -n model -i input -o output 会下载model

输入可以是有视频的.mp4。

ffmpeg -i $1 -ac 1 -ar 16000 -acodec pcm_s16le t.wav 提取.mp4里的音频。

vosk-transcriber -l cn -n model 把语言也指定上，输入换成wav，识别结果一样。

pip uninstall 卸载。

vosk-transcriber自动下载的模型在~/.cache/vosk下。

posted @ 2025-10-14 15:21 华容道专家阅读(177) 评论(0) 收藏举报

刷新页面返回顶部

Penilum meum pullo sententia Latin a est 「通过浪费时间获得快乐」