开源语音识别工具 Vosk 中VoskRecognizer类方法功能介绍

VoskRecognizer 是开源语音识别工具 Vosk 中的核心类,用于将音频流转换为文本。以下是其常见方法的作用及使用场景:

核心方法
AcceptWaveform(data: bytes)

作用:向识别器输入音频数据块(通常是 PCM 格式的字节流)。
参数:data 为二进制音频数据,需符合模型要求的格式(如 16kHz、16-bit 单声道 PCM)。
使用场景:在实时流或文件处理中,循环调用此方法逐步传入音频数据。
Result() -> str

作用:获取当前音频流的非最终识别结果(JSON 格式字符串)。
返回值:包含 text 字段的 JSON,如 {"text": "hello world"}。
使用场景:在音频输入过程中,随时调用以获取中间结果(可能被后续音频修正)。
FinalResult() -> str

作用:获取当前音频流的最终识别结果(触发端点检测后)。
返回值:同 Result(),但表示语音段结束后的稳定结果。
使用场景:在检测到语音停顿或输入结束时调用,确保结果不再变化。
PartialResult() -> str

作用:获取实时的中间识别结果(未经过语法修正)。
返回值:简化的 JSON,如 {"partial": "hello worl"}。
使用场景:实时字幕等需要即时反馈的场景,结果可能不完整或不准确。
Reset()

作用:重置识别器状态,清空之前的音频上下文。
使用场景:开始处理新音频流时调用,避免旧数据干扰新识别。

posted @ 2025-02-20 13:47  筑丹期码农  阅读(501)  评论(0)    收藏  举报