【AI语音】智能语音常见的术语和图解
基础技术术语
-
ASR(Automatic Speech Recognition,自动语音识别)
将人类语音转换为文本的技术,如语音输入法、语音转写工具。 -
TTS(Text-to-Speech,文本转语音)
将文本转换为自然语音输出的技术,如导航语音、有声书。 -
NLP(Natural Language Processing,自然语言处理)
让计算机理解、生成人类语言的技术,应用于对话系统、语义分析等。 -
NLU(Natural Language Understanding,自然语言理解)
专注于理解语音或文本的意图、实体和上下文,如智能客服的意图识别。 -
NLG(Natural Language Generation,自然语言生成)
根据结构化数据生成人类可读的文本或语音回复。
语音处理典型Pipeline的图解

关键步骤说明
-
预处理阶段
-
降噪:抑制背景噪声(如谱减法、深度学习)
-
回声消除:去除设备自身播放的声音反馈
-
VAD:切除静音片段,减少无效计算
-
-
特征提取
-
分帧加窗:将连续语音切分为20-40ms的帧
-
MFCC:提取人耳敏感的梅尔频率特征
-
-
ASR核心
-
声学模型:判断语音帧对应的音素(常用CTC/Transducer)
-
语言模型:修正识别文本的语法错误(N-gram/神经网络)
-
解码器:联合声学+语言模型输出最优文本(波束搜索)
-
-
NLP处理
-
意图识别:判断用户意图(如播放音乐/查询天气)
-
实体抽取:提取关键参数(如歌曲名、城市)
-
-
TTS合成
-
文本归一化:处理数字、缩写等(如"100"→"一百")
-
声学模型:预测语音频谱(Tacotron/FastSpeech)
-
声码器:将频谱转为波形(WaveNet/MelGAN)
-
典型应用场景示例
flowchart TB
User((用户说:"播放周杰伦的晴天")) --> Pipeline
Pipeline --> 步骤1[ASR转文本]
Pipeline --> 步骤2[NLP解析意图=播放音乐]
Pipeline --> 步骤3[抽取实体:歌手=周杰伦, 歌曲=晴天]
Pipeline --> 步骤4[音乐APP调用]
Pipeline --> 步骤5[TTS回复:"即将播放晴天"]
技术栈对应关系
| 流程阶段 | 常用技术/工具 |
|---|---|
| 预处理 | WebRTC, SpeexDSP, RNNoise |
| 特征提取 | LibROSA, Kaldi |
| ASR | DeepSpeech, Whisper, Wenet |
| NLP | Rasa, Dialogflow, BERT |
| TTS | Tacotron2, VITS, Google WaveNet |

浙公网安备 33010602011771号