【AI语音】智能语音常见的术语和图解

基础技术术语

ASR（Automatic Speech Recognition，自动语音识别）
将人类语音转换为文本的技术，如语音输入法、语音转写工具。
TTS（Text-to-Speech，文本转语音）
将文本转换为自然语音输出的技术，如导航语音、有声书。
NLP（Natural Language Processing，自然语言处理）
让计算机理解、生成人类语言的技术，应用于对话系统、语义分析等。
NLU（Natural Language Understanding，自然语言理解）
专注于理解语音或文本的意图、实体和上下文，如智能客服的意图识别。
NLG（Natural Language Generation，自然语言生成）
根据结构化数据生成人类可读的文本或语音回复。

语音处理典型Pipeline的图解

关键步骤说明

预处理阶段
- 降噪：抑制背景噪声（如谱减法、深度学习）
- 回声消除：去除设备自身播放的声音反馈
- VAD：切除静音片段，减少无效计算
特征提取
- 分帧加窗：将连续语音切分为20-40ms的帧
- MFCC：提取人耳敏感的梅尔频率特征
ASR核心
- 声学模型：判断语音帧对应的音素（常用CTC/Transducer）
- 语言模型：修正识别文本的语法错误（N-gram/神经网络）
- 解码器：联合声学+语言模型输出最优文本（波束搜索）
NLP处理
- 意图识别：判断用户意图（如播放音乐/查询天气）
- 实体抽取：提取关键参数（如歌曲名、城市）
TTS合成
- 文本归一化：处理数字、缩写等（如"100"→"一百"）
- 声学模型：预测语音频谱（Tacotron/FastSpeech）
- 声码器：将频谱转为波形（WaveNet/MelGAN）

典型应用场景示例

flowchart TB
    User((用户说:"播放周杰伦的晴天")) --> Pipeline
    Pipeline --> 步骤1[ASR转文本]
    Pipeline --> 步骤2[NLP解析意图=播放音乐]
    Pipeline --> 步骤3[抽取实体:歌手=周杰伦, 歌曲=晴天]
    Pipeline --> 步骤4[音乐APP调用]
    Pipeline --> 步骤5[TTS回复:"即将播放晴天"]

技术栈对应关系

流程阶段	常用技术/工具
预处理	WebRTC, SpeexDSP, RNNoise
特征提取	LibROSA, Kaldi
ASR	DeepSpeech, Whisper, Wenet
NLP	Rasa, Dialogflow, BERT
TTS	Tacotron2, VITS, Google WaveNet

posted @ 2025-06-16 22:35 FBshark 阅读(406) 评论(0) 收藏举报

刷新页面返回顶部

FBshark

【AI语音】智能语音常见的术语和图解

基础技术术语

语音处理典型Pipeline的图解

关键步骤说明

典型应用场景示例

技术栈对应关系

公告