【AI语音】智能语音常见的术语和图解

基础技术术语

  • ASR(Automatic Speech Recognition,自动语音识别)
    将人类语音转换为文本的技术,如语音输入法、语音转写工具。

  • TTS(Text-to-Speech,文本转语音)
    将文本转换为自然语音输出的技术,如导航语音、有声书。

  • NLP(Natural Language Processing,自然语言处理)
    让计算机理解、生成人类语言的技术,应用于对话系统、语义分析等。

  • NLU(Natural Language Understanding,自然语言理解)
    专注于理解语音或文本的意图、实体和上下文,如智能客服的意图识别。

  • NLG(Natural Language Generation,自然语言生成)
    根据结构化数据生成人类可读的文本或语音回复。

语音处理典型Pipeline的图解

关键步骤说明

  1. 预处理阶段

    • 降噪:抑制背景噪声(如谱减法、深度学习)

    • 回声消除:去除设备自身播放的声音反馈

    • VAD:切除静音片段,减少无效计算

  2. 特征提取

    • 分帧加窗:将连续语音切分为20-40ms的帧

    • MFCC:提取人耳敏感的梅尔频率特征

  3. ASR核心

    • 声学模型:判断语音帧对应的音素(常用CTC/Transducer)

    • 语言模型:修正识别文本的语法错误(N-gram/神经网络)

    • 解码器:联合声学+语言模型输出最优文本(波束搜索)

  4. NLP处理

    • 意图识别:判断用户意图(如播放音乐/查询天气)

    • 实体抽取:提取关键参数(如歌曲名、城市)

  5. TTS合成

    • 文本归一化:处理数字、缩写等(如"100"→"一百")

    • 声学模型:预测语音频谱(Tacotron/FastSpeech)

    • 声码器:将频谱转为波形(WaveNet/MelGAN)

典型应用场景示例

flowchart TB
    User((用户说:"播放周杰伦的晴天")) --> Pipeline
    Pipeline --> 步骤1[ASR转文本]
    Pipeline --> 步骤2[NLP解析意图=播放音乐]
    Pipeline --> 步骤3[抽取实体:歌手=周杰伦, 歌曲=晴天]
    Pipeline --> 步骤4[音乐APP调用]
    Pipeline --> 步骤5[TTS回复:"即将播放晴天"]

技术栈对应关系

流程阶段 常用技术/工具
预处理 WebRTC, SpeexDSP, RNNoise
特征提取 LibROSA, Kaldi
ASR DeepSpeech, Whisper, Wenet
NLP Rasa, Dialogflow, BERT
TTS Tacotron2, VITS, Google WaveNet

 

posted @ 2025-06-16 22:35  FBshark  阅读(267)  评论(0)    收藏  举报