语音前端处理算法

https://docs.espressif.com/projects/esp-sr/zh_CN/latest/esp32s3/audio_front_end/README.html

https://github.com/espressif/esp-sr

https://github.com/espressif/esp-skainet

概览

智能语音设备需要在远场噪声环境中,仍具备出色的语音交互性能,声学前端 (Audio Front-End, AFE) 算法在构建此类语音用户界面 (Voice-User Interface, VUI) 时至关重要。

  1. AEC (Acoustic Echo Cancellation)
    回声消除算法,用于去除麦克风输入信号中的回声,保证在播放声音的同时,能够清晰地识别语音。通常支持多麦克风输入,以有效去除环境中的回声。

  2. NS (Noise Suppression)
    噪声抑制算法,专注于抑制音频信号中的非语音噪声,尤其是稳态噪声。此算法通常通过单通道音频信号进行处理,提升语音信号的清晰度。

  3. BSS (Blind Source Separation)
    盲源分离算法,通过多通道音频信号分离目标声源与干扰噪声,从而提高语音信号的质量。适用于复杂环境中提取有用的语音信息。

  4. MISO (Multi Input Single Output)
    多输入单输出算法,使用双通道输入并输出信噪比高的一路音频信号。适用于多个麦克风环境中的信号选择,能够在没有特定唤醒条件的情况下输出最清晰的信号。

  5. VAD (Voice Activity Detection)
    语音活动检测算法,用于实时判断当前音频帧是否包含语音活动,提供语音活跃状态的检测信息。

  6. AGC (Automatic Gain Control)
    自动增益控制算法,根据输入信号的强度动态调整输出音频的增益。对于弱信号,增大输出幅度;当信号过强时,自动降低输出幅度,避免音频失真。

  7. WakeNet
    基于神经网络的唤醒词检测模型,设计用于低功耗嵌入式系统,通过有效识别特定唤醒词,激活语音交互功能。

使用场景

语音识别

img

语音通话

img

代码流程图

img
img

posted @ 2025-04-20 10:51  一介布衣、  阅读(303)  评论(0)    收藏  举报