深度噪声抑制技术在语音增强中的突破

某中心团队在Interspeech 2020深度噪声抑制挑战赛中夺冠

在电子语音通信中,噪声和混响不仅会降低语音清晰度,还会因长时间聆听劣质语音而导致听众疲劳。随着COVID-19疫情期间远程会议时间的增加,这一问题变得尤为突出。

今年Interspeech会议举办的深度噪声抑制挑战赛旨在解决这一问题,分别设置了实时语音增强和非实时语音增强两个竞赛项目。在19支参赛团队中,某中心团队取得了最佳成绩,在非实时赛道获得第一名,在实时赛道获得第二名。

技术创新与性能表现

为满足实际应用需求,团队将实时系统的CPU使用率限制在仅4%(在i7-8565U核心上测量),远低于比赛允许的最大值。尽管如此,其实时参赛系统与第一名仅相差0.03平均意见分,同时超越了其他非实时参赛系统。

团队发布了详细描述技术方案的两篇论文:

  • 《PoCoNet:通过频率位置嵌入、半监督对话数据和偏置损失实现更好的语音增强》
  • 《一种基于感知动机的低复杂度全频带语音实时增强方法》

技术实现细节

感知优化方法

传统语音增强算法使用手动调整的语音和噪声模型,通常假设噪声是恒定的。这些方法对某些类型噪声(如汽车噪声)在不太嘈杂或混响的环境中可以正常工作,但往往无法处理非平稳噪声(如键盘噪声和嘈杂人声)。

团队实时系统直接优化语音的感知特性(频谱包络和发声),同时忽略感知无关的方面。这种算法在保持极高计算效率的同时,实现了最先进的语音质量。

非实时系统架构

对于非实时系统,团队采用无妥协方案,使用改进的U-Net深度卷积网络,从增强语音中榨取每一分可能的质量,最终赢得比赛冠军。

性能权衡与展望

在实时应用中,复杂度和质量之间始终存在权衡。研究显示,通过增加CPU需求可以进一步提高实时系统的质量,或者通过牺牲部分质量来进一步节省CPU使用。

业界普遍认为深度学习正在对音频处理产生深远影响。尽管仍面临数据增强、感知相关损失函数和处理未知条件等挑战,但未来发展前景令人振奋。

该获奖技术已应用于某智能助手的通信公告和随处接入功能,并可通过某视频会议客户端的免费专业试用版直接体验。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-11-30 14:05  CodeShare  阅读(0)  评论(0)    收藏  举报