上海交通大学破解声音分离与提取的核心难题

上海交通大学破解声音分离与提取的核心难题



论文标题USE: A Unified Model for Universal Sound Separation and Extraction

作者团队上海交通大学南京大学
发布时间:2025年12月24日
论文链接https://arxiv.org/pdf/2512.21215

Github地址

大模型实验室Lab4AI论文阅读

✨ 研究背景

在复杂的声学环境下,传统的声音分离(SS)技术往往无法处理未知数量的声源。

而目标声音提取(TSE)技术虽然能定向取音,却高度依赖高质量的外部指令(如一段参考音频或文字),一旦指令模糊便难以工作。

✨ 研究内容

上海交通大学团队提出了USE统一模型。该模型由两个核心部分组成:

  • ✔️ EDA吸引子网络:负责“自主思考”,自动推断混合声音的数量并捕捉每一个独立声源。
  • ✔️ 多模态线索网络:负责“理解指令”,能够同时识别文字、视频或声音标签等不同形式的提示信息。
  • ✔️ 通过创新的联合训练策略,模型让AI能够根据场景灵活切换:既能“全自动分离”所有声音,也能“按需提取”特定目标。

✨ 核心贡献

  • ✔️ 提出USE:旨在协同结合SS和TSE任务,以克服各自的局限性。
  • ✔️ 性能提升:在SS任务上相比基准模型提升了1.4dB,目标提取准确率高达86%。
  • ✔️ 极高稳健性:即便在提示信息低质量或缺失的情况下,模型依然能保持稳定的处理性能。
  • ✔️ 高效推理性能:推理计算量随声源数线性增长,即使处理6个声源,计算量仍低于30GFLOPS。

这项成果,不仅为自动驾驶(识别警笛声)视障辅助(环境音解析)等领域提供了技术支撑,更让AI在复杂现实世界中的“听力”水平迈上了一个大台阶。

posted @ 2026-01-14 16:29  Lab4AI大模型实验室  阅读(34)  评论(0)    收藏  举报