上海交通大学破解声音分离与提取的核心难题
上海交通大学破解声音分离与提取的核心难题


论文标题:USE: A Unified Model for Universal Sound Separation and Extraction
作者团队:上海交通大学、南京大学等
发布时间:2025年12月24日
论文链接:https://arxiv.org/pdf/2512.21215
大模型实验室Lab4AI论文阅读
✨ 研究背景
在复杂的声学环境下,传统的声音分离(SS)技术往往无法处理未知数量的声源。
而目标声音提取(TSE)技术虽然能定向取音,却高度依赖高质量的外部指令(如一段参考音频或文字),一旦指令模糊便难以工作。
✨ 研究内容
上海交通大学团队提出了USE统一模型。该模型由两个核心部分组成:
- ✔️ EDA吸引子网络:负责“自主思考”,自动推断混合声音的数量并捕捉每一个独立声源。
- ✔️ 多模态线索网络:负责“理解指令”,能够同时识别文字、视频或声音标签等不同形式的提示信息。
- ✔️ 通过创新的联合训练策略,模型让AI能够根据场景灵活切换:既能“全自动分离”所有声音,也能“按需提取”特定目标。
✨ 核心贡献
- ✔️ 提出USE:旨在协同结合SS和TSE任务,以克服各自的局限性。
- ✔️ 性能提升:在SS任务上相比基准模型提升了1.4dB,目标提取准确率高达86%。
- ✔️ 极高稳健性:即便在提示信息低质量或缺失的情况下,模型依然能保持稳定的处理性能。
- ✔️ 高效推理性能:推理计算量随声源数线性增长,即使处理6个声源,计算量仍低于30GFLOPS。
这项成果,不仅为自动驾驶(识别警笛声)、视障辅助(环境音解析)等领域提供了技术支撑,更让AI在复杂现实世界中的“听力”水平迈上了一个大台阶。

浙公网安备 33010602011771号