上海交通大学破解声音分离与提取的核心难题

上海交通大学破解声音分离与提取的核心难题

论文标题：USE: A Unified Model for Universal Sound Separation and Extraction

作者团队：上海交通大学、南京大学等
发布时间：2025年12月24日
论文链接：https://arxiv.org/pdf/2512.21215

大模型实验室Lab4AI论文阅读

✨ 研究背景

在复杂的声学环境下，传统的声音分离（SS）技术往往无法处理未知数量的声源。

而目标声音提取（TSE）技术虽然能定向取音，却高度依赖高质量的外部指令（如一段参考音频或文字），一旦指令模糊便难以工作。

✨ 研究内容

上海交通大学团队提出了USE统一模型。该模型由两个核心部分组成：

✔️ EDA吸引子网络：负责“自主思考”，自动推断混合声音的数量并捕捉每一个独立声源。
✔️ 多模态线索网络：负责“理解指令”，能够同时识别文字、视频或声音标签等不同形式的提示信息。
✔️ 通过创新的联合训练策略，模型让AI能够根据场景灵活切换：既能“全自动分离”所有声音，也能“按需提取”特定目标。

✨ 核心贡献

✔️ 提出USE：旨在协同结合SS和TSE任务，以克服各自的局限性。
✔️ 性能提升：在SS任务上相比基准模型提升了1.4dB，目标提取准确率高达86%。
✔️ 极高稳健性：即便在提示信息低质量或缺失的情况下，模型依然能保持稳定的处理性能。
✔️ 高效推理性能：推理计算量随声源数线性增长，即使处理6个声源，计算量仍低于30GFLOPS。

这项成果，不仅为自动驾驶（识别警笛声）、视障辅助（环境音解析）等领域提供了技术支撑，更让AI在复杂现实世界中的“听力”水平迈上了一个大台阶。

posted @ 2026-01-14 16:29 Lab4AI大模型实验室阅读(34) 评论(0) 收藏举报

刷新页面返回顶部