上海交通大学破解声音分离与提取的核心难题
论文标题:USE: A Unified Model for Universal Sound Separation and Extraction
作者团队:上海交通大学、南京大学等
发布时间:2025 年 12 月 24 日
论文链接:https://arxiv.org/pdf/2512.21215
Github 地址
大模型实验室 Lab4AI 论文阅读
✨ 研究背景
在复杂的声学环境下,传统的声音分离(SS)技术往往无法处理未知数量的声源。
而目标声音提取(TSE)技术虽然能定向取音,却高度依赖高质量的外部指令(如一段参考音频或文字),一旦指令模糊便难以工作。
✨ 研究内容
上海交通大学团队提出了 USE 统一模型。该模型由两个核心部分组成:
- ✔️EDA 吸引子网络:负责“自主思考”,自动推断混合声音的数量并捕捉每一个独立声源。
- ✔️多模态线索网络:负责“理解指令”,能够同时识别文字、视频或声音标签等不同形式的提示信息。
- ✔️ 通过创新的联合训练策略,模型让 AI 能够根据场景灵活切换:既能“全自动分离”所有声音,也能“按需提取”特定目标。
✨ 核心贡献
- ✔️ 提出 USE:旨在协同结合 SS 和 TSE 任务,以克服各自的局限性。
- ✔️ 性能提升:在 SS 任务上相比基准模型提升了 1.4dB,目标提取准确率高达 86%。
- ✔️ 极高稳健性:即便在提示信息低质量或缺失的情况下,模型依然能保持稳定的处理性能。
- ✔️ 高效推理性能:推理计算量随声源数线性增长,即使处理 6 个声源,计算量仍低于 30GFLOPS。
这项成果,不仅为自动驾驶(识别警笛声)、视障辅助(环境音解析)等领域提供了技术支撑,更让 AI 在复杂现实世界中的“听力”水平迈上了一个大台阶。