上海交通大学破解声音分离与提取的核心难题

上海交通大学破解声音分离与提取的核心难题



论文标题USE: A Unified Model for Universal Sound Separation and Extraction

作者团队:上海交通大学、南京大学等
发布时间:2025 年 12 月 24 日
论文链接:https://arxiv.org/pdf/2512.21215

Github 地址

大模型实验室 Lab4AI 论文阅读

✨ 研究背景

在复杂的声学环境下,传统的声音分离(SS)技术往往无法处理未知数量的声源。

而目标声音提取(TSE)技术虽然能定向取音,却高度依赖高质量的外部指令(如一段参考音频或文字),一旦指令模糊便难以工作。

✨ 研究内容

上海交通大学团队提出了 USE 统一模型。该模型由两个核心部分组成:

  • ✔️EDA 吸引子网络:负责“自主思考”,自动推断混合声音的数量并捕捉每一个独立声源。
  • ✔️多模态线索网络:负责“理解指令”,能够同时识别文字、视频或声音标签等不同形式的提示信息。
  • ✔️ 通过创新的联合训练策略,模型让 AI 能够根据场景灵活切换:既能“全自动分离”所有声音,也能“按需提取”特定目标。

✨ 核心贡献

  • ✔️ 提出 USE:旨在协同结合 SS 和 TSE 任务,以克服各自的局限性。
  • ✔️ 性能提升:在 SS 任务上相比基准模型提升了 1.4dB,目标提取准确率高达 86%。
  • ✔️ 极高稳健性:即便在提示信息低质量或缺失的情况下,模型依然能保持稳定的处理性能。
  • ✔️ 高效推理性能:推理计算量随声源数线性增长,即使处理 6 个声源,计算量仍低于 30GFLOPS。

这项成果,不仅为自动驾驶(识别警笛声)、视障辅助(环境音解析)等领域提供了技术支撑,更让 AI 在复杂现实世界中的“听力”水平迈上了一个大台阶。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1161622.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

麦橘超然Flux控制台使用总结,值得推荐的5个理由

麦橘超然Flux控制台使用总结,值得推荐的5个理由 1. 引言:为什么选择麦橘超然Flux控制台? 在当前AI图像生成技术快速发展的背景下,越来越多开发者和创作者希望在本地设备上实现高质量、低门槛的文生图能力。然而,许多…

恋活游戏增强补丁完全指南:7步解锁完整游戏体验

恋活游戏增强补丁完全指南:7步解锁完整游戏体验 【免费下载链接】KK-HF_Patch Automatically translate, uncensor and update Koikatu! and Koikatsu Party! 项目地址: https://gitcode.com/gh_mirrors/kk/KK-HF_Patch 还在为恋活游戏的语言障碍和功能限制而…

Z-Image-Turbo提示词技巧:这样写才能生成高质量图像

Z-Image-Turbo提示词技巧:这样写才能生成高质量图像 1. 技术背景与核心价值 随着AIGC(人工智能生成内容)技术的快速发展,AI图像生成已广泛应用于设计、创意和内容生产领域。阿里通义实验室推出的Z-Image-Turbo模型,基…

HeyGem + 科哥定制版:比原版更好用的细节揭秘

HeyGem 科哥定制版:比原版更好用的细节揭秘 在AI驱动的数字人视频生成领域,HeyGem凭借其简洁的WebUI界面和高效的口型同步能力,迅速成为内容创作者、企业宣传团队和教育从业者的首选工具之一。然而,标准版本在用户体验上仍存在一…

单麦语音降噪新选择|FRCRN-16k镜像一键推理实战

单麦语音降噪新选择|FRCRN-16k镜像一键推理实战 在远程办公、在线教育和智能录音设备日益普及的今天,语音质量直接影响沟通效率与用户体验。然而,现实环境中的背景噪声——如空调声、键盘敲击、交通噪音等——常常严重干扰语音清晰度。传统的…

企业级应用:DCT-Net在社交平台头像生成中的落地实践

企业级应用:DCT-Net在社交平台头像生成中的落地实践 1. 引言 1.1 业务场景描述 在当前的社交平台生态中,个性化头像已成为用户表达自我、增强身份识别的重要方式。传统的静态头像已难以满足年轻用户对趣味性与独特性的追求。因此,人像卡通…

对比传统TTS:VibeVoice在长对话中的优势太明显

对比传统TTS:VibeVoice在长对话中的优势太明显 1. 引言:传统TTS的瓶颈与VibeVoice的突破 在播客、有声书和虚拟角色交互日益普及的今天,内容创作者面临一个共同挑战:如何让机器合成的声音听起来不像是“读稿”,而更像…

告别密码焦虑!开源密码神器 password-XL:安全、美观、全能的私有密码管家

在这个数字化的时代,我们每个人工作或者学习中都需要记住数十甚至上百个账号密码。写在文档或者纸上容易丢,使用商业密码管理器又要花钱……如果你也有这些困扰,那么今天我要介绍的这个开源项目,可能会成为你的工作生活中的管家。…

Multisim元器件图标大全:高效使用策略系统学习

玩转Multisim元器件库:从图标识别到高效仿真设计你有没有过这样的经历?打开Multisim准备搭一个电源电路,想找一个IRF540N的MOSFET,结果在“Transistors”目录下翻了三页还没找到;或者辛辛苦苦连好原理图,一…

2025年度AI编程Prompt排行榜

深夜的工位旁,咖啡已经凉透,屏幕却还在闪。 如今的程序员,都在练一种新技能——跟AI吵架。 在AI接管代码的时代,程序员们从写代码的人,逐渐变成了训AI的人。 于是,这些咒语级Prompt横空出世: …

GTA5游戏模组重构革新:从技术债务到架构优化

GTA5游戏模组重构革新:从技术债务到架构优化 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenu …

手把手教程:基于电感的低通滤波器设计

手把手教程:基于电感的低通滤波器设计 从一个“嗡嗡声”说起 你有没有遇到过这样的情况? 精心设计的音频放大电路,接上耳机后却传来一阵低频“嗡嗡”声;或者在高精度ADC采样时,明明信号源很干净,读出的数据…

Avogadro 2分子编辑器:打造专业级分子建模与可视化体验

Avogadro 2分子编辑器:打造专业级分子建模与可视化体验 【免费下载链接】avogadroapp Avogadro is an advanced molecular editor designed for cross-platform use in computational chemistry, molecular modeling, bioinformatics, materials science, and relat…

YOLOv8实战:智能家居宠物监控系统

YOLOv8实战:智能家居宠物监控系统 1. 引言:从智能安防到家庭宠物看护 随着智能家居技术的普及,家庭场景中的安全与健康管理需求日益增长。传统的摄像头仅提供被动录像功能,缺乏对画面内容的理解能力。而基于AI的目标检测技术&am…

GPT-OSS-20B多模态应用:云端GPU免调试,设计师友好

GPT-OSS-20B多模态应用:云端GPU免调试,设计师友好 你是不是也经常被AI工具的“技术门槛”劝退?明明看到别人用GPT生成设计灵感、自动出图、写文案一气呵成,自己一上手却卡在环境配置、依赖安装、CUDA版本不匹配这些“天书”问题上…

利用STM32 HAL库快速配置24l01话筒操作指南

用STM32 HAL库轻松搞定nRF24L01无线话筒开发你有没有遇到过这样的场景:想做一个无线麦克风,用于远程监听、机器人语音反馈或者工业对讲系统?市面上的蓝牙模块延迟高、Wi-Fi功耗大,而nRF24L01这种小众射频芯片又“文档难啃、配置复…

为什么选择端点(陕西)科技有限公司的系统?

面对市场上各式各样的研发费用管理工具,企业在选择时难免会反复比较:这套系统究竟能解决哪些实际问题?它是否真的比传统方法或零散工具更省心、更可靠?端点(陕西)科技有限公司的系统,其核心优势…

客服对话分析:如何用ASR镜像快速处理大量通话录音

客服对话分析:如何用ASR镜像快速处理大量通话录音 1. 业务场景与痛点分析 在现代客户服务系统中,企业每天都会产生大量的电话录音数据。这些录音中蕴含着宝贵的客户反馈、服务质量和业务机会信息。然而,传统的录音分析方式严重依赖人工监听…

NotaGen应用开发:集成到DAW工作流案例

NotaGen应用开发:集成到DAW工作流案例 1. 引言 1.1 业务场景描述 在现代音乐创作流程中,数字音频工作站(Digital Audio Workstation, DAW)已成为作曲家、编曲人和制作人的核心工具。然而,从零开始创作高质量的古典风…

STM32CubeMX教程:工业电机控制配置实战案例

从零搭建工业级电机控制器:STM32CubeMX实战全解析你有没有过这样的经历?为了调通一个BLDC电机的PWM输出,翻遍数据手册、逐行写定时器配置代码,结果还是因为死区没设对,烧了一块驱动板。又或者在做FOC控制时&#xff0c…