浙大西湖Ant团队:让大语言模型用“听“来优化“看“的压缩技术

这篇由浙江大学、西湖大学和蚂蚁集团联合发表的开创性研究,发表于2025年11月的arXiv平台(论文编号:arXiv:2511.14582v1),为多模态大语言模型的效率提升开辟了全新道路。该研究的第一作者是来自浙江大学的陶科达,共同通讯作者包括西湖大学的王焕教授和蚂蚁集团的刘健博士。

在当今AI迅速发展的时代,全模态大语言模型(OmniLLM)就像一位能够同时看、听、理解的全能助手,它们能够同时处理视频和音频信息,为用户提供更加丰富的多媒体理解能力。然而,这些强大的AI助手面临着一个严重的"消化不良"问题:当它们同时处理大量的视频和音频数据时,就像一个人试图同时阅读十本书一样,运行速度会变得异常缓慢,内存消耗也会急剧增加。

研究团队发现了一个有趣的现象:在人类观看视频时,我们往往通过听觉来判断哪些画面最重要。比如当我们听到激动的音乐时,会自然地期待看到精彩的画面;当听到平静的背景音时,可能对应的画面相对平淡。基于这个洞察,研究团队提出了一种名为OmniZip的创新方法,这是第一个专门为全模态大语言模型设计的音频引导式动态令牌压缩框架。

OmniZip的核心思想可以比作一位经验丰富的影片剪辑师。这位剪辑师有一个独特的工作方法:他首先仔细聆听整段音频,根据音频的重要性和信息密度来判断哪些时间段最值得保留详细的视频内容,哪些时间段的视频可以适当精简。当音频显示某个时间段信息量很大时(比如有重要对话或关键音效),剪辑师会保留更多该时间段的视频细节;而当音频相对平淡时,就会大胆削减对应时间段的视频内容。

这种方法的巧妙之处在于它充分利用了音频和视频之间的天然同步关系。在现实世界中,声音和画面往往是紧密配合的:精彩的画面通常伴随着丰富的声音信息,而平淡的画面往往对应着单调的背景音。OmniZip正是抓住了这一规律,通过"听"来指导"看"的精简过程。

一、音频主导的发现:为什么"听"比"看"更重要

研究团队首先进行了一项深入的注意力分析,就像研究人类大脑在处理多媒体信息时的工作模式一样。他们发现了一个令人意外但合理的现象:在全模态大语言模型中,音频令牌(可以理解为音频信息的小片段)获得的关注度远远超过视频令牌。

这种现象可以用一个生动的比喻来理解:想象你在一个嘈杂的聚会上,虽然眼前有各种视觉刺激,但你的注意力主要集中在声音上——谁在说话、说了什么、语调如何变化。同样地,AI模型在处理音视频内容时,也表现出对音频信息的明显偏好。

具体来说,研究团队发现模型的注意力图呈现出规律性的垂直条纹模式,这些条纹恰好对应着音频令牌的位置。这意味着无论在哪个时间窗口,音频信息都能获得更多的"关注",而许多视频令牌却接收到很少的注意力,暗示着它们存在较大的冗余性。

更有趣的是,研究团队还发现了一个重要的时间局部性现象。音频和视频令牌之间的相互关注主要集中在同一时间窗口内,就像人们在对话时,声音和嘴唇动作会自然同步一样。跨时间窗口的注意力会快速衰减,这表明模型在处理多媒体信息时具有很强的短期记忆特征。

这些发现为OmniZip的设计奠定了坚实的理论基础。既然音频信息如此重要,而视频信息存在较多冗余,那么就可以利用音频的重要性来指导视频内容的精简。同时,由于注意力主要集中在时间窗口内部,压缩策略也应该以时间窗口为单位进行设计。

二、OmniZip的三重奏:音频选择、锚点整合与动态压缩

OmniZip的工作流程就像一个精心设计的三步舞蹈,每一步都有其独特的作用和精妙的设计。

第一步是音频令牌的精心挑选。这个过程类似于一位音乐制作人从录音中挑选最精彩的片段。OmniZip会分析音频编码器最后一层的注意力分布,计算每个音频令牌从其他所有音频令牌那里获得的平均注意力得分。那些获得更多关注的音频令牌被认为是更重要的信息载体,就像乐曲中的主旋律一样,会被优先保留。

第二步是音频锚点的巧妙整合。这一步解决了一个精妙的平衡问题:既要保持音频信息的完整性,又要实现有效的压缩。OmniZip的做法是在非重要的音频令牌中均匀采样一些"锚点",然后基于跨模态相似性选择与这些锚点最相关的音频片段进行合并。这个过程就像整理照片时,你会保留最重要的照片,然后将相似的照片整理成相册,既保持了关键信息,又节省了存储空间。

第三步是音频引导的动态视频压缩,这是整个系统最具创新性的部分。OmniZip会根据每个时间窗口的音频保留率来计算该窗口的信息密度。保留率高的时间窗口被认为是信息密集的重要时段,对应的视频令牌会得到相对保守的压缩;而保留率低的时间窗口则被视为信息稀疏的平淡时段,对应的视频内容可以接受更积极的压缩。

这种动态分配策略的巧妙之处在于它始终保持全局压缩预算的平衡。就像一个精明的家庭主妇在分配家庭支出一样,重要的地方多花一些,不重要的地方就省一些,但总体预算始终控制在设定范围内。通过这种方式,OmniZip能够在大幅减少令牌数量的同时,最大程度地保留关键信息。

三、ISTC模块:交替优化的时空压缩技术

为了进一步优化视频令牌的压缩效果,研究团队开发了一个名为ISTC(交替时空压缩)的专门模块。这个模块的设计理念可以用整理书架的比喻来理解:你既可以按时间顺序整理(把同一年的书放在一起),也可以按主题分类整理(把同类型的书放在一起)。ISTC模块就是交替使用这两种整理方法来优化视频内容。

ISTC模块的工作方式是以四帧为基本单位进行处理。它首先会计算相邻帧之间相同位置像素的余弦相似度,这就像比较两张连续照片中同一个物体的变化程度。如果某个位置的像素在相邻帧之间变化很小,说明这部分信息存在时间上的冗余,可以通过合并相似的令牌来减少数据量。

对于帧内的空间冗余,ISTC模块采用了一种叫做密度峰值聚类的方法。这种方法的原理类似于在人群中寻找"意见领袖":系统会计算每个视频令牌的局部密度(它周围有多少相似的令牌)以及它到最近的更高密度令牌的距离。那些既有高密度又相对独立的令牌被认为是重要的"代表",会被优先保留;而那些密度低或与其他重要令牌过于相似的令牌则会被精简掉。

这种交替的时空压缩策略确保了压缩过程既不会在时间维度上过度简化(避免丢失关键的动作变化),也不会在空间维度上过度精简(保持画面的关键细节)。就像一个经验丰富的摄像师在拍摄时既要把握好时机,又要选择好角度一样,ISTC模块在两个维度上都保持着精确的平衡。

四、实验验证:数字背后的惊人表现

为了验证OmniZip的实际效果,研究团队在多个权威的音视频理解基准测试上进行了全面的实验。这些测试就像给AI助手进行的"全科体检",涵盖了从事件定位到内容计数等各种能力的考核。

实验结果令人印象深刻。在保留仅45%令牌的情况下,OmniZip能够维持99.1%的原始准确率,这意味着用不到一半的计算资源就能获得几乎相同的性能表现。如果用跑车来比喻,这就相当于油耗减半但速度基本不变的技术突破。

在推理速度方面,OmniZip展现出了显著的优势。在7B参数的Qwen2.5-Omni模型上,OmniZip能够实现3.42倍的预填充阶段加速,整体推理速度提升1.42倍。同时,内存消耗降低了约10GB,这对于实际部署来说是一个重要的改善。毕竟,在真实应用中,计算资源的成本和可获得性往往是决定AI技术能否大规模应用的关键因素。

与其他压缩方法的对比显示了OmniZip的独特优势。传统的随机压缩方法会导致显著的性能下降,而专门针对视频设计的FastV方法虽然能保持一定的性能,但由于需要计算完整的注意力矩阵,经常会出现内存溢出的问题,在大模型上甚至无法运行。相比之下,OmniZip不仅性能优秀,还具有很好的实际可操作性。

特别值得一提的是,OmniZip在不同规模的模型上都展现出了稳定的表现。在3B参数的较小模型上,它能实现3.27倍的预填充阶段加速;在7B参数的较大模型上,加速效果更加明显。这表明OmniZip的设计具有很好的可扩展性,能够适应不同规模的应用需求。

五、技术细节:无需训练的即插即用设计

OmniZip最吸引人的特点之一是它完全不需要额外的训练过程,这就像一个可以直接安装使用的软件插件一样简单。这种设计大大降低了技术门槛和应用成本,使得研究者和开发者可以直接在现有的模型上应用这项技术。

在技术实现上,OmniZip采用了巧妙的设计来避免一些常见的技术障碍。比如,它不需要访问大语言模型内部的注意力矩阵,这意味着它可以与FlashAttention等现代优化技术完美兼容,不会引入额外的计算或内存开销。这种兼容性对于实际应用来说非常重要,因为大多数现代AI系统都依赖这些优化技术来提高效率。

OmniZip的动态压缩率分配算法也体现了设计的精巧。系统会根据预设的上下限范围动态调整每个时间窗口的压缩率,然后通过标准化过程确保总体压缩率严格符合设定的目标。这种设计既保证了压缩效果的可预测性,又提供了足够的灵活性来适应内容的变化。

在参数设置方面,研究团队也进行了细致的调优。比如,对于音频锚点整合中的合并令牌数量G,他们发现在音频为主导的任务中应该设置较大的值,而在音频视频相对平衡的任务中较小的值效果更好。这种根据任务特点进行调整的灵活性,使得OmniZip能够在不同的应用场景中都发挥出最佳效果。

六、广泛影响:从学术研究到实际应用的桥梁

OmniZip的意义远远超出了技术本身,它为全模态大语言模型的实际应用开辟了新的可能性。在当前AI技术快速发展的背景下,如何平衡模型性能与计算效率一直是制约技术普及的关键问题。OmniZip提供了一个优雅的解决方案,证明了通过巧妙的设计可以在几乎不损失性能的情况下大幅提升效率。

这项技术的应用前景非常广阔。在视频会议和在线教育领域,OmniZip可以帮助实时AI助手更高效地处理音视频内容,提供更流畅的交互体验。在内容创作和媒体制作领域,它可以加速视频分析和自动编辑的处理速度。在智能监控和安防领域,它可以让系统能够实时处理更多路的音视频流,提高监控效率。

从技术发展的角度来看,OmniZip开创了一个新的研究方向:跨模态信息引导的智能压缩。这种利用不同模态信息之间内在关联来优化处理效率的思路,可能会启发更多类似的创新。比如,未来可能会出现利用文本信息来指导图像压缩,或者利用手势信息来指导语音处理的技术。

研究团队也坦诚地讨论了当前技术的局限性。OmniZip主要针对离线处理场景设计,对于在线流式处理还需要进一步优化。此外,不同任务对音频和视频信息的依赖程度不同,如何自动适应这种变化也是未来需要解决的问题。不过,这些挑战同时也为后续研究指明了方向。

说到底,OmniZip代表了AI技术发展中一个重要的里程碑。它不仅解决了全模态大语言模型面临的效率问题,更重要的是展示了如何通过深入理解不同模态信息的内在关系来设计更智能的算法。这种"听懂了就能更好地看"的设计哲学,可能会在AI技术的发展中产生更深远的影响。随着这项技术的进一步完善和推广,我们有理由期待全模态AI助手能够更早地走进每个人的日常生活,为我们提供更加智能和高效的服务。这项来自浙大、西湖大学和蚂蚁集团联合团队的研究,无疑为这一美好前景的实现迈出了坚实的一步。

Q&A

Q1:OmniZip技术如何通过音频来指导视频压缩?

A:OmniZip就像一位经验丰富的影片剪辑师,它首先分析音频内容的重要性和信息密度,然后根据音频的重要程度来决定对应时间段的视频保留多少细节。当音频显示某个时段信息量很大时,会保留更多该时段的视频内容;当音频相对平淡时,就大胆削减对应的视频内容。

Q2:OmniZip压缩技术能提升多少处理速度?

A:在7B参数的Qwen2.5-Omni模型上,OmniZip能实现3.42倍的预填充阶段加速,整体推理速度提升1.42倍,同时内存消耗降低约10GB。更重要的是,在保留仅45%令牌的情况下,仍能维持99.1%的原始准确率。

Q3:普通开发者能直接使用OmniZip技术吗?

A:可以的。OmniZip最大的优势是完全不需要额外的训练过程,就像一个可以直接安装使用的软件插件。它可以与FlashAttention等现代优化技术完美兼容,研究者和开发者可以直接在现有的全模态大语言模型上应用这项技术。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1190175.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序员必看!COTA游戏AI架构大揭秘:从LLM大脑到毫秒级执行,这才是真正的“思考型“智能体!

不讲武德!游戏圈这回真是被AI抄家了。(doge) 这两天,一个ID名为**「快递员」**的神秘游戏账号引起全网围观。 51小时高强度排位,胜率一度逼近93%,直接碾压式登顶韩服LOL。 相关词条更是直冲热搜第一&…

Mastercam许可管理入门指南

在制造业中,Mastercam以其卓越的数控编程和加工功能成为行业中的佼佼者。然而,对于许多新用户或初次接触Mastercam的用户来说,许可管理可能是一个陌生的领域。本文旨在为您提供一份Mastercam许可管理的入门指南,帮…

【深度解析】2025大模型架构内卷升级!DeepSeek、Mistral、NVIDIA最新模型技术全攻略,小白也能看懂的LLM进化史

自最初的 GPT 架构被提出以来,已经过去了七年。乍一看,从 2019 年的 GPT-2 回顾,再展望 2024–2025 年的 DeepSeek V3 和 Llama 4,人们或许会惊讶地发现,这些模型在结构上依然高度相似。 比较不同的大语言模型&#x…

如何快速掌握PvZ Toolkit:游戏修改的终极指南

如何快速掌握PvZ Toolkit:游戏修改的终极指南 【免费下载链接】pvztoolkit 植物大战僵尸 PC 版综合修改器 项目地址: https://gitcode.com/gh_mirrors/pv/pvztoolkit 还在为植物大战僵尸中的资源不足而烦恼吗?PvZ Toolkit作为植物大战僵尸PC版的终…

油门刹车来回切换的ACC系统到底咋做的?今天咱们直接开撸Simulink+CarSim联合仿真。注意看这个PID控制模块的代码,老司机都爱这么玩

ACC自适应巡航控制模型simulink模型+carsim设置 可选购模型说明文件和操作说明(联系前请明确需求知识类商品出售不退)function [acc_cmd, mode_flag] ACC_Controller(v_ego, v_set, gap_actual, gap_target)persistent integral_error;if is…

[USACO09OPEN] Work Scheduling G

[USACO09OPEN] Work Scheduling G 依旧糖的要死 题目大意 总共 \(N\) 项工作,每个工作两个参数 \(D_i\)(截至日期) 和 \(P_i\)(所获利润),时间 \(0\) 开始,总共有 \(10^9\) 个时间单位。他目前可以从 \(N\) 项工…

救命!制造业AI Agent这么强?架构拆解+实战案例+ROI计算,一篇搞定!

双轨价值:为开发者解析Agent架构,为企业主量化投资回报 引言:制造业的认知革命 当AI从“感知”走向“决策”,AI Agent(人工智能代理)正成为智能工厂的“超级大脑”。它不再只是识别缺陷,而是理…

5分钟掌握AMD Ryzen处理器精准调优:SMU调试工具完全指南

5分钟掌握AMD Ryzen处理器精准调优:SMU调试工具完全指南 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://…

AI Agent架构保姆级教程:从“懵圈“到“精通“,四层闭环+四步路径,让你少走90%弯路

当前 AI Agent 的主流架构,普遍采用“分层式系统”设计,其核心包括: 以大模型为认知中枢,通过工具与记忆进行能力增强,再由 Agent 编排逻辑驱动执行环境,最终以产品化形态对外提供服务。这一分层已成为业界…

Linux性能排查实战:从“系统慢”到精准定位

大家好,我是刘叨叨,一个致力于让碎片化技术系统性的运维人。 监控大盘一片“绿色”,业务却喊“卡爆了”?别慌,今天分享一套直击要害的排查心法,让你快速把模糊的“系统慢”变成清晰的定位结论。 一、核心思路:先…

【硬核干货】大模型开发核心:预训练技术深度剖析,附完整代码实现!

在逐一熟悉各类主流 AI 应用场景:聊天交互、检索增强生成(RAG)知识库、网络搜索、工具调用、AI Coding等之后,接下来就是要进一步探究这些应用的核心支撑 —— 大语言模型(LLM, Large Language Model)的底层…

终极游戏手柄测试指南:零配置实时检测解决方案

终极游戏手柄测试指南:零配置实时检测解决方案 【免费下载链接】gamepadtest Gamepad API Test 项目地址: https://gitcode.com/gh_mirrors/ga/gamepadtest Gamepad API Test 是一款专为游戏开发者和玩家设计的轻量级手柄测试工具,能够实时可视化…

2026冷风机厂家权威推荐榜:奥德冷风机、工业冷风机、冷风机供应商及品牌实力解析

在工业制冷与通风领域,冷风机作为核心设备,其性能与稳定性直接影响生产效率与能耗成本。据行业数据显示,2025年国内冷风机市场规模已突破120亿元,年复合增长率达8.3%,其中工业冷风机占比超65%。面对市场需求的多元…

2026年学术论文降AI实战测评:谁是过关斩将的利器? - 品牌观察员小捷

步入2026年,学术界对AIGC的监管力度达到了前所未有的高度。随着各大期刊和高校将“AI率”列为与“查重率”同等重要的考核指标,毕业生们面临着严峻挑战。数据显示,超过七成的应届生在论文提交前都遭遇了AI检测超标的…

AI训练数据集供应商推荐:专业图片、视频、AI数据训练服务商精选 - 品牌2025

在人工智能模型训练如火如荼的今天,高质量、合规化的数据已成为决定项目成败的基石。无论是寻求AI训练图片素材供应商、AI训练视频素材供应商,还是更广泛的AI训练数据集供应商,企业面临的共同挑战是如何从海量信息中…

科研新范式:Claude 4.5 Sonnet 深度集成 Benchling,打通实验与写作全链路 - 147API

科研效率的瓶颈,很多时候不在“实验做不出来”,而在“做出来之后跑不成链路”。记录写在 Benchling,证据散在 PubMed,分析在脚本/表格里滚来滚去,最后写作又回到 Word/Overleaf:一旦项目变复杂,团队就会把大量时…

抖音内容高效下载攻略:告别水印困扰,轻松备份原创作品

抖音内容高效下载攻略:告别水印困扰,轻松备份原创作品 【免费下载链接】douyin-downloader 项目地址: https://gitcode.com/GitHub_Trending/do/douyin-downloader 还在为抖音视频的水印烦恼吗?想要批量下载学习素材却无从下手&#…

【CDA干货】5款神级AI数据分析工具,帮你搞定 80% 的工作难题!

在数字化运营的时代,AI已成为处理数据的更强大、高效且易于接近的解决方案。 AI 不仅改变了数据处理的速度和准确性,还极大地降低了数据分析的门槛,让普通用户也能轻松驾驭复杂的数据分析任务。 一、AI在数据分析中的应用 众所周知&#x…

2025上海不锈钢控制柜厂家推荐:专精特新+高新技术认证指南 - 品牌排行榜

一、上海不锈钢控制柜市场的产业升级窗口 根据中国电器工业协会发布的《2024年电气成套设备行业发展报告》,上海地区不锈钢配电箱制造厂家年产值突破320亿元,占全国市场份额的18.7%。随着新能源汽车、半导体制造、生…

Wekan开源看板:从入门到精通的完整实践指南

Wekan开源看板:从入门到精通的完整实践指南 【免费下载链接】wekan The Open Source kanban (built with Meteor). Keep variable/table/field names camelCase. For translations, only add Pull Request changes to wekan/i18n/en.i18n.json , other translations…