赫瑞-瓦特大学发布Script:让多模态大模型“瘦身“的新方法

在人工智能飞速发展的今天,能够同时理解图片和文字的多模态大语言模型(MLLMs)正在改变我们与机器交流的方式。不过,这些先进模型有个让人头疼的问题——运行起来实在太"吃资源"了,特别是处理高清图片时更是如此。最近,来自英国赫瑞-瓦特大学的研究团队在《机器学习研究汇刊》2025年11月刊上发表了一项突破性研究,提出了名为"Script"的创新方法,可以让这些"贪吃"的模型变得更加高效。这项研究的主要作者包括杨仲宇、许丹农、庞伟和袁英芳等学者,他们开发的这套系统就像是给模型配备了一副"智能眼镜",能够精准识别出图像中哪些部分真正重要,哪些可以安全删除。

想要理解这项研究的意义,我们可以把多模态大模型比作一位非常博学但有些"强迫症"的图书管理员。当你问这位管理员一个问题时,比如"这张照片里有没有苹果?",他会把整张照片拆解成成千上万个小块(专业术语叫"视觉令牌"),然后逐一仔细检查每一块,哪怕是完全不相关的背景墙角或者模糊的阴影。这种"事无巨细"的工作方式虽然确保了准确性,但也导致了巨大的计算负担——就像用放大镜检查每一粒沙子来寻找钻石一样效率低下。

赫瑞-瓦特大学的研究团队发现,目前的视觉令牌修剪方法存在两个核心问题。第一个问题是现有方法往往忽略了用户具体问什么——就好比一个人无论你问什么问题,都用同样的方式整理房间,完全不考虑你到底在找什么东西。第二个问题是这些方法容易被"注意力陷阱"误导,可能会错误地认为某些显眼但不相关的东西很重要,而忽略了真正回答问题所需的关键信息。

为了解决这些问题,研究团队开发了Script方法,这个名字实际上是"Graph-Structured and QueRy-CondItioned Token Pruning"的缩写。Script的工作原理就像是一位经验丰富的图片编辑师,具备两项核心技能。

一、结构化图像分析:让冗余信息无处遁形

Script的第一个核心组件叫做"图结构修剪"(GSP),它的作用就像是一位擅长发现重复模式的侦探。当面对一张图片时,这位"侦探"不会盲目地检查每一个像素,而是会智能地构建一张"相似性地图",找出那些看起来几乎一模一样的区域。

比如说,当你拍摄一片蓝天时,天空中的大部分区域其实都是相似的蓝色,传统方法可能会把每一小块天空都当作独立的信息来处理,但Script会识别出这些区域的高度相似性。研究团队采用了一种巧妙的"二分图"结构来组织这些视觉信息,就像是将图片中的所有小块分成两个队伍,让它们互相"对话",通过计算相似度来判断哪些信息是多余的。

这种方法的聪明之处在于它不仅能发现局部的重复(比如连续的天空区域),还能识别远距离的相似模式(比如散布在画面不同角落的相似纹理)。通过这种方式,Script能够在保持图像重要信息的同时,大幅减少需要处理的数据量。在实际测试中,这种方法能够减少75%的计算成本,同时几乎不影响最终的识别准确性。

二、查询感知的智能筛选:精准定位关键信息

Script的第二个核心组件被称为"查询条件语义修剪"(QCSP),这就像是为模型配备了一位贴心的私人助理。当你问"这张照片里有没有猫?"时,这位助理不会浪费时间去分析天空或者墙壁,而是会专注于那些可能出现猫咪的区域。

这个系统的工作原理相当精巧。它首先会"理解"你的问题,把问题转换成一种数字化的"查询指纹"。然后,它会用这个指纹去"扫描"图片中的每一个区域,计算每个区域与你的问题的相关性得分。就像是用磁铁吸引铁屑一样,相关性高的区域会被强烈"吸引",而不相关的区域则会被忽略。

但这里有个巧妙的设计:系统不只是简单地挑选相关性最高的区域,而是会使用一种叫做"行列式点过程"(DPP)的数学方法,确保选出的区域既与问题相关,又互相之间具有足够的多样性。这就好比在选择一个均衡的饮食搭配时,你不仅要考虑营养价值,还要确保食物种类的多样性。这种设计防止了系统过度关注某个特定区域而遗漏其他重要信息的问题。

三、协同工作机制:两个系统的完美融合

Script最令人印象深刻的地方在于它如何巧妙地将这两个系统结合在一起。就像是在做菜时既要考虑营养搭配又要考虑色香味的平衡一样,Script需要在去除冗余信息和保留关键信息之间找到最佳平衡点。

具体来说,系统首先会使用图结构修剪来识别和移除那些明显冗余的视觉信息,这就像是先把菜品中明显的杂质挑出来。接着,查询条件语义修剪会根据用户的具体问题来精选最相关的视觉内容,就像是根据食客的口味偏好来调整最终的调料搭配。

这两个过程的结合产生了一种协同效应。图结构修剪确保了整体的效率,而查询条件修剪保证了精确性。更重要的是,当这两个系统选出的区域有重叠时,系统会优先保留这些"双重认可"的区域;而当重叠不够时,系统会智能地从查询相关的区域中补充,确保满足用户问题的回答需求。

四、实际效果验证:数字说话的时刻

研究团队在14个不同的图像和视频理解任务上测试了Script的效果,结果令人印象深刻。在使用LLaVA-NeXT-7B模型的测试中,Script能够实现高达6.8倍的预填充加速和10倍的浮点运算减少,同时仍然保持96.88%的原始性能。这就好比一辆汽车在减重一半的情况下,不仅跑得更快了,而且几乎没有损失动力性能。

更具体地说,当Script将视觉令牌数量减少88.9%时(相当于把1000个信息块减少到只有111个),整个系统的表现仍然能保持在原始水平的99.88%。这种效率提升不是通过牺牲准确性来实现的,而是通过更智能的信息筛选策略。

在与其他现有方法的比较中,Script始终表现出色。例如,在保留相同数量视觉令牌的情况下,Script在多个基准测试中的表现都超过了FastV、TRIM、VisionZip等竞争方法。特别值得注意的是,即使在极端的修剪条件下(保留97.3%的令牌被删除),Script仍能维持89.51%的准确率,而其他方法的准确率普遍降至80%以下。

五、技术细节与创新突破

Script方法的一个重要创新在于它采用了"免训练"的设计理念,这意味着用户可以直接将这套方法应用到现有的多模态大模型中,无需进行任何额外的训练或模型改造。这就像是一个即插即用的效率提升器,大大降低了实际应用的门槛。

在处理视觉冗余时,研究团队通过大量实验发现,图像中的相似性不仅存在于相邻的区域,长距离的区域之间也经常存在相似模式。基于这一发现,他们设计的二分图结构能够同时捕捉局部和全局的冗余信息。实验数据显示,与传统的相似性计算方法相比,这种方法能够在保持93%一致性的同时,将计算时间减少近3倍。

在查询感知机制方面,研究团队巧妙地利用了行列式点过程的数学特性。这种方法能够确保选择的视觉区域不仅与查询高度相关,而且彼此之间保持足够的多样性,避免了信息的过度集中。通过理论分析,研究人员证明了这种方法在数学上等价于最大化所选区域张成的几何体积,从而在保证相关性的同时实现了信息的最大化覆盖。

六、应用前景与实际影响

Script方法的推出对整个人工智能领域具有重要意义。首先,它显著降低了部署高性能多模态模型的硬件要求,这使得更多的中小型企业和研究机构能够负担得起这些先进技术的应用成本。就像是把原本只有大型超市才能承担的高端设备,变成了小商店也能使用的实用工具。

对于移动设备和边缘计算场景来说,这项技术的价值更是不言而喻。智能手机、平板电脑等设备的计算资源相对有限,传统的多模态大模型往往无法在这些设备上流畅运行。但有了Script,这些设备也能够提供接近桌面级别的智能图像理解服务,为普通用户带来更好的体验。

在实际应用中,Script已经展现出了广泛的适用性。无论是视觉问答、图像描述生成,还是视频内容分析,这套方法都能显著提升处理效率。特别是在需要实时处理大量视觉内容的场景中,比如智能监控、自动驾驶或者在线教育等领域,Script都能发挥重要作用。

研究团队还特别测试了Script在视频处理方面的效果。当处理包含64帧的视频时,Script能够将每帧的视觉令牌从169个减少到16个(减少90.5%),同时保持89.30%的准确率。这种效率提升对于视频分析应用来说意义重大,因为视频处理的计算需求通常比静态图像高出几个数量级。

七、技术局限与未来展望

尽管Script展现出了令人瞩目的效果,但研究团队也诚实地指出了当前方法的一些局限性。首先,这种方法需要直接访问模型的中间视觉特征,这意味着它主要适用于开源的多模态大模型,而无法直接应用于像ChatGPT、Gemini等封闭式商业模型。

另外,目前的评估主要集中在视觉-语言任务上,对于涉及音频、深度感知或其他传感器数据的多模态任务,Script的适用性还需要进一步验证和改进。研究团队认为,未来的工作将会扩展到这些更复杂的多模态场景。

研究团队还发现,一些最新的高级开源模型(如Qwen2.5-VL和InternVL3)对视觉令牌修剪比较敏感,这可能是因为这些模型已经内置了一些视觉压缩技术。如何针对这些已经优化过的模型进行进一步的效率提升,将是未来研究的重要方向。

在阈值选择方面,虽然研究显示Script在较宽的参数范围内都表现稳定,但目前仍需要手动设置相似性阈值。研究团队正在探索自动化或基于学习的阈值选择策略,这将进一步提升方法的实用性和通用性。

说到底,Script代表了多模态大模型优化领域的一个重要突破。它不仅解决了当前模型计算效率低下的实际问题,更重要的是提出了一种全新的思路——通过智能的信息筛选而非简单的模型缩减来实现效率提升。这种方法既保持了模型的强大能力,又大幅降低了使用成本,为人工智能技术的普及应用铺平了道路。

对于普通用户来说,这项技术的普及意味着未来我们能够在更多的设备和场景中享受到高质量的智能图像理解服务,而不需要为此承担高昂的计算成本。对于技术开发者来说,Script提供了一个即插即用的优化方案,能够让现有的应用系统获得显著的性能提升。这种技术进步的累积效应,最终将推动整个人工智能产业向着更加高效、普惠的方向发展。

有兴趣深入了解这项研究技术细节的读者,可以通过论文编号"arXiv:2512.01949v1 [cs.CV]"查找完整的研究论文,其中包含了详细的实验数据、技术实现和理论分析。

Q&A

Q1:Script方法是什么?

A:Script是由赫瑞-瓦特大学开发的一种智能图像压缩技术,专门用于优化多模态大语言模型的运行效率。它能够智能识别图像中的冗余信息并根据用户问题精准保留关键内容,在大幅减少计算量的同时几乎不影响模型准确性。

Q2:Script能带来多大的效率提升?

A:在测试中,Script可以实现高达10倍的计算量减少和6.8倍的处理速度提升,同时保持96.88%的原始性能。即使删除88.9%的视觉信息,系统准确率仍能保持在99.88%的水平。

Q3:普通用户能否使用Script技术?

A:目前Script主要适用于开源的多模态大模型,技术开发者可以直接集成使用,无需额外训练。对于普通用户,随着这项技术的推广,未来将能在手机、平板等设备上体验到更快速、更流畅的AI图像理解服务。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1129633.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

越周期·树标杆|金牌整家大家居“四保双共·共巡查”工地直播成效

在装修行业长期存在的“信息不对称、施工不透明、质量难追溯”三大痛点下,金牌整家大家居以创新者姿态,于2025年6月重磅推出“四保双共共巡查”工地直播行动。通过“装企金牌”双主播模式,成功打造“工地透明化”行业标杆,实现品牌…

为什么多人解析效果差?M2FP的拼图算法如何提升可视化精度

为什么多人解析效果差?M2FP的拼图算法如何提升可视化精度 🧩 多人人体解析的挑战:从“看得见”到“分得清” 在计算机视觉领域,人体解析(Human Parsing) 是一项比通用语义分割更精细的任务——它不仅要求识…

基于ensp的酒店网络规划与仿真(源码+万字报告+讲解)(支持资料、图片参考_相关定制)

摘 要 随着酒店行业信息化发展,稳定高效的网络架构已成为提升客户体验与运营效率的核心需求。本文针对某酒店网络升级需求,基于eNSP仿真平台设计并实现了一套涵盖有线无线融合、多业务隔离与安全防护的完整网络解决方案。首先通过实地调研分析酒店网络的…

百度翻译API费用高?开源方案年省8万元真实账单

百度翻译API费用高?开源方案年省8万元真实账单 📖 项目简介 在多语言内容爆发式增长的今天,高质量的中英翻译已成为企业出海、学术交流、技术文档本地化等场景中的刚需。然而,商业翻译服务如百度翻译API、Google Cloud Translatio…

M2FP模型API设计最佳实践

M2FP模型API设计最佳实践 🧩 M2FP 多人人体解析服务:从模型能力到接口落地 在当前计算机视觉应用日益深入的背景下,细粒度语义分割已成为智能交互、虚拟试衣、动作分析等场景的核心支撑技术。M2FP(Mask2Former-Parsing&#xff09…

政府信息公开翻译:高效合规的AI辅助方案

政府信息公开翻译:高效合规的AI辅助方案 🌐 AI 智能中英翻译服务 (WebUI API) 📖 项目简介 本镜像基于 ModelScope 的 CSANMT (神经网络翻译) 模型构建,专为政府信息公开场景下的中英翻译需求设计。系统提供高质量、低延迟的中文…

UNC与Adobe联手突破:AI系统实现意图理解与行为预知

如果有一台设备能够准确读懂你的眼神,知道你在看什么、想什么,甚至能预测你下一步要做什么,这听起来是不是像科幻电影里的情节?现在,这个看似遥不可及的技术正在成为现实。来自北卡罗来纳大学教堂山分校和Adobe研究院的…

乐鑫ESP32-S3-BOX-3,面向AIoT与边缘智能的新一代开发套件

乐鑫信息科技推出的ESP32-S3-BOX-3,是一款旨在服务于人工智能物联网(AIoT)、边缘AI及工业物联网(IIoT)领域的开发套件。它基于高性能的ESP32-S3系统级芯片构建,并通过集成丰富的硬件接口与模块化配件系统&a…

是否该选通用大模型做翻译?CSANMT专用模型优势解析

是否该选通用大模型做翻译?CSANMT专用模型优势解析 📌 引言:当翻译遇上AI,我们真正需要的是什么? 在当前大模型席卷各行各业的背景下,越来越多开发者和企业倾向于使用通用大语言模型(LLM&…

基于机器学习的音乐数据分析及歌单推荐(源码+万字报告+讲解)(支持资料、图片参考_相关定制)

摘要 本文旨在探讨基于机器学习的音乐数据分析及歌单推荐方法。随着音乐产业的快速发展,个性化音乐推荐系统已成为满足用户多样化音乐需求的关键技术。本研究首先综述了机器学习在音乐推荐中的应用现状,以及音乐数据分析的主要方法和技术。详细描述了数据…

上海交大破解视频AI实时处理难题:让智能助手“眼疾手快“不再是梦

当你戴上智能眼镜观看直播体育赛事时,是否希望AI助手能立即告诉你刚才发生了什么精彩瞬间?当你通过视频通话与朋友聊天时,是否期待AI能实时理解你们的对话内容?这些看似简单的需求,背后却隐藏着巨大的技术挑战。这项由…

模型解释性研究:可视化M2FP的决策过程

模型解释性研究:可视化M2FP的决策过程 📌 引言:为何需要理解M2FP的决策逻辑? 在计算机视觉领域,语义分割模型如 M2FP (Mask2Former-Parsing) 已成为人体解析任务的核心工具。尤其在多人场景下,精准识别每…

微服务架构整合:作为独立翻译服务模块接入SOA体系

微服务架构整合:作为独立翻译服务模块接入SOA体系 📌 引言:为何需要将AI翻译服务独立化? 在现代企业级系统中,多语言内容处理已成为全球化业务的刚需。无论是用户生成内容(UGC)的自动翻译&#…

AI智能翻译镜像上线:开源可部署,CPU也能跑的中英翻译API

AI智能翻译镜像上线:开源可部署,CPU也能跑的中英翻译API 🌐 AI 智能中英翻译服务 (WebUI API) 在跨语言交流日益频繁的今天,高质量、低延迟的自动翻译工具已成为开发者、内容创作者和企业用户的刚需。然而,许多现有…

基于深度神经网络的音乐 推荐系统设计与实现(源码+万字报告+讲解)(支持资料、图片参考_相关定制)

前 言 21世纪是信息化时代,随着信息技术和网络技术的发展,与人们的日常生活早已建立了离不开的联系。对网络音乐服务来说,不管是音乐下载服务,或者是网络音乐电台服务,都需要用到优秀的内容推荐系统去辅助整个系统。个…

零基础搭建人体解析服务:M2FP WebUI界面操作全攻略

零基础搭建人体解析服务:M2FP WebUI界面操作全攻略 🌟 为什么需要多人人体解析? 在计算机视觉领域,人体解析(Human Parsing) 是语义分割的一个精细化分支,目标是将图像中的人体分解为多个具有明…

六大主流CRM品牌深度横评:从销售跟踪到打单的全流程能力对比

在数字化销售时代,CRM系统已从“客户信息存储工具”进化为“销售全流程引擎”。企业选择CRM的核心诉求,是通过系统能力优化“线索-跟踪-报价-签约-打单”全链路效率,最终提升转化率与客户 Lifetime Value(LTV)。本文选…

首个智能指令自动优化系统:剑桥大学让AI自己学会写更好的指令

随着人工智能技术的飞速发展,如何让AI更好地理解和执行人类指令已成为一个关键挑战。最近,剑桥大学语言技术实验室的韩周、邢晨万等研究人员,联合牛津大学机器学习研究团队,在2025年12月发表了一项突破性研究成果。这项名为"…

基于用户情感分析的音乐个性化推荐研究(源码+万字报告+讲解)(支持资料、图片参考_相关定制)

目 录 摘要 2 Abstract. 3 一、引言 3 (一)研究背景 3 (二)研究意义 4 二、文献综述 5 (一)用户情感分析 5 (二)个性化推荐 5 三、基于用户情感分析的音乐个性化推荐模型 6 &#xf…

轻量模型新标杆:CSANMT在精度与速度间找到平衡点

轻量模型新标杆:CSANMT在精度与速度间找到平衡点 🌐 AI 智能中英翻译服务(WebUI API) 随着全球化进程的加速,高质量、低延迟的机器翻译需求日益增长。尤其是在跨语言交流、内容本地化和智能客服等场景中,中…