厦门大学突破:多模态模型进入“推理进化”时代,7B小模型的大逆袭

Datawhale干货

作者:厦门大学MAC团队

在多模态大模型(MLLM)的研究浪潮中,我们似乎习惯了一种固定的“暴力美学”:想要模型掌握新技能,就必须投入昂贵的算力进行全量微调(SFT)或强化学习(RL)。然而,来自厦门大学多媒体可信感知与高效计算重点实验室的研究团队,在其最新工作中提出了一个反直觉的命题:也许我们根本不需要训练模型,只需要让模型的推理过程“进化”起来。

这篇题为《Evolving, Not Training》的研究,提出了一种名为EVOL-SAM3的零样本框架。它并未遵循传统的参数更新路线,而是通过扩展推理时计算(Inference-time Computation),在不更新任何参数的情况下,仅凭 7B 模型就在多个基准测试中超越了经过全量微调的 13B 模型,甚至逆袭了 72B 参数量的基线模型。

一、告别“死记硬背”,拥抱动态搜索

长期以来,指代分割(Reasoning Segmentation)任务面临着两难困境。SFT 方法虽然有效,但本质上是强行让模型“记住”特定的图文对齐关系,这不仅成本高昂,还容易导致模型丧失通用的常识推理能力(灾难性遗忘)。而现有的免训练 Agent(如 SAM3 Agent),虽然保留了通用能力,却受限于线性的“单向推理”模式——一旦初始理解出现偏差,模型缺乏回溯或自我修正的机制,往往只能输出错误结果。

EVOL-SAM3 选择了一条截然不同的道路。研究团队认为,对于复杂的视觉语义,最优的提示词(Prompt)往往不是一次生成的,而是可以通过在潜在空间中进行搜索和优化得到的。受生物进化论的启发,该框架将静态的推理过程重构为一个动态的“生成-评估-进化”闭环。

图 1:EVOL-SAM3 框架概览。包含初始化、进化推理循环及最终仲裁三个阶段。

二、像生物进化一样思考

EVOL-SAM3 的核心机制模拟了自然界的“优胜劣汰”。面对一个模糊的用户查询(例如“找出那个滑雪的人”),系统不再草率地给出一个定论,而是首先进行语义元规划。模型利用 MLLM 作为元生成器,结合图像内容,从颜色、纹理、空间位置等多个维度发散思维,生成一个多样化的初始提示词种群(Population)。

随后的进化推理循环是整个框架的精髓所在。在没有标准答案(Ground Truth)的推理阶段,如何判断生成的分割掩膜好不好?研究团队利用了 MLLM “判别能力强于生成能力”的特性,构建了一个视觉竞技场(Visual Arena)。在这个竞技场中,不同的提示词生成的掩膜进行两两 PK,MLLM 化身裁判,根据原始查询判断哪一个结果更精准。

胜出的“精英”提示词会获得生存权,并接受语义突变(Semantic Mutation)。这并非简单的随机字符扰动,而是逻辑上的升级——例如,模型可能会将“右边的人”自动进化为“最右边穿绿衣服的男性”,从而引导搜索方向一步步逼近真相。

为了防止纯文本推理可能产生的语义幻觉,框架还引入了异构最终仲裁机制。系统将进化出的“文本推理掩码”与大模型直觉生成的“几何检测框”进行最终对决。通过一种巧妙的双盲切换判定机制,系统能够有效消除模型的位置偏见,确保最终输出既具备语义深度,又拥有几何上的鲁棒性。

三、小参数的大逆袭:7B vs 72B

实验数据有力地证明了这种新范式的有效性。在极具挑战性的ReasonSeg基准测试中,EVOL-SAM3 (7B)取得了70.7 gIoU的成绩。这个数字的含金量在于,它在零样本、无训练的前提下,直接超越了经过全量监督微调的经典模型LISA-13B (65.0 gIoU)。这表明挖掘冻结模型的推理潜力,是一条比昂贵的微调更具性价比的路径。

实验数据最有趣的部分,在于 EVOL-SAM3 与其直接基线SAM 3 Agent的对比。这是一个极具说服力的“控制变量”实验:两者使用完全相同的冻结底座(Qwen2.5-VL)和完全相同的执行器(SAM 3),唯一的区别在于推理机制——是线性的“试错”,还是进化的“搜索”?

1. 相同体量下的碾压级优势(7B vs 7B)当我们将参数量限制在 7B 时,SAM 3 Agent 仅能获得 63.0 gIoU 的测试集成绩。而仅仅是引入了进化搜索机制的 EVOL-SAM3,在不增加任何模型参数的情况下,将这一分数直接拉升至72.5 gIoU。高达9.5 个点的性能跃升,充分证明了线性推理在处理复杂语义时的局限性,以及进化算法在挖掘模型潜在能力上的巨大效率。

2. 小模型逆袭超大模型(7B vs 72B)更令人深思的是一场“大卫与歌利亚”的战役。通常认为,大模型的参数量是性能的护城河。然而,EVOL-SAM3 打破了这一定律:仅有7B参数的它,竟然在 ReasonSeg 测试集上击败了拥有十倍参数量的 **SAM 3 Agent (72B)**(72.5 vs 70.8 gIoU)。

这种反超在长难句(Test Long)场景下尤为剧烈。SAM 3 Agent 72B 在面对复杂长文本时得分为 71.0,而 EVOL-SAM3 7B 则达到了74.3。这揭示了一个深刻的结论:在复杂的视觉推理任务中,盲目堆砌参数并非唯一出路;通过推理时计算来提升思维的广度与深度,往往能以更小的代价实现更优的智能涌现。

下表展示了 EVOL-SAM3 与现有 SOTA 方法在 ReasonSeg 基准上的详细对比:

表 1:ReasonSeg 基准测试结果。EVOL-SAM3 刷新了同模型大小下的 Training-Free 方法的最佳记录。

更令人印象深刻的是与同类 Agent 的对比。基线模型SAM3 Agent即使动用了72B的超大参数版本,在测试集上也仅获得 70.8 gIoU。而 EVOL-SAM3 仅凭7B参数就达到了72.5 gIoU,实现了对“参数堆砌”路线的反超。特别是在处理长难句查询时(Test Long),EVOL-SAM3 的优势更加明显,达到了74.3 gIoU,显著优于 GPT-4o 驱动的 RSVP 模型。

定性分析也佐证了这一优势。在面对如“找出划船需要的物体”这类功能性描述时,基线模型容易被显眼的“船”带偏,而 EVOL-SAM3 通过进化循环成功修正了注意力,精准分割出了细小的“船桨”。

四、结语

EVOL-SAM3 的成功,本质上是Scaling Inference-time Computation(扩展推理时计算)理念的一次胜利。它告诉我们,在算力资源有限、标注数据昂贵的现实下,与其盲目追求更大的参数量,不如赋予模型在推理阶段“多想一步、自我修正”的能力。这种无需训练、即插即用的进化范式,或许正是通往更通用、更灵活的视觉智能体的关键钥匙。


一起“赞”三连

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1156025.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【复现】MFAC无模型自适应控制CFDL+PFDL+FFDL三个非线性系统动态线性研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

Java 提供了丰富的数据结构来处理和组织数据【1】

Java 的 java.util 包中提供了许多这些数据结构的实现,可以根据需要选择合适的类。 以下是一些常见的 Java 数据结构: 数组(Arrays) 数组(Arrays)是一种基本的数据结构,可以存储固定大小的相…

Keil uVision5嵌入式C开发:新手教程(从零配置环境)

从零开始搭建 Keil uVision5 嵌入式开发环境:新手也能看懂的实战指南 你是不是也曾经面对一块 STM32 开发板,手握资料却无从下手?打开 Keil 看着一堆弹窗和选项,心里直打鼓:“这玩意儿到底怎么用?”别急—…

【倒计时一天】2025第八届金猿大数据产业发展论坛——暨AI InfraData Agent趋势论坛丨颁奖典礼·上海

第八届金猿颁奖典礼“重要提示➩ 活动报名&现场签到有好礼,先到先得点此小程序链接可报名参会大数据产业创新服务媒体——聚焦数据 改变商业数智产业正站在变革的临界点上。过去十年,大数据从技术概念演进为基础设施,完成了产业奠基&…

搞定NPU推理加速实战

💓 博客主页:借口的CSDN主页 ⏩ 文章专栏:《热点资讯》 NPU推理加速实战:突破边缘智能的效率瓶颈目录NPU推理加速实战:突破边缘智能的效率瓶颈 引言:为什么NPU推理加速是AI落地的生死线 一、现在时&#xf…

了解Java 数据结构【1】

Java 提供了丰富的数据结构来处理和组织数据。 Java 的 java.util 包中提供了许多这些数据结构的实现,可以根据需要选择合适的类。 以下是一些常见的 Java 数据结构: 数组(Arrays) 数组(Arrays)是一种基…

Matlab实现图正则化稀疏编码(GraphSC)算法详解

稀疏编码(Sparse Coding)是一种经典的无监督表示学习方法,它通过学习一组过完备基(字典),将输入信号表示为这些基的稀疏线性组合,在图像去噪、特征提取和压缩感知等领域表现出色。然而,传统稀疏编码仅关注单个样本的重构误差,忽略了样本之间的内在几何关系,导致在流形…

智能穿戴OLED显示方案:SSD1306中文手册系统学习

智能穿戴设备的“眼睛”:从零吃透SSD1306 OLED驱动芯片你有没有想过,为什么一块小小的智能手环,能在不换电池的情况下连续显示一周?为什么它的屏幕那么薄、视角那么宽,即使在阳光下也能看清时间?答案&#…

javascript数据类型转换-转换为数字型

第一种转换方式,使用Number语法是Number(数据或者存储数据的变量)let a 12 console.log(Number(a),typeof Number(a))如果是不能转换的类型,返回值是NaN如果内容是空,返回值是0如果转换的是布尔值,true返回1,false返回…

基于实际项目的PCB布局布线思路:初级应用示范

从一块电机驱动板看懂PCB布局的底层逻辑最近带一个新人做项目,他画完第一版直流电机驱动板后兴奋地拿给我看:“功能都连上了!”可一上电问题就来了:MCU时不时复位、RS485通信在电机启动时直接中断、编码器计数跳变严重……最后还是…

麒麟V10-ARM架构Docker启动报错

麒麟V10,ARM架构,docker版本20.10.24,docker-compose版本1.17.1,使用docker-compose up -d启动报如下错误Cannot start service : failed to create shim task: OCI runtime create failed: container_linux.go:328: starting con…

项目应用中c++ spidev0.0 read值为255的解决方案

当/dev/spidev0.0读出全是255?一文搞懂SPI通信中的“假高电平”陷阱在做嵌入式Linux项目时,你有没有遇到过这种情况:明明代码写得清清楚楚,打开/dev/spidev0.0、调用read()函数去拿传感器数据,结果返回的每一个字节都是…

批量 roi 目录 roi

roi_dir.pyimport globimport cv2 import numpy as np import json import osclass ROIDrawer:def __init__(self, image_o, label"tiaosheng"):self.drawing Falseself.ix, self.iy -1, -1self.rois [] # 存储多个ROIself.image_o image_oself.image self.ima…

三种神经网络BP-PID、RBF-PID、单神经元自适应优化PID算法对比仿真(程序+参考资料)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

零基础入门:理解AUTOSAR中DIO驱动配置

零基础也能懂:AUTOSAR中DIO驱动配置的“人话”指南你有没有遇到过这样的情况?换了个MCU芯片,原本好好的LED控制代码突然不亮了——不是灯坏了,而是GPIO引脚变了。于是你只能翻数据手册、查寄存器、改代码……一通操作下来&#xf…

LVGL移植实战案例:配合DMA2D加速GUI绘制

让LVGL在STM32上“飞”起来:DMA2D加速GUI绘制实战详解你有没有遇到过这样的场景?辛辛苦苦用LVGL搭好了界面,按钮、滑动条、图表一应俱全,结果一滑动就卡顿,动画像幻灯片一样一帧一卡。打开调试器一看,CPU占…

Cortex-M浮点单元(FPU)使用指南:新手必看示例

掌握Cortex-M的浮点加速引擎:FPU实战全解析你有没有遇到过这种情况?在STM32上跑一个FFT,采样率刚到48kHz,处理器就满负荷运转;或者写了个PID控制器,参数一调精,系统就开始抖动——不是算法有问题…

模糊PID与PID控制simulink仿真比较(Simulink仿真实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

ST7789V硬件时序详解:系统学习初始化流程

深入ST7789V:从硬件时序到初始化流程的系统性解析在嵌入式显示开发中,点亮一块屏幕看似简单——接上电源、写几条命令、刷点颜色。但当你真正动手时,却常常遇到花屏、黑屏、白屏、颜色错乱等问题。这些问题的背后,往往不是代码写错…

Proteus8.9下载安装教程:小白指南(含资源获取渠道)

从零开始安装 Proteus 8.9:工程师亲测的实战避坑指南你是不是也曾在深夜对着“License Not Found”弹窗抓耳挠腮?是不是下载了十几个G的安装包,点开却提示“缺少 VDM 引擎”?又或者,好不容易装上了,仿真时单…