文章:Evolving, Not Training: Zero-Shot Reasoning Segmentation via Evolutionary Prompting
代码:https://github.com/AHideoKuzeA/Evol-SAM3
单位:厦门大学
一、问题背景:推理分割的三大核心痛点
推理分割的关键难点在于“语言-视觉-逻辑”的三重对齐,但现有主流方法始终无法突破以下瓶颈:
监督微调(SFT):“记了新的,忘了旧的”
传统SFT方法需要用大量标注数据训练特定任务,却存在严重的“灾难性遗忘”——训练完“医疗影像分割”后,再处理“家居场景分割”时,会丢失之前学到的特征;同时,它高度依赖领域数据,若换一个未见过的场景(如工业零件缺陷分割),准确率会骤降30%-50%,通用性极差。强化学习(RL):“奖励依赖症”与训练不稳定
RL方法试图通过“奖励函数”引导模型优化,但奖励函数的设计极具主观性——比如“分割准确率”和“边界完整性”的权重难以平衡,稍有调整就会导致训练震荡;此外,RL训练周期长、算力消耗大,且在复杂语言查询(多条件嵌套)下,容易出现“奖励误判”,反而降低分割精度。无训练方法:“一步到位”的静态陷阱
近期兴起的无训练方法虽避开了训练负担,却陷入“生成-然后分割”的单流程静态范式——模型只能根据初始提示生成一次分割结果,无法自我检查错误。比如遇到“找出桌子上不是蓝色的杯子”这类否定性查询时,容易误将蓝色杯子纳入结果;若图像中物体有遮挡(如“被书本挡住一半的笔记本电脑”),也无法修正空间定位偏差,推理深度严重不足。
二、方法创新:用“进化思维”重构推理分割逻辑
针对静态推理的局限,EVOL-SAM3提出了“推理时进化搜索”的全新框架——不依赖固定提示,而是让模型像生物进化一样,通过“生成-评估-进化”循环迭代优化提示假设,核心创新点可拆解为三大模块:
1. 动态提示池:告别“单一提示依赖”
不同于传统方法的“单提示输入”,EVOL-SAM3初始化一个包含10-20个“提示假设”的动态池(比如针对“红色椅子上的人”,提示池会包含“红色物体+人形区域”“椅子轮廓+人体关键点”等不同角度的提示),每个提示对应一个初步分割结果,为后续进化提供“基因多样性”。
2. 三大核心循环:模拟“自然选择”的优化逻辑
框架的核心是持续迭代的“生成-评估-进化”循环,每个环节都有针对性设计:
生成环节:基于当前提示池,调用SAM(Segment Anything Model)生成对应分割掩码,确保基础分割能力的可靠性;
评估环节:引入“视觉竞技场”——无需外部标签,而是让两个提示的分割结果“两两竞赛”,通过对比“语言查询匹配度”(如是否包含“红色”特征)和“空间完整性”(如是否完整覆盖“椅子”区域),自动打分筛选优质提示;
进化环节:设计“语义变异算子”——对高分提示进行微调(如将“红色”细化为“酒红色”“鲜红色”),同时补充新的候选提示,避免陷入局部最优,像生物变异一样保持提示池的多样性。
3. 异构竞技场:融合几何与语义的“最终裁判”
在循环末期,引入“异构竞技场”模块——不仅评估语义匹配度,还加入几何先验(如“人坐在椅子上”的空间位置关系:人体应在椅子上方,且两者边界有重叠),对剩余候选提示进行最终筛选,确保分割结果既符合语言逻辑,又符合现实世界的空间规律。
三、实验结果:零样本场景下超越全监督SOTA
研究团队在推理分割领域的权威基准ReasonSeg(包含家居、办公、户外等6类复杂场景,共1.2万张图像+3.5万条复杂语言查询)上开展实验,重点验证零样本性能(即模型未在ReasonSeg数据集上进行任何训练),结果远超现有方法:
从表格可见,EVOL-SAM3在零样本设置下,平均IoU不仅比无训练静态方法高8.6%-10.6个百分点,更直接超越了全监督SOTA方法(CoOp+SAM)4.2个百分点;尤其在“多条件嵌套”“否定性查询”等复杂任务中,准确率提升更为显著(比全监督方法高7.8个百分点)。
此外,在“遮挡场景”和“跨领域场景”(如训练数据为家居,测试数据为工业零件)的专项测试中,EVOL-SAM3的性能衰减率仅为8%-12%,而传统无训练方法衰减率高达25%-35%,充分证明其场景适应性。
四、优势与局限:客观看待“进化式”框架的价值
(一)核心优势
零样本通用性拉满
无需任何目标数据集的训练,即可直接应用于医疗、工业、家居等不同领域,解决了SFT“领域依赖”和RL“训练成本高”的痛点,落地门槛大幅降低。推理灵活性突破静态局限
通过“循环进化”实现自我修正,能处理否定句、多条件查询、物体遮挡等复杂场景,解决了传统无训练方法“一步错、步步错”的问题。无标注依赖,低成本落地
全程无需人工标注数据,仅依赖初始提示池和自动评估机制,尤其适合标注成本高的领域(如医疗影像、工业缺陷检测)。
(二)现存局限
推理速度较慢
“生成-评估-进化”循环需要迭代5-10轮,单张图像处理时间约为0.8-1.2秒,比静态方法(0.2-0.3秒)慢3-4倍,难以满足自动驾驶、实时监控等“毫秒级响应”场景。极端语言查询仍有短板
面对超复杂逻辑查询(如“找出在桌子左边、比花瓶高、且旁边有黑色钢笔的白色杯子”),语义变异算子可能无法覆盖所有条件,导致分割准确率下降至60%左右。提示池初始化依赖经验
初始提示池的数量(10-20个)和类型需要人工设定,若初始化不当(如提示方向单一),会增加进化迭代次数,影响效率。
五、一句话总结
EVOL-SAM3通过“进化式推理框架”,在零样本推理分割任务中突破静态方法局限,不仅超越全监督SOTA,还具备跨领域适应性,虽在推理速度和极端查询处理上仍需优化,但为低成本落地复杂视觉任务提供了全新思路。