10B超越Gemini-2.5-Pro!阶跃星辰端侧多模态天花板开源

阶跃星辰多模态智能团队刚刚开源了STEP3-VL-10B多模态模型。

它仅有100亿参数,却在数学推理、视觉感知及复杂指令遵循等前沿能力上,不仅超越了同量级模型,更在多项基准测试中比肩甚至击败了参数量大其10至20倍的庞然大物,如GLM-4.6V-106B与Qwen3-VL-235B,以及Gemini-2.5-Pro等闭源旗舰模型。

STEP3-VL-10B在多模态推理与感知任务上展现出超越千亿参数模型的惊人性能,源于极致的数据质量与并行协同推理机制。

十亿级参数的智能效率边界

只要设计得当,轻量级模型完全能够承载前沿水平的多模态智能,为高效部署与端侧应用打开了全新的想象空间。

STEP3-VL-10B的成功,源于对模型架构与训练策略的精准重构。

该模型的核心架构由一个经过语言对齐优化的18亿参数感知编码器与Qwen3-8B解码器组成,两者通过一个执行16倍空间下采样的投影器紧密连接。

这种设计巧妙地利用了感知编码器对语言特征的预先适应性,避免了传统视觉骨干网络在多模态训练初期因模态鸿沟导致的收敛缓慢问题。

投影器通过两层步长为2的卷积层将视觉Token进行压缩,既保留了关键的语义信息,又极大地降低了计算负担。

为了捕捉图像中的细微末节,模型采用了一种多裁剪策略,将输入图像分解为全局视图与多个局部裁剪视图,利用批处理维度的并行性规避了变长序列打包带来的复杂性,并通过添加换行符Token来编码空间结构,使得模型能够像阅读文章一样阅读图像。

数据是塑造模型智能的基石,STEP3-VL-10B在预训练阶段便引入了1.2万亿的高质量多模态Token,构建了一个覆盖广泛且密度极高的知识图谱。

研发团队并未简单地从网络上抓取数据,而是实施了极高标准的清洗与筛选策略。

针对交错图文数据,团队利用内部爬虫StepCrawl专注于抓取高质量的国内互联网内容,并剔除下载失败率高、含有二维码或长宽比极端的噪声数据。

在图文对数据的构建上,通过CLIP聚类进行概念平衡重采样,有效缓解了长尾概念的数据稀缺问题。

更具匠心的是,团队针对教育、OCR(光学字符识别)、GUI(图形用户界面)等关键领域构建了专门的数据集。

例如,在教育领域,收集了涵盖K-12至成人教育的1500万条样本,包括数理化公式、几何图形及试卷真题;在OCR领域,构建了包含真实场景与合成数据的庞大语料库,甚至涵盖了Markdown、LaTeX代码与图表转换任务。

这种对特定领域数据的精细化雕琢,为模型在后续处理复杂文档、图表理解及屏幕代理任务时奠定了坚实的认知基础。

全参数解冻训练

传统的视觉语言模型训练往往倾向于冻结视觉编码器以节省资源,但STEP3-VL-10B选择了一条更为艰难但收益更高的道路,即实施单阶段、全参数解冻的预训练策略。

在37万步的迭代中,感知编码器与语言解码器始终保持同步更新,这种深度耦合使得视觉特征与语言表征在底层逻辑上实现了真正的融合。

为了平衡训练规模与数据质量,团队采用了一种两阶段学习率调度策略。

在前9000亿Token的训练中,学习率缓慢衰减以强调广泛的表征学习;而在剩余的3000亿Token阶段,通过引入更高质量的数据混合并将学习率进一步退火,模型进入了冷却期,专门用于巩固OCR、Grounding(定位)等细粒度感知能力与推理能力。

这种训练范式使得STEP3-VL-10B建立了一种内在的视觉-语言协同机制,使其不仅仅是在看图说话,而是在真正地理解视觉信息背后的逻辑与结构。

预训练构建了模型的能力底座,而监督微调(SFT)与强化学习(RL)则进一步磨砺了其解决复杂问题的锋芒。

在SFT阶段,团队采取了两阶段策略,首先以9:1的文本主导比例夯实逻辑基础,随后调整为1:1的多模态平衡比例,逐步将强大的文本推理能力迁移至视觉领域。

这种循序渐进的对齐过程,确保了模型在处理多模态任务时不会丢失语言模型的逻辑严密性。

真正让STEP3-VL-10B脱颖而出的,是其在后训练阶段实施的大规模强化学习管线。

团队采用了PPO(近端策略优化)算法结合GAE(广义优势估计),在超过1000次的迭代中对模型进行精细打磨。

为了支撑跨模态与多任务的扩展性训练,团队设计了一套二元奖励系统:针对有明确真值的任务(如数学题、OCR),采用严格的感知奖励与模型辅助验证(利用GPT-OSS-120B作为裁判);针对开放式任务,则依赖生成式奖励模型(GenRM)与行为正则化约束,确保模型输出不仅正确,而且符合人类偏好与安全标准。

值得关注的是,在强化学习过程中,模型展现出了截然不同的两种学习动力学特征。

对于数学、逻辑谜题等推理任务,模型的思维链长度随着性能提升而自然延长,表现出经典的测试时计算扩展特性,即花更多时间思考能带来更好的结果。

然而,在OCR、物体定位等确定性感知任务中,随着强化学习的进行,模型的输出长度不增反降。

这并非模型能力退化,而是一种熵减现象。

RL优化促使模型修剪了冗余的探索性Token,将概率质量集中在确定性的正确答案上,将高温度下的随机探索转化为鲁棒的确定性输出。

这种发现挑战了思维链越长越好的粗暴认知,揭示了感知任务与推理任务在认知机制上的本质差异:感知需要的是精准的聚焦与确认,而推理需要的是发散的探索与演绎。

强化学习与并行推理

为了克服小模型在复杂视觉推理任务上的局限性,STEP3-VL-10B引入了并行协同推理(PaCoRe)机制,这是一种在推理阶段扩展计算资源的创新范式。

传统的思维链(Chain-of-Thought)主要依赖顺序推理,容易陷入单点错误的死胡同,而PaCoRe采用了先提案,后综合的策略,类似于计算机视觉中的区域提案网络。

在推理时,模型首先并行生成多个视觉假设(Proposals),这些假设可能关注图像的不同区域或采用不同的解题视角。

随后,模型将这些分散的线索汇聚到一个统一的上下文中,进行交叉验证与逻辑综合,最终得出一个经过深思熟虑的结论。

这种机制实际上是在模拟人类的系统2思维过程,即通过在测试时投入更多的计算资源来换取更高的准确性,从而弥补了10B模型在参数记忆容量上的不足。

PaCoRe的实施细节体现了极高的工程智慧。

在训练数据的构建上,团队利用早期的RLVR(带验证奖励的强化学习)阶段筛选出的部分接受样本(即那些既非显而易见也非完全不可解的难题)作为种子,通过模拟并行推理过程生成16至24条消息,并将这些消息反馈给模型作为综合上下文以重新生成答案。

这种方法强制模型学习如何从纷繁复杂的信息中提取有效证据,并进行多视角的自我验证。

实验结果显示,在PaCoRe模式下,STEP3-VL-10B在MathVision(+5.14%)、DynaMath(+5.09%)等高难度推理基准,以及CountQA(+4.6%)等需要穷尽式感知的任务上,性能均实现了显著跃升。

这证明了通过外部化的并行搜索与验证,小模型完全可以展现出类似人类的高级校验行为,例如在解决坐标定位问题时,模型会主动检查多个参考点的坐标,发现共同规律,从而推导出正确结论。

并行协同推理的感知案例:

模型首先聚合参考答案,然后交叉验证其有效性,最终确定最终答案的潜在模式。

为了进一步提升推理效率,团队在强化学习阶段还引入了缺失轨迹假说。

该假说认为,人类视觉认知依赖于迭代式的粗看-细看或试错过程,但这些内在的心理状态很少在训练语料中显式表达,导致模型难以自发学会这种序列化的感知推理。

PaCoRe正是通过显式化这一过程,填补了训练数据的空白。

在未来的规划中,团队计划通过自蒸馏技术,将这些在推理时生成的并行思维轨迹内化为模型的直觉参数,从而把昂贵的慢思考转化为高效的快直觉,在不增加推理成本的前提下永久性地提升模型的感知智商。

这一思路不仅为小模型的进化指明了方向,也为解决AI领域的莫拉维克悖论提供了新的解题视角。

小模型具备前沿大智慧

在超过60个基准测试的严苛考验下,STEP3-VL-10B交出了一份令人惊叹的答卷,全方位验证了其作为最强开源10B级模型的实力。

在STEM与多模态推理领域,该模型在MMMU(80.11%)与MathVision(75.95%)上表现卓越。

在视觉识别与通用VQA(视觉问答)任务中,STEP3-VL-10B在MMBench(CN/EN)上分别达到了91.96%和92.38%,这不仅是10B量级的第一名,甚至足以让许多千亿参数模型汗颜。

这种跨越量级的性能表现,主要归功于其庞大的1.8B感知编码器以及全参数解冻的预训练策略,使得模型对图像细节的捕捉能力达到了前所未有的高度。

在文本中心能力的评估中,STEP3-VL-10B同样打破了多模态模型往往牺牲纯文本性能的魔咒。

它在AIME 2025数学竞赛基准上取得了94.43%的惊人成绩,在HMMT25上也有92.14%的斩获,这表明其逻辑推理能力已经达到了专业竞赛水平。

这种文武双全的特质,得益于SFT阶段精心设计的文本与多模态数据混合比例,确保了视觉能力的增强不以牺牲语言智能为代价。

此外,在GUI操作与屏幕代理任务上,模型在ScreenSpot-V2上取得了92.61%的高分,在OSWorld-G上也达到了59.02%,这主要得益于其独特的轨迹建模训练,使得模型能够精准地将视觉元素映射为可执行的动作,展现了其在自动化代理与具身智能领域的巨大潜力。

参考资料:

https://stepfun-ai.github.io/Step3-VL-10B/

https://arxiv.org/pdf/2601.09668

https://huggingface.co/collections/stepfun-ai/step3-vl-10b

https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1189555.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度测评9个AI论文平台,专科生搞定毕业论文+格式规范!

深度测评9个AI论文平台,专科生搞定毕业论文格式规范! AI工具助力论文写作,专科生也能轻松应对 随着人工智能技术的不断进步,越来越多的AI工具开始进入学术写作领域,为学生和研究者提供高效、便捷的支持。对于专科生来说…

未来工厂的建造者:国内顶尖整车制造数字化服务商深度盘点

在全球汽车产业加速迈向电动化、智能化的背景下,数字化制造已成为车企提升竞争力的核心手段。传统汽车制造依赖固化的流水线和经验驱动决策,难以满足市场对个性化定制、快速迭代与质量精益化的需求。而数字化制造通过集成物联网、人工智能与数字孪生等技…

搜索引擎排名内幕:前端也能撬动SEO流量密码

搜索引擎排名内幕:前端也能撬动SEO流量密码搜索引擎排名内幕:前端也能撬动SEO流量密码咱写前端的,凭啥不能抢 SEO 的饭碗?搜索引擎到底看啥?别被“算法”俩字吓尿内容质量与语义结构:别让爬虫看了一堆 div …

宁波研究生留学中介top10如何选?性价比高机构推荐 - 留学机构评审官

宁波研究生留学中介top10如何选?性价比高机构推荐作为一名从业八年的长三角地区研究生申请规划导师,我深知宁波的学子们在踏上留学之路时,面临的第一个关键选择往往是如何甄别一家靠谱的中介机构。大家普遍存在几个…

代码为刃 创意为甲,探索国产AI应用新路径 ——“算网杯”2025 AIGC开发者大赛圆满落幕

1月17日,“算网杯”2025 AIGC开发者大赛决赛在中国科学技术大学苏州高等研究院圆满落幕。本次大赛由中科算网算泥社区主办,中国科学技术大学苏州高等研究院、AIGC开放社区联合主办,并获得苏州市金融科技协会、苏州市人工智能行业协会等多家单…

上海硕士留学机构口碑排名发布,学员满意度高成关键评价标准 - 留学机构评审官

上海硕士留学机构口碑排名发布,学员满意度高成关键评价标准一、上海硕士留学机构如何选?学员口碑成破局关键大家好,我是从业九年的国际教育规划师李明。在协助众多学子规划海外深造路径的过程中,我发现,面对上海市…

AI自我进化了!仅靠消化自己生成的数据,能力翻倍增长

大模型通过反复训练自己生成的正确数据,在没有人工干预的情况下实现了规划能力的自我进化。这就好比一个学生不断做题,只保留对完答案后正确的解题过程作为复习资料,周而复始,最终在不需要老师教导的情况下学会了解决更复杂的难题…

wpf页面ui控件,用后台代码赋值颜色

#region 重复身份证高亮背景色private System.Windows.Media.Brush _ID_CardColor new System.Windows.Media.SolidColorBrush(System.Windows.Media.Colors.Transparent);/// <summary>///重复身份证高亮背景色&#xff0c;默认透明/// </summary>public System.…

跨境电商平台的对接流程

跨境电商平台的对接已不再是简单的“API调取”&#xff0c;而是演变为**“全球分发本地化合规”**的复合系统开发。随着亚马逊SP-API的全面迭代、TikTok Shop的爆发以及各国税务合规&#xff08;如欧盟IOSS、美国Sales Tax&#xff09;的自动化要求&#xff0c;对接方法变得更加…

探究宁波研究生留学机构TOP10,学员满意度高背后的原因 - 留学机构评审官

探究宁波研究生留学机构TOP10,学员满意度高背后的原因一、宁波研究生留学,如何选择满意度高的机构?在网络搜索中,许多宁波的学子及家长常常会提出这样的问题:“宁波地区哪家留学中介申请研究生更可靠?”、“如何…

救命神器9个AI论文软件,助你轻松搞定继续教育论文!

救命神器9个AI论文软件&#xff0c;助你轻松搞定继续教育论文&#xff01; AI 工具助力论文写作&#xff0c;效率提升不再是梦 在继续教育的道路上&#xff0c;论文写作往往成为许多学员的“拦路虎”。无论是课程论文、毕业论文&#xff0c;还是科研成果的总结&#xff0c;都需…

无锡top10研究生留学机构推荐,稳定可靠保障留学成功 - 留学机构评审官

无锡top10研究生留学机构推荐,稳定可靠保障留学成功一、无锡研究生如何选择可靠的留学中介?在搜索引擎上,无锡地区的研究生们常常会提出这样的问题:“无锡本地哪家留学中介申请英国香港更靠谱?”、“有没有针对无…

三维场景管理类位姿抖动优化计划

三维场景管理类位姿抖动优化计划 问题分析 问题现象&#xff1a;位姿抖动达到 1,174,144 mm&#xff08;1.17 km&#xff09;&#xff0c;导致世界轮廓融合被禁用根本原因&#xff1a;直接使用相机原始位置数据计算抖动&#xff0c;没有异常值检测和滤波处理影响&#xff1a;世…

Jenkins+Docker+Git实现自动化CI/CD

在如今的互联网时代&#xff0c;随着软件开发复杂度的不断提高&#xff0c;软件开发和发布管理也越来越重要。目前已经形成一套标准的流程&#xff0c;最重要的组成部分就是持续集成&#xff08;Continuous Integration&#xff0c;CI&#xff09;及持续部署、交付&#xff08;…

武汉硕士留学中介口碑排名全面解析,学员满意度高成核心指标 - 留学机构评审官

武汉硕士留学中介口碑排名全面解析,学员满意度高成核心指标作为一名拥有六年武汉地区硕士申请规划经验的国际教育导师,我深知本地学子在选择留学中介时面临的困惑:信息渠道繁杂,如何辨别真伪?机构宣传语焉不详,如…

2026电力检查井厂家权威推荐榜单:水泥检查井/成品检查井/预制检查井/大管径检查井/混凝土检查井源头厂家精选。

在城市地下管网这一“看不见的生命线”中,电力检查井作为电缆敷设、检修与安全防护的核心节点,其质量与可靠性直接关系到电网运行的稳定与公共安全。行业研究数据显示,预制检查井已成为新建项目的绝对主流,其市场集…

选择济南TOP10研究生留学中介,录取案例多,成功率有保障 - 留学机构评审官

选择济南TOP10研究生留学中介,录取案例多,成功率有保障一、济南学子如何挑选研究生留学中介?在2026年的今天,济南高校的学子们规划海外研究生深造时,常面临几个核心关切:如何在众多本地机构中筛选出靠谱的选项?…

接口自动化测试覆盖率

一、接口覆盖率统计&#xff1a;3大核心维度 ▶ 1. 代码级覆盖率&#xff08;最严谨&#xff09; 原理&#xff1a;通过代码插桩&#xff0c;统计接口对应的业务代码执行情况 工具&#xff1a; Java&#xff1a;Jacoco Jenkins Python&#xff1a;Coverage.py Pytest 优…

2026年正规MVR蒸发器优质厂家推荐 - 优质品牌商家

2026年正规MVR蒸发器优质厂家推荐一、行业背景与推荐依据据《2026-2030年中国工业高浓度废水处理设备行业发展白皮书》显示,2026年国内高浓度工业废水排放量突破120亿吨,年复合增长率达8.7%,其中化工、新材料新能源…

2026不锈钢粉末冶金厂家权威推荐榜单

在工业制造领域,粉末冶金制品以其高精度、高性能的特点,成为汽车、家电、医疗器械等行业的关键部件。据统计,全球粉末冶金市场规模已突破200亿美元,年复合增长率达6.5%,其中中国占比超30%。在众多生产厂家中,深圳…