谁说思维链越长越好?Yuan3.0 Flash开源:砍掉70%无效token,重构推理范式

首创「反思抑制」机制,让大模型学会在答对的那一刻果断停下。

过去一年,大模型推理能力的进化几乎沿着一条单向路径前进:更复杂的推理过程、更长的思维链、更“像人类”的自我反思。

在数学和科学推理等 benchmark 上,这条路径看起来无可挑剔。但当走向实际企业落地时,一个隐藏问题逐渐暴露:模型经常在得出正确答案后仍持续“反复思考”,导致大量算力被浪费在无效验证上。

〓 推理 Token 消耗分布示意:深色区域代表模型在已得到正确答案后的反思阶段,占比超过 70%。

研究显示,在部分先进推理模型的数学与科学任务中,超过 70% 的 Token 消耗,发生在模型“已经答对,但仍在反思”的阶段。

换句话说,模型真正用于形成正确结论的计算,只占了不到三分之一,其余大部分资源被用来“反复确认一件已经确定的事”。

这正是企业在大模型落地过程中频繁遭遇却又难以精确定位的隐性成本来源:模型不是不够聪明,而是“想得太多”。

针对这一问题,YuanLab.ai 团队在近期开源的 Yuan3.0 Flash 模型中,创新性地提出了 RIRM(反思抑制奖励机制)与 RAPO(反思感知自适应策略优化)。

通过训练机制引导模型在保持推理能力的同时,学会在恰当的时间停下来,从而实现推理效率的突破性提升。

论文标题:

Yuan3.0 Flash: An Open Multimodal Large Language Model for Enterprise Applications

论文链接:

https://arxiv.org/abs/2601.01718

为什么大模型会“想太多”?

如果将大模型的推理过程类比为人类解题,问题会变得异常直观。

一个成熟的专家,在确认结论成立后,往往会停止继续推演;而大量现有模型却会在已经得到正确答案后,继续反复检查、反复否定、反复验证。

这种行为并非偶然,而是与传统强化学习训练范式高度相关。

长期以来,强化学习更多关注“结果是否正确”,而极少对“推理是否已经足够”进行约束。在训练信号的引导下,模型逐渐形成一种行为偏好:只要继续思考,就可能获得更高奖励。

在学术环境中,这种倾向往往被解读为“推理更充分”;但在企业场景中,它直接转化为三类问题:推理 Token 不可控、系统响应延迟增加,以及在过度反思中反而引入错误判断。

Yuan3.0 Flash 的技术创新,正是从这一行为层面的失衡入手,而不是简单地通过规则裁剪或输出限制来“压短答案”。

RIRM:通过奖励“思考过程”优化模型训练

RIRM(Reflection Inhibition Reward Mechanism,反思抑制奖励机制)的核心思想并不复杂,却极具突破性:模型不仅要为“答对”负责,也要为“什么时候停止思考”负责。

在传统训练中,只要最终答案正确,模型在中途经历了多少次自我否定、重复验证,几乎不会被区分对待。

而 RIRM 首次明确引入了一条新的判断标准——当模型已经形成可靠结论后,继续反思是否还具有信息价值。

〓 RIRM 工作流程示意:从首次正确答案识别到反思阶段奖励抑制的完整链路。

在训练过程中,系统会先定位模型推理里“首次得出正确答案”的节点,再针对该节点后的行为做反思次数的价值判定。

如果后续步骤既没有新增证据或约束,只是重复已有逻辑,或是在缺乏信息的情况下反复推翻已验证结论,这类超出必要次数的反思则被标记为低价值(负价值)行为——通过这种方式,引导模型学会在合理的反思次数内完成答案验证。

这些反思行为不再被默认视为“更谨慎”,而是在奖励层面受到抑制。通过持续的强化学习训练,模型逐渐学会区分两种状态:什么时候需要继续推理,什么时候已经可以停止。

〓 RIRM训练前后Token消耗对比:反思阶段(深色部分)显著缩减,而首次解题阶段基本保持不变。

这种机制的关键意义在于,它并不是简单地限制输出长度,而是从根本上改变了模型对“好推理”的理解标准——高质量推理不等于更长的推理,而等于恰到好处的推理。

实验结果也印证了这一点。在数学、科学等复杂推理任务中,引入 RIRM 后,模型在准确率保持甚至提升的同时,推理 Token 消耗显著下降,最高可减少约 75%。

更重要的是,反思阶段的无效计算被大幅压缩,模型不再陷入“越想越多、越想越乱”的行为模式。

RAPO:反思感知的自适应策略优化算法

然而,仅靠对推理行为的抑制,并不足以支撑一个稳定、高效的企业级模型训练。

Yuan 3.0 Flash 所引入的 RAPO(Reflection-aware Adaptive Policy Optimization,反思感知自适应策略优化)并非一次局部技巧的优化,而是对强化学习训练框架的一次系统性改进。

从数据采样效率、到学习目标、到推理过程评估(RIRM),同时兼顾训练效率、训练稳定性及推理效率,使模型能够在多任务、异构场景中形成更具实用价值的策略。

〓 不同强化学习策略下的训练稳定性对比:引入 RAPO 后,训练过程中的梯度波动显著减小。

RAPO 通过自适应采样、梯度稳定性控制等机制,显著减少了强化学习阶段的过度数据采样,有效抑制了训练过程的梯度波动。

在大规模 MoE 模型上,这种改进尤为关键——实验显示,RAPO 可使整体训练效率提升超过 50%,在保证模型能力提升的同时,大幅缩短训练周期。

更重要的是,RAPO 与 RIRM 在设计上是协同的。RAPO 决定模型“如何学习”,而 RIRM 明确模型“学到什么程度该停”。

前者提供稳定高效的学习框架,后者则为推理行为划定边界,两者叠加,才使“想对就停”真正成为模型的默认行为,而非例外情况。

“更少算力、更高智能”如何落到企业真实场景中

在架构层面,Yuan3.0 Flash 采用稀疏 MoE 设计,在推理时仅激活少量专家,降低单次推理的计算开销;而在行为层面,RAPO 与 RIRM 进一步确保这些算力被用于真正有价值的判断,而非冗余反思。

这种组合效应,在企业高频场景中表现尤为明显。

在 RAG 场景下,模型能够更快聚焦于检索到的关键信息,而不是围绕同一内容反复展开解释;在复杂表格理解中,推理路径更加直接,不再被冗余验证拖慢;在长文档分析中,模型避免了层层递归式总结,显著提升了响应效率。

对企业而言,这意味着一个非常关键的变化:默认推理模式本身就已经足够可靠。无需额外开启高成本的“深度思考模式”,模型就能在大多数业务任务中保持稳定、可控的表现,也就是更快、更准、更省。

Yuan3.0 Flash 的技术实践表明:当大模型已经具备足够的推理能力后,真正稀缺的,不再是“让它想得更多”,而是“让它知道什么时候该停”。

RIRM 通过奖励机制约束无效反思,解决了“想得太多”的问题;RAPO 通过高效、稳定的强化学习策略,解决了“学得太慢、学得不实用”的问题。

两者共同构成了一条面向企业级落地的现实路径——在不牺牲能力的前提下,实现更低成本、更高效率的智能系统。

Resources

开源地址

代码开源链接:

https://github.com/Yuan-lab-LLM/Yuan3.0

论文链接:

https://arxiv.org/abs/2601.01718

模型下载链接:

1) Huggingface:

https://huggingface.co/YuanLabAI/Yuan3.0-Flash

https://huggingface.co/YuanLabAI/Yuan3.0-Flash-4bit

2) ModelScope:

https://modelscope.cn/models/Yuanlab/Yuan3.0-Flash

https://modelscope.cn/models/Yuanlab/Yuan3.0-Flash-int4

3) wisemodel:

https://www.wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash

https://www.wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash-4bit

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1131904.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

欧莱雅集团在CES 2026上发布LED光能面膜

、美通社消息:全球美妆行业巨头欧莱雅集团在2026年国际消费类电子产品展览会(CES 2026)上正式发布两项突破性技术,将光学的力量引入美发与护肤领域:多效光能美发棒(Light Straight Multi-styler)与LED光能面膜(LED Face Mask),均…

Node.js 用beforeExit优雅关闭应用

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 Node.js应用优雅关闭的艺术:利用beforeExit事件实现资源安全释放目录Node.js应用优雅关闭的艺术:利用bef…

Switch文件传输与RCM注入全攻略:NS-USBLoader深度体验

Switch文件传输与RCM注入全攻略:NS-USBLoader深度体验 【免费下载链接】ns-usbloader Awoo Installer and GoldLeaf uploader of the NSPs (and other files), RCM payload injector, application for split/merge files. 项目地址: https://gitcode.com/gh_mirro…

5分钟快速上手gerbv:电子工程师必备的Gerber文件查看终极指南

5分钟快速上手gerbv:电子工程师必备的Gerber文件查看终极指南 【免费下载链接】gerbv Maintained fork of gerbv, carrying mostly bugfixes 项目地址: https://gitcode.com/gh_mirrors/ge/gerbv 在PCB设计和电子制造领域,Gerber文件作为行业标准…

linux下使用SHC对Shell脚本进行封装和源码隐藏

在很多情况下,需要保护自己所写的shell脚本源码不被别人查看。这时使用shc工具将shell脚本编译成二进制文件是一个有效的方法。 什么是SHC shc是一个由C语言编写的Shell脚本加密程序,它可以将你的脚本编译成二进制可执行文件,从而隐藏源码。…

为什么数据库文件不建议提交:你提交的不是数据,是未来的麻烦

为什么数据库文件不建议提交:你提交的不是数据,是未来的麻烦 你有没有遇到过这种场景:项目刚起步,大家图省事,把本地的 app.db(SQLite)、data.mv.db(H2)、甚至某个 dump.sql 一起丢进 Git。短期看起来很爽——拉下来就能跑、数据也现成。 但过不了多久,你会发现:仓…

当云原生遇见VMware

技术融合背景云原生与VMware的协同价值,传统虚拟化与容器化技术的互补性,企业混合云转型需求。VMware在云原生生态中的角色VMware Tanzu产品套件解析(TKG、TAP、TMC),vSphere与Kubernetes集成(VCF&#xff…

WE Learn智能助手完整指南:5步掌握高效学习新方法

WE Learn智能助手完整指南:5步掌握高效学习新方法 【免费下载链接】WELearnHelper 显示WE Learn随行课堂题目答案;支持班级测试;自动答题;刷时长;基于生成式AI(ChatGPT)的答案生成 项目地址: https://gitcode.com/gh…

大数据领域数据架构在企业中的应用价值

大数据领域数据架构在企业中的应用价值:从数据碎片到商业洞察的“魔法桥梁”关键词:大数据架构、企业数据治理、数据价值挖掘、业务决策支持、数据驱动增长摘要:在企业数字化转型的浪潮中,数据已成为核心生产要素。但许多企业面临…

科沃斯重磅亮相2026年CES,向海外市场展示新一代机器人解决方案 | 美通社头条

、美通社消息:2026年1月6日国际消费电子展(CES)在美国拉斯维加斯开幕,全球服务机器人领导品牌科沃斯向海外市场展示了覆盖多场景的新一代机器人解决方案,包括全新地宝T90 PRO OMNI、地宝X12系列,以及擦窗机器人窗宝WINBOT、割草机…

GEO优化服务商导航与选择:在AI搜索时代构建品牌认知资产

引言:当AI成为新门户,你的品牌为何“失声”?想象一个场景:一位制造业企业的采购总监,正为生产线效率瓶颈困扰。他不再打开百度,而是直接询问豆包或Kimi:“如何实现智能制造车间的数据可视化&…

见证历史:智谱敲钟,国产大模型第一股来了

代码02513,从清华实验室到港交所的硬核进化路恭喜智谱,代码02513,AI我一生,正式港股上市了。回想几年前ChatGPT刚出来时的焦虑,再看今天我们自己的模型公司站上资本舞台,这一路不容易。千言万语&#xff0c…

基于Python的纪念币预约自动化工具完全指南

基于Python的纪念币预约自动化工具完全指南 【免费下载链接】auto_commemorative_coin_booking 项目地址: https://gitcode.com/gh_mirrors/au/auto_commemorative_coin_booking 还在为每次纪念币预约时手速不够快而错失良机吗?这款基于Python的纪念币预约自…

嵌入式定时器计时技巧:用有符号数省略溢出判断的底层逻辑与实践

目录 前言 一、传统计时的痛点:无符号数的溢出判断难题 1.1 传统实现代码(以16位定时器为例) 1.2 小痛点 二、关键发现:有符号数补码特性解决溢出难题 2.1 补码与定时器计数的对应关系 2.2 无需溢出判断的核心原理 场景1&…

全渠道 AI 推荐,如何终结创作者的“效率焦虑”?

在当下的内容生态中,创作者正陷入一种前所未有的“西西弗斯式”困境。每天清晨睁眼,面对的不是灵感的迸发,而是小红书的封面比例、公众号的长文排版、知乎的问答逻辑以及朋友圈的营销海报。这种被多平台调性撕裂的创作现状,让“全…

WE Learn网课助手终极指南:3步开启智能学习新时代

WE Learn网课助手终极指南:3步开启智能学习新时代 【免费下载链接】WELearnHelper 显示WE Learn随行课堂题目答案;支持班级测试;自动答题;刷时长;基于生成式AI(ChatGPT)的答案生成 项目地址: https://gitcode.com/gh…

中国计算机学会(CCF)推荐学术会议-A(计算机网络):SIGCOMM 2026

SIGCOMM 2026ACM SIGCOMM is the flagship annual conference of the ACM Special Interest Group on Data Communication (SIGCOMM). ACM SIGCOMM 2026, the 40th edition of the conference series, will be held in Denver, Colorado, USA.重要信息CCF推荐:A&…

NS-USBLoader终极指南:Switch文件传输与RCM注入一键搞定

NS-USBLoader终极指南:Switch文件传输与RCM注入一键搞定 【免费下载链接】ns-usbloader Awoo Installer and GoldLeaf uploader of the NSPs (and other files), RCM payload injector, application for split/merge files. 项目地址: https://gitcode.com/gh_mir…

汽车涂装工艺参数优化的关键点及企业实践案例

工艺参数对涂装质量的决定性作用汽车涂装工艺参数的优化是提升产品质量、降低生产成本的关键环节,然而很多制造企业在实际操作中却常常忽略这一点。从表面看,工艺参数只是简单的数值调整,但深入研究便会发现,参数的合理搭配直接关…

如何用Python脚本打造纪念币预约神器:从零到实战

如何用Python脚本打造纪念币预约神器:从零到实战 【免费下载链接】auto_commemorative_coin_booking 项目地址: https://gitcode.com/gh_mirrors/au/auto_commemorative_coin_booking 还在为纪念币预约时的手忙脚乱而烦恼吗?这款基于Python的自动…