本文介绍了一种创新的"answer→think→answer"推理范式,模型先直接回答问题,高置信度则输出答案,否则再进行推理。这种方法有效减少思维链长度,提高回答精度,通过双答案奖励机制和早停策略实现。实验证明,该范式在保持高精度的同时显著降低了推理成本,为复杂问题提供了更高效的解决方案。
距离OpenAI发布O1已经过去了一年多的时间,现在推理模型也已经成了大模型推理的标配。去年过年的时候,DeepSeek凭借R1也火遍了全国,于是各种推理范式层出不穷,其中最常见的就是混合推理范式。
推理模型使用增加推理时间来换取高精确度,但是问题也很明显,就是推理速度慢,在得到正确答案之前你必须容忍它输出的长长的思维链。一开始思维链又臭又长,过度的反思是常见的问题。经过一年时间的打磨,现在模型的思维链的质量都比较高,而且输出速度也大幅度提高。
今天我们介绍一个有意思的关于思维链的工作——VideoAuto-R1。这是一个多模态问题的推理模型,但是却可以无缝推广到任意的推理模型。
一、一次思考、两次回答
这篇论文的核心就是"answer → think → answer "。
一次思考,两次回答。以往的推理模型都是在回答之前进行推理,然后输出答案。这次我们将推理模型和非推理模型结合起来,先让模型回答一个答案,如果这个答案置信度比较高,那么直接输出这个答案。否则,我们再进行推理,再输出改进以后的答案。
这里我们这么做的目的是要回答一个问题:模型进行推理是必要的吗?
显然对于简单的问题,模型自己依靠自身的知识就能很好的回答,我们无需进行推理。只有那些复杂的问题,我们才需要引入思维链来推理。
这种思想很自然,学术界和工业界也进行过一些探索。比如混合推理模型,使用空标签来控制是否进行推理。也有更复杂的设计,使用一个特殊的token进行是否进行推理的决策。
但是感觉都差一点意思。因为本身一个问题的难易很难进行定义。在构建训练数据集的时候,很容易引入人的偏见。反倒是这种先回答试试的方式更自然。
接下来我们看看如何实现这种”一次思考,两次回答“的范式。
二、模型训练
说到推理模型的训练,自然想到的就是强化学习和GRPO。
我们先来看看怎么引导模型输出我们想要的格式,这就是模型的system prompt:
在提示词中我们使用了COT,首先告诉模型直接输出答案,不要思考过程。如果模型不确定,要生成"Let’s analyze the problem step by step",然后剩下的就是我们熟悉的格式将思考的过程输出在标签内,答案生成在boxed{}内。
在强化学习中最重要的是奖励的设计。
这次我们设计了一个双答案奖励的机制。具体来说就是提取前后两次的答案,然后这两次答案分配的权重是不一样的。如果两次答案都是对的,那么第二次的答案的权重会高于前一次。如果第一次对,第二次不对,我们就要惩罚模型。
完整的奖励函数的表达式如上所示。
这里有一项fallback的奖励,它只有两个值0和1。如果第一次回答是"Let’s analyze the problem step by step",并且第二次答案是对的,那么奖励就是1。这是为了鼓励模型在遇到难题的时候,不要胡乱编造答案,而是鼓励使用推理模式来解决问题。
上面是在进行训练的时候,那么推理的时候怎么办?
推理的时候,我们设计了一个早停机制。具体来说,我们要先计算一下模型输出的置信度,如果置信度很高,超过一定的阈值,我们就直接输出答案。否则我们继续进行推理。
置信度的计算也比较直接,使用长度归一化的置信度计算:
如果模型的答案是"Let’s analyze the problem step by step",我们让上面的分数等于”−∞“。
三、效果评估
对比了主流的视频问答的模型,我们发现不仅在思维链的长度上大大减小了,而且精度也提高了。
由于模型是基于Qwen2.5VL-7B训练的,所以我们比较一下和基座模型的表现。依然是思维链的长度更短,精度更高。
并且在消融实验中,我们看到w2>w1,以及设置fallback回滚项是有效的。
这些结果有力地证明了,这种范式是可以提升模型的在自动思考方面的表现。
写在最后
今天我介绍一个新的推理范式,”answer → think → answer“,即一次思考两次回答。整个实验的设计有一种大道至简的感觉,最后的评测也证明了这个范式的有效性。
在Agent的时代,我们更离不开推理模式来为我们规划任务和进行任务的分解。随着我们对模型的推理认知越来越深,我们终会通向我们想要的那个智能时代。
AI时代,未来的就业机会在哪里?
答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。
掌握大模型技能,就是把握高薪未来。
那么,普通人如何抓住大模型风口?
AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。
因此,这里给大家整理了一份《2026最新大模型全套学习资源》,包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等,带你从零基础入门到精通,快速掌握大模型技术!
由于篇幅有限,有需要的小伙伴可以扫码获取!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
为什么大家都在学AI大模型?
随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。
同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!
这些资料有用吗?
这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
大模型全套学习资料已整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】