震惊!大模型“推理“竟是“大型喃喃自语“?揭秘AI推理背后的惊天真相,小白程序员看完直呼内行!

这篇文章《(How) Do Reasoning Models Reason?》对当前大型推理模型(LRM)进行了深刻的剖析,超越了表面的性能宣传,直指其技术本质和核心局限。以下是基于原文的详细技术原理、关键过程与核心见解拆解。


一、核心论点与总览

LRM(如 o1, R1)的“推理”能力提升,并非源于模型学会了人类式的逻辑推理,而是通过两类主要技术手段,优化了生成过程,使其在输出最终答案前,模仿并生成看似合理的推导过程。其本质是在“生成-测试”框架中,将外部验证信号逐步“编译”进生成模型参数中。


二、两大技术路径的详细原理与过程

1. 测试时推理(Test-time Inference)

Figure 1:Test-time scaling approaches for teasing out reasoning

核心思想:在推理(回答用户问题)时,让模型做比“直接生成答案”更多的工作,相当于在测试时进行可扩展的、问题自适应的计算。

关键过程:

(1)生成:使用LLM为同一个问题生成多个候选答案或解轨迹。

(2)验证/选择:通过某种机制筛选出最优答案。

2.1)简单选择:如“自我一致性”,选择出现频率最高的答案(假设模型误差是随机的)。

2.2)验证驱动:引入“验证器”对候选答案进行检验。这是性能提升的关键。

验证器类型:

(a)外部可靠验证器:使用传统求解器或可证明正确的程序(如数学计算器、规划器)。这是最可靠的方式,能提供正确性保证(如LLM-Modulo框架)。

(b)学习型验证器:训练另一个模型来判断答案正确性(问题:验证器也可能出错)。

©LLM自我验证:让LLM自我评估(已被证明存在问题,容易产生过度自信)。

  • 迭代改进:如果验证失败,可以将错误信息反馈给生成器,让其重新生成,形成“生成-测试-修正”循环。

  • 核心见解: 这本质上是将搜索或规划过程外包给了测试时的计算循环,而非内化于模型权重中。

  • 根本问题:成本爆炸。计算成本不再与输出长度成正比,而是与问题的内在计算复杂度成正比,颠覆了LLM按token计费的传统商业模式。

2. 训练后方法(基于推导轨迹,Post-Training on Derivational Traces)

Figure 2:Post-training Approaches for teasing out reasoning

核心思想:在标准预训练后,使用包含“解题步骤”(推导轨迹)的数据对模型进行进一步训练,教会模型在输出答案前,先输出类似的中间步骤。

关键过程:

(1)轨迹数据获取(最大难点):

1)人工标注:高质量但代价极高(如GSM8K数据集)。

2)合成生成:使用传统求解器(如A*搜索)自动生成问题解及其完整的搜索轨迹(如SearchFormer)。轨迹准确但领域受限。

3)LLM生成后过滤:让LLM自己生成步骤(利用其预训练中已有的“步骤示范”数据),然后通过验证器过滤出最终答案正确的轨迹(无论中间步骤是否真正合理)。这是当前主流方法。

模型训练:

(1)监督微调:直接在(问题,推导轨迹,答案)数据上微调。

(2)强化学习:更先进的方法(如DeepSeek R1)。

2.1)过程:对于可验证的问题,让模型生成多条带“痕迹”的答案。

2.2)奖励:仅根据最终答案的正确与否给予奖励/惩罚。

2.3)效果:模型参数被调整,使得能导致正确答案的输出模式(包括其前面的“痕迹”)概率增大。

2.4)知识蒸馏:将经过RL训练的“教师模型”的输出作为数据,去训练一个更小的“学生模型”,可以免去昂贵的RL过程。

(3)核心见解:

  • 痕迹的语义虚假性:训练目标只关心最终答案正确。模型学会的是一种能“讨好”奖励信号的输出格式(先输出一堆token,然后输出答案),这些中间token不一定构成逻辑推理,而可能是任何有助于提高最终答案正确率的模式。
  • 本质是编译验证信号:该过程可以理解为将外部验证器(在训练时使用)的“测试”能力,部分地编译到了生成模型的“生成”倾向中。即“智能是将‘生成-测试’中的测试部分转移到生成部分”(明斯基)。

三、对LRM的批判性见解(打破误解)

1. 中间token不是“思考痕迹”

  • 模型生成的“让我们一步步思考…”等文本,是对预训练数据中人类解题风格的模仿,而非内部计算过程的反映。作者戏称为“大型喃喃自语模型”。
  • 证据:即使在专门训练输出求解器轨迹的模型(如SearchFormer)中,其输出的“步骤”也常包含违反基本算法规则的操作(如从开放列表中删除不存在的节点),但这些错误轨迹有时仍能“蒙对”最终答案。这说明轨迹的正确性并非必要。

2. 性能提升的来源是“提示增强”,而非获得推理能力:

Figure 4: Augmenting a task prompt with additional tokens often seems to improve the accuracy of LLM completion even if the tokens don’t have human-parseable meaning.

  • 给LLM一个更长的、特定格式的提示词(如包含“步骤”),即使这些附加token对人类毫无意义,也能提高其答案准确性。
  • LRM的训练后方法,实质上是将这种有效的“提示增强”动态地、内化地置于每次生成的开头。模型学会了自己为自己“铺垫”一段有利于解题的上下文。

3. 泛化能力脆弱

  • 在简单规划任务(Blocksworld)上表现尚可,但一旦对对象和动作进行重命名(Mystery Blocksworld),性能就大幅下降。这表明模型严重依赖表面词汇的匹配,而非抽象的逻辑结构理解。
  • 面对不可解问题时,LRM会自信地生成虚假计划并配上看似合理的解释,存在“ gas lighting ”(误导)用户的风险。

4. 与LLMs没有根本性架构区别

  • 仅经过训练后的LRMs,在推理时仍然是接收提示,自回归地生成token。其架构与普通LLM完全相同。
  • 唯一改变的是模型输出token序列的概率分布:它现在更倾向于先生成一段“类推导痕迹”的token,再生成答案。没有自适应计算,生成长度在训练时已大致确定。

四、核心流程图解:LRMs的工作原理与本质

以下图表概括了上述所有关键过程和见解:


五、未来方向与建议

  • 去拟人化:放弃让中间token像人类“思考”,转而探索高效、压缩、符号化的中间表示,纯粹以提升最终准确性为目标进行优化(类似AlphaZero学习价值函数)。
  • 混合系统定位:LRMs不应被视为独立的“推理者”,而应作为增强型的提议生成器,集成在如LLM-Modulo的框架中,由外部验证器提供可靠性保证。
  • 重新审视评估:需要超越最终答案准确率的基准测试,设计能测评推理过程稳健性、泛化性和成本效率的评估体系。

总而言之,本文揭示了LRMs“推理”能力背后的工程本质,对其过度拟人化的解读提出了有力批判,并为更稳健、可靠的AI系统设计指明了方向。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1190279.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FileSaver.js实战解析:前端文件下载的终极解决方案

FileSaver.js实战解析:前端文件下载的终极解决方案 【免费下载链接】FileSaver.js An HTML5 saveAs() FileSaver implementation 项目地址: https://gitcode.com/gh_mirrors/fi/FileSaver.js 你是否曾遇到过这样的场景:用户点击下载按钮&#xff…

Adv. Optical Mater.:自洽磁-光耦合模型揭示Bloch点如何产生光学手性与轨道角动量

01导语你有没有想过,光除了直线传播、反射折射之外,还能与磁性材料中一种叫做“Bloch点”的奇特结构发生深刻互动,甚至产生新的光学特性?最近,一篇发表在《Advanced Optical Materials》上的研究,首次系统揭…

京东图书×光明网“2025年度百大好书”出炉,CDA数据分析师一级教材《CDA商业数据分析》获奖

近日,由京东图书与光明网联合推出的“2025年度百大好书”活动圆满结束。这份完全由读者投票选出的好书清单,不仅为广大读者提供了一份年度阅读指南,同时也为创作者提供了洞察市场趋势、理解读者偏好的参照。本次“2025年度百大好书”&#xf…

【爆肝总结】大语言模型编程全攻略:从入门到精通,小白也能秒变AI编程大神!

上个月,我朋友找我帮忙写年终总结。 我说,用ChatGPT啊。 他愣了:“那东西不是聊天机器人吗?能写总结?” 10分钟后,他拿着ChatGPT生成的初稿,眼睛都直了。 “这怎么做到的?” 这…

大模型杀疯了!2026国内LLM技术突破,程序员必学技能

国内大语言模型(LLM)研究与应用最新进展综述(截至2026年1月) 摘要:近年来,国内大语言模型(Large Language Models, LLM)在模型迭代、训练技术优化、场景落地等方面取得突破性进展&a…

iOS个性化工具终极指南:免越狱深度定制完整教程

iOS个性化工具终极指南:免越狱深度定制完整教程 【免费下载链接】CowabungaLite iOS 15 Customization Toolbox 项目地址: https://gitcode.com/gh_mirrors/co/CowabungaLite Cowabunga Lite是一款专为iOS 15设备设计的免越狱个性化定制工具,让你…

震惊!2025大模型技术革命:从推理到编程智能体,小白程序员的进阶之路

2025年是大模型之年,这一年充满了各种不同的趋势。本文来自原文精心整理: https://simonwillison.net/2025/Dec/31/the-year-in-llms/ 推理之年 OpenAI在2024年9月通过o1和o1-mini开启了"推理"革命,也称为推理扩展或基于可验证奖…

救命!大模型(LLM)工程师需求暴增,小白程序员如何抓住这波AI红利?2026年IT新贵养成指南

到2026年,大型语言模型将不再是“实验性工具”,而将成为核心基础设施。 过去三年,大型语言模型(LLM)已从研究实验室走向生产系统,为客户支持、搜索、分析、编码助手、医疗保健工作流程、金融和教育等领域提…

Mac鼠标终极优化指南:免费解锁第三方鼠标隐藏功能

Mac鼠标终极优化指南:免费解锁第三方鼠标隐藏功能 【免费下载链接】mac-mouse-fix Mac Mouse Fix - A simple way to make your mouse better. 项目地址: https://gitcode.com/gh_mirrors/ma/mac-mouse-fix 还在为你的普通鼠标在Mac上功能受限而烦恼吗&#…

告别 Java 开发“报错噩梦”:飞算一键修复器成开发者救星

在 Java 开发的征程中,想必每个开发者都遭遇过这样的“至暗时刻”:满心欢喜地梳理完代码逻辑,满心期待地运行程序,结果控制台瞬间被密密麻麻的红色报错信息淹没。一个小小的语法错误、一个隐藏极深的逻辑漏洞,又或是让…

百度网盘秒传脚本终极指南:永久分享的完整解决方案

百度网盘秒传脚本终极指南:永久分享的完整解决方案 【免费下载链接】rapid-upload-userscript-doc 秒传链接提取脚本 - 文档&教程 项目地址: https://gitcode.com/gh_mirrors/ra/rapid-upload-userscript-doc 还在为百度网盘分享链接频繁失效而烦恼&…

终极离线绘图神器:draw.io桌面版完全使用指南

终极离线绘图神器:draw.io桌面版完全使用指南 【免费下载链接】drawio-desktop Official electron build of draw.io 项目地址: https://gitcode.com/GitHub_Trending/dr/drawio-desktop 还在为网络断线而中断创意灵感吗?draw.io桌面版正是你需要…

15 分钟完成从需求到可运行项目

Java 开发的全流程,向来是一场从需求拆解到代码落地的 “持久战”。新手面对需求分析、接口设计、数据库建模、项目整合的全链路流程常常无从下手,资深开发者也难免在重复配置、基础代码编写上耗费大量精力。近期,有开发者以 “员工信息管理系…

Windows 11任务栏拖放功能修复工具终极指南

Windows 11任务栏拖放功能修复工具终极指南 【免费下载链接】Windows11DragAndDropToTaskbarFix "Windows 11 Drag & Drop to the Taskbar (Fix)" fixes the missing "Drag & Drop to the Taskbar" support in Windows 11. It works with the new …

AI大模型遇上工业Agent,编程小白也能参与的“智能工厂“革命来了!代码改变世界的正确姿势,不看亏大了!

工业Agent正成为制造业推进智能化升级与系统化协同的重要载体。在此背景下,赛迪顾问编制完成《2025中国最具发展潜力工业Agent评估报告》,系统分析中国工业Agent的技术演进路径、市场结构与代表性企业格局。报告围绕底层通用、行业赋能与场景特化三类发展…

Windows 11经典游戏联机困境的终极解决方案:IPXWrapper深度技术解析

Windows 11经典游戏联机困境的终极解决方案:IPXWrapper深度技术解析 【免费下载链接】ipxwrapper 项目地址: https://gitcode.com/gh_mirrors/ip/ipxwrapper 在Windows 11系统上重温《红色警戒2》、《魔兽争霸II》等经典游戏时,最令人沮丧的莫过…

新手也能 15 分钟搞定 Java 项目:飞算 JavaAI 让开发告别 “闯关式” 折腾

Java 开发的过程,常常像一场层层闯关的挑战 —— 从需求分析到项目落地,要跨越接口设计、数据库建模、代码编写、项目整合等多个关卡。新手面对冗长流程常常一头雾水,资深开发者也难逃重复劳动的消耗。有开发者以 “员工信息管理系统” 为实践…

AutoDock-Vina分子对接终极指南:从基础原理到实战进阶

AutoDock-Vina分子对接终极指南:从基础原理到实战进阶 【免费下载链接】AutoDock-Vina AutoDock Vina 项目地址: https://gitcode.com/gh_mirrors/au/AutoDock-Vina AutoDock-Vina作为分子对接领域的标杆工具,能够精确预测小分子配体与生物大分子…

救命!我的大模型突然变聪明了!只因我把问题说了两遍,准确率直接起飞76%!程序员必备的免费午餐技巧

"说两遍"这个在人类沟通中略显烦人的习惯,对AI居然有奇效。 最近Google Research发布了一篇很有意思的论文,标题简单到让人怀疑是不是写错了:“Prompt Repetition Improves Non-Reasoning LLMs”(重复Prompt提升非推理…

MyTV-Android:老旧电视重获新生的终极直播方案

MyTV-Android:老旧电视重获新生的终极直播方案 【免费下载链接】mytv-android 使用Android原生开发的电视直播软件 项目地址: https://gitcode.com/gh_mirrors/my/mytv-android 还在为家中运行安卓4.x系统的老旧电视无法安装现代直播软件而烦恼吗&#xff1f…