AI推理真相:大型喃喃自语模型如何“忽悠“整个科技圈?

这篇文章《(How) Do Reasoning Models Reason?》对当前大型推理模型(LRM)进行了深刻的剖析,超越了表面的性能宣传,直指其技术本质和核心局限。以下是基于原文的详细技术原理、关键过程与核心见解拆解。

一、核心论点与总览

LRM(如 o1, R1)的“推理”能力提升,并非源于模型学会了人类式的逻辑推理,而是通过两类主要技术手段,优化了生成过程,使其在输出最终答案前,模仿并生成看似合理的推导过程。其本质是在“生成-测试”框架中,将外部验证信号逐步“编译”进生成模型参数中。

二、两大技术路径的详细原理与过程

1. 测试时推理(Test-time Inference)

Figure 1:Test-time scaling approaches for teasing out reasoning

  • 核心思想:在推理(回答用户问题)时,让模型做比“直接生成答案”更多的工作,相当于在测试时进行可扩展的、问题自适应的计算。

  • 关键过程:

(1)生成:使用LLM为同一个问题生成多个候选答案或解轨迹。

(2)验证/选择:通过某种机制筛选出最优答案。

2.1)简单选择:如“自我一致性”,选择出现频率最高的答案(假设模型误差是随机的)。

2.2)验证驱动:引入“验证器”对候选答案进行检验。这是性能提升的关键。

验证器类型:

a)外部可靠验证器:使用传统求解器或可证明正确的程序(如数学计算器、规划器)。这是最可靠的方式,能提供正确性保证(如LLM-Modulo框架)。

b)学习型验证器:训练另一个模型来判断答案正确性(问题:验证器也可能出错)。

c)LLM自我验证:让LLM自我评估(已被证明存在问题,容易产生过度自信)。

  • 迭代改进:如果验证失败,可以将错误信息反馈给生成器,让其重新生成,形成“生成-测试-修正”循环。

  • 核心见解:

这本质上是将搜索或规划过程外包给了测试时的计算循环,而非内化于模型权重中。

  • 根本问题:成本爆炸。计算成本不再与输出长度成正比,而是与问题的内在计算复杂度成正比,颠覆了LLM按token计费的传统商业模式。

2. 训练后方法(基于推导轨迹,Post-Training on Derivational Traces)

Figure 2:Post-training Approaches for teasing out reasoning
  • 核心思想:在标准预训练后,使用包含“解题步骤”(推导轨迹)的数据对模型进行进一步训练,教会模型在输出答案前,先输出类似的中间步骤。

  • 关键过程:

    (1)轨迹数据获取(最大难点):

1)人工标注:高质量但代价极高(如GSM8K数据集)。

2)合成生成:使用传统求解器(如A*搜索)自动生成问题解及其完整的搜索轨迹(如SearchFormer)。轨迹准确但领域受限。

3)LLM生成后过滤:让LLM自己生成步骤(利用其预训练中已有的“步骤示范”数据),然后通过验证器过滤出最终答案正确的轨迹(无论中间步骤是否真正合理)。这是当前主流方法。

  • 模型训练:

(1)监督微调:直接在(问题,推导轨迹,答案)数据上微调。

(2)强化学习:更先进的方法(如DeepSeek R1)。

2.1)过程:对于可验证的问题,让模型生成多条带“痕迹”的答案。

2.2)奖励:仅根据最终答案的正确与否给予奖励/惩罚。

2.3)效果:模型参数被调整,使得能导致正确答案的输出模式(包括其前面的“痕迹”)概率增大。

2.4)知识蒸馏:将经过RL训练的“教师模型”的输出作为数据,去训练一个更小的“学生模型”,可以免去昂贵的RL过程。

(3)核心见解:

  • 痕迹的语义虚假性:训练目标只关心最终答案正确。模型学会的是一种能“讨好”奖励信号的输出格式(先输出一堆token,然后输出答案),这些中间token不一定构成逻辑推理,而可能是任何有助于提高最终答案正确率的模式。
  • 本质是编译验证信号:该过程可以理解为将外部验证器(在训练时使用)的“测试”能力,部分地编译到了生成模型的“生成”倾向中。即“智能是将‘生成-测试’中的测试部分转移到生成部分”(明斯基)。

三、对LRM的批判性见解(打破误解)

1. 中间token不是“思考痕迹”

  • 模型生成的“让我们一步步思考…”等文本,是对预训练数据中人类解题风格的模仿,而非内部计算过程的反映。作者戏称为“大型喃喃自语模型”。
  • 证据:即使在专门训练输出求解器轨迹的模型(如SearchFormer)中,其输出的“步骤”也常包含违反基本算法规则的操作(如从开放列表中删除不存在的节点),但这些错误轨迹有时仍能“蒙对”最终答案。这说明轨迹的正确性并非必要。

2. 性能提升的来源是“提示增强”,而非获得推理能力:

Figure 4:Augmenting a task prompt with additional tokens often seems to improve the accuracy of LLM completion even if the tokens don’t have human-parseable meaning.

  • 给LLM一个更长的、特定格式的提示词(如包含“步骤”),即使这些附加token对人类毫无意义,也能提高其答案准确性。
  • LRM的训练后方法,实质上是将这种有效的“提示增强”动态地、内化地置于每次生成的开头。模型学会了自己为自己“铺垫”一段有利于解题的上下文。

3. 泛化能力脆弱

  • 在简单规划任务(Blocksworld)上表现尚可,但一旦对对象和动作进行重命名(Mystery Blocksworld),性能就大幅下降。这表明模型严重依赖表面词汇的匹配,而非抽象的逻辑结构理解。
  • 面对不可解问题时,LRM会自信地生成虚假计划并配上看似合理的解释,存在“ gas lighting ”(误导)用户的风险。

4. 与LLMs没有根本性架构区别

  • 仅经过训练后的LRMs,在推理时仍然是接收提示,自回归地生成token。其架构与普通LLM完全相同。
  • 唯一改变的是模型输出token序列的概率分布:它现在更倾向于先生成一段“类推导痕迹”的token,再生成答案。没有自适应计算,生成长度在训练时已大致确定。

四、核心流程图解:LRMs的工作原理与本质

以下图表概括了上述所有关键过程和见解:

五、未来方向与建议

  • 去拟人化:放弃让中间token像人类“思考”,转而探索高效、压缩、符号化的中间表示,纯粹以提升最终准确性为目标进行优化(类似AlphaZero学习价值函数)。
  • 混合系统定位:LRMs不应被视为独立的“推理者”,而应作为增强型的提议生成器,集成在如LLM-Modulo的框架中,由外部验证器提供可靠性保证。
  • 重新审视评估:需要超越最终答案准确率的基准测试,设计能测评推理过程稳健性、泛化性和成本效率的评估体系。

总而言之,本文揭示了LRMs“推理”能力背后的工程本质,对其过度拟人化的解读提出了有力批判,并为更稳健、可靠的AI系统设计指明了方向。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1190291.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

双证认证落袋!熊家无二领跑韩式炸鸡赛道 - 中媒介

2026年1月,韩式炸鸡赛道传来重磅喜讯:头部品牌熊家无二斩获两项权威认证,经尚普咨询集团(全国首批获工程咨询甲级资信、具备国家统计局涉外调查许可证的权威第三方机构)严格调研核验,成功摘得“琥珀酱炸鸡首创者…

Excel函数进阶:SUM与AVERAGE不为人知的智能用法

SUM不只是求和,AVERAGE也不只是算平均——当你掌握这些进阶技巧,就会发现它们其实是Excel中的“条件计算大师”。 一、SUM函数的深度进化:从简单求到智能累计 经典误区:SUM只是“计算器” 大多数用户对SUM的理解停留在SUM(A1:A1…

wxauto微信自动化终极指南:简单快速实现免费自动化操作

wxauto微信自动化终极指南:简单快速实现免费自动化操作 【免费下载链接】wxauto Windows版本微信客户端(非网页版)自动化,可实现简单的发送、接收微信消息,简单微信机器人 项目地址: https://gitcode.com/gh_mirrors…

选购指南:如何挑选性价比高的精密排刀机品牌? - 品牌推荐大师

一、行业背景:制造业升级与政策驱动下的技术革新 精密排刀机作为数控机床的核心分支,其发展紧密依托于全球制造业的转型升级需求。随着航空航天、新能源汽车、高端装备等产业对零件加工效率与精度的要求日益严苛,传…

如何快速掌握ZeroOmega:终极代理管理工具完整指南

如何快速掌握ZeroOmega:终极代理管理工具完整指南 【免费下载链接】ZeroOmega Manage and switch between multiple proxies quickly & easily. 项目地址: https://gitcode.com/gh_mirrors/ze/ZeroOmega 在当今复杂的网络环境中,ZeroOmega作为…

XHS-Downloader:小红书无水印批量下载终极解决方案

XHS-Downloader:小红书无水印批量下载终极解决方案 【免费下载链接】XHS-Downloader 免费;轻量;开源,基于 AIOHTTP 模块实现的小红书图文/视频作品采集工具 项目地址: https://gitcode.com/gh_mirrors/xh/XHS-Downloader 还…

碧蓝航线全皮肤解锁终极教程:5步轻松拥有所有限定外观

碧蓝航线全皮肤解锁终极教程:5步轻松拥有所有限定外观 【免费下载链接】Perseus Azur Lane scripts patcher. 项目地址: https://gitcode.com/gh_mirrors/pers/Perseus 还在为碧蓝航线中那些精美但昂贵的皮肤而烦恼吗?Perseus开源项目为你带来完美…

MGWR空间分析技术突破:多尺度建模的实践探索与深度解析

MGWR空间分析技术突破:多尺度建模的实践探索与深度解析 【免费下载链接】mgwr 项目地址: https://gitcode.com/gh_mirrors/mg/mgwr 🌟 从实际问题出发:为什么需要多尺度空间分析? 在传统空间数据分析中,我们常…

Awoo Installer:Switch游戏安装的终极效率革命

Awoo Installer:Switch游戏安装的终极效率革命 【免费下载链接】Awoo-Installer A No-Bullshit NSP, NSZ, XCI, and XCZ Installer for Nintendo Switch 项目地址: https://gitcode.com/gh_mirrors/aw/Awoo-Installer 还在为Switch游戏安装的繁琐流程而烦恼吗…

全网最全10个AI论文工具,专科生轻松搞定毕业论文!

全网最全10个AI论文工具,专科生轻松搞定毕业论文! AI 工具助力论文写作,专科生也能轻松应对 随着人工智能技术的不断进步,越来越多的 AI 工具被应用到学术写作领域。对于专科生来说,撰写毕业论文常常面临时间紧、资料少…

中兴光猫配置解密工具:轻松掌握网络配置的终极武器

中兴光猫配置解密工具:轻松掌握网络配置的终极武器 【免费下载链接】ZET-Optical-Network-Terminal-Decoder 项目地址: https://gitcode.com/gh_mirrors/ze/ZET-Optical-Network-Terminal-Decoder 还在为看不懂光猫配置文件而烦恼吗?中兴光猫配置…

震惊!大模型“推理“竟是“大型喃喃自语“?揭秘AI推理背后的惊天真相,小白程序员看完直呼内行!

这篇文章《(How) Do Reasoning Models Reason?》对当前大型推理模型(LRM)进行了深刻的剖析,超越了表面的性能宣传,直指其技术本质和核心局限。以下是基于原文的详细技术原理、关键过程与核心见解拆解。 一、核心论点与总览 LRM&…

FileSaver.js实战解析:前端文件下载的终极解决方案

FileSaver.js实战解析:前端文件下载的终极解决方案 【免费下载链接】FileSaver.js An HTML5 saveAs() FileSaver implementation 项目地址: https://gitcode.com/gh_mirrors/fi/FileSaver.js 你是否曾遇到过这样的场景:用户点击下载按钮&#xff…

Adv. Optical Mater.:自洽磁-光耦合模型揭示Bloch点如何产生光学手性与轨道角动量

01导语你有没有想过,光除了直线传播、反射折射之外,还能与磁性材料中一种叫做“Bloch点”的奇特结构发生深刻互动,甚至产生新的光学特性?最近,一篇发表在《Advanced Optical Materials》上的研究,首次系统揭…

京东图书×光明网“2025年度百大好书”出炉,CDA数据分析师一级教材《CDA商业数据分析》获奖

近日,由京东图书与光明网联合推出的“2025年度百大好书”活动圆满结束。这份完全由读者投票选出的好书清单,不仅为广大读者提供了一份年度阅读指南,同时也为创作者提供了洞察市场趋势、理解读者偏好的参照。本次“2025年度百大好书”&#xf…

【爆肝总结】大语言模型编程全攻略:从入门到精通,小白也能秒变AI编程大神!

上个月,我朋友找我帮忙写年终总结。 我说,用ChatGPT啊。 他愣了:“那东西不是聊天机器人吗?能写总结?” 10分钟后,他拿着ChatGPT生成的初稿,眼睛都直了。 “这怎么做到的?” 这…

大模型杀疯了!2026国内LLM技术突破,程序员必学技能

国内大语言模型(LLM)研究与应用最新进展综述(截至2026年1月) 摘要:近年来,国内大语言模型(Large Language Models, LLM)在模型迭代、训练技术优化、场景落地等方面取得突破性进展&a…

iOS个性化工具终极指南:免越狱深度定制完整教程

iOS个性化工具终极指南:免越狱深度定制完整教程 【免费下载链接】CowabungaLite iOS 15 Customization Toolbox 项目地址: https://gitcode.com/gh_mirrors/co/CowabungaLite Cowabunga Lite是一款专为iOS 15设备设计的免越狱个性化定制工具,让你…

震惊!2025大模型技术革命:从推理到编程智能体,小白程序员的进阶之路

2025年是大模型之年,这一年充满了各种不同的趋势。本文来自原文精心整理: https://simonwillison.net/2025/Dec/31/the-year-in-llms/ 推理之年 OpenAI在2024年9月通过o1和o1-mini开启了"推理"革命,也称为推理扩展或基于可验证奖…

救命!大模型(LLM)工程师需求暴增,小白程序员如何抓住这波AI红利?2026年IT新贵养成指南

到2026年,大型语言模型将不再是“实验性工具”,而将成为核心基础设施。 过去三年,大型语言模型(LLM)已从研究实验室走向生产系统,为客户支持、搜索、分析、编码助手、医疗保健工作流程、金融和教育等领域提…