一文读懂Agent模型思维链:从概念到实现,提升AI推理稳定性

本文解析了Agent模型中的思维链技术,介绍了Claude的Interleaved Thinking、MiniMax的Thinking-in-Tools等不同实现方式。将思考内容带入上下文可提升多轮推理稳定性,减少推理偏差,并通过签名校验和加密保障安全性。思维链已成为Agent多步骤推理的必需品,能有效提升复杂任务处理效果,但也带来模型稳定性挑战,需要厂商提供纠错机制。


关于 Agent 模型的思维链,之前被几个高大上的词绕晕了,claude 提出 Interleaved Thinking(交错思维链),MiniMax M2 用了同样的概念,K2 叫 Thinking-in-Tools,Deepseek V3.2 写的是 Thinking in Tool-Use,gemini 则是 Thought Signature(思考签名)。了解了下,概念上比较简单,基本是一个东西,就是定义了模型思考的内容怎样在 Agent 长上下文里传递。

是什么

在25年年初 DeepSeek 的轰炸下,思考模型大家都很熟悉了,在 Chatbot 单轮对话中,模型会先输出思考的内容,再输出正文。再早的 GPT-o1 也一样,只不过 o1 不把完整的思考内容输出。

在 Chatbot 进行多轮对话时,每一次思考的内容是不会再带入上下文的。每次到下一轮时,思考的内容都会被丢弃,只有用户 prompt 和模型回答的正式内容会加到上下文。因为在普通对话的场景下没必要,更倾向于单轮对话解决问题,长上下文会干扰模型,也会增加 token 消耗。

这些思考模型用到 Agent 上,就是下图这样,每次模型输出工具调用,同时都会输出思考内容,思考应该调什么工具,为什么调,但下次这个思考内容会被丢弃,不会带入上下文:

Agent 的 loop 是:用户输入 → 模型输出工具调用 → 调用工具得出结果 → 模型输入下一步工具调用 → 调用工具得出结果 → …. 直到任务完成或需要用户新的输入。

这不利于模型进行多轮长链路的推理,于是 claude 4 sonnet 提出把 thinking 内容带入上下文这个事内化到模型,以提升 Agent 性能,上下文的组织变成了这样:

就这样一个事,称为 Interleaved Thinking,其他的叫法也都是一样的原理。

为什么要带 thinking

面向 Chatbot 的模型,倾向于一次性解决问题,尽量在一次 thinking 后一次输出解决问题。

Agent 相反,倾向于多步不断跟环境(tool和user)交互解决问题。

Agent 解决一个复杂问题可能要长达几十轮工具调用,如果模型对每次调用工具的思考内容都抛弃,只留下结果,模型每次都要重新思考每一轮为什么要调这个工具,接下来应该调什么工具。这里每一次的重新思考如果跟原来的思考推理有偏移,最终的结果就会有很大的出入和不稳定,这种偏移在多轮下几乎一定会发生。

如果每一轮调用的思考内容都放回上下文里,每次为什么调工具的推理逻辑上下文都有,思维链完整,就大大减少了模型对整个规划的理解难度和对下一步的调用计划的偏差。

有没有带 thinking 内容,对效果有多大差别?MiniMax-M2提供了他们的数据:

在像 Tau 这种机票预订和电商零售场景的任务 benchmark 提升非常明显,这类任务我理解需要操作的步数更多(比如搜索机票→筛选过滤→看详情→下单→支付),模型在每一步对齐前面的思路很重要,同一个工具调用可能的理由随机性更大,每一步的思考逻辑带上后更稳定。

工程也能做?

这么一个简单的事,不用模型支持,直接工程上拼一下给模型是不是也一样?比如手动把思考内容包在一个标签()里,伪装成 User Message 或 ToolResult 的一部分放在里面,也能达到保留思考的效果。

很多人应该这样做过,但跟模型原生支持还是有较大差别。

工程手动拼接,模型只会认为这部分仍是用户输入,而且模型的训练数据和流程没有这种类型的用户输入和拼接,效果只靠模型通用智能随意发挥。

模型原生支持,训练时就可以针对这样规范的上下文训练,有标注大量的包含思考过程的trajectory轨迹数据训练,响应的稳定性必然会提升,这也是 Agent 模型的重点优化点之一。

签名

上述工具调用的 thinking 内容带到下一轮上下文,不同的模型做了不同额外的处理,主要是加了不同程度的签名,有两种:

thinking 内容原文,带签名校验

claude 和 gemini 都为 thinking 的内容加了签名校验,带到下一轮时,模型会前置判断思考内容有没有被篡改。

为什么要防 thinking 内容被篡改?毕竟 prompt 也可以随便改,同样是上下文的 thinking 内容改下也没什么。

主要应该是篡改了模型的 thinking 内容会打乱模型的思路,让效果变差,这也是需要避免的。

另外模型在训练和对齐时,已经默认 thinking 是模型自己的输出,不是用户随意的输入,这是两个不同类型的数据,如果实际使用时变成跟Prompt一样可随意篡改,可能有未知的安全问题。

不过国内模型目前没看到有加这个签名校验的。

thinking 内容加密

claude 在一些情况下不会输出自然语言的 thinking 内容,而是包在redacted_thinking里,是一串加密后的数据。

而 gemini 2.5/3.0 的 Agent 思维链没有明文的 thinking 字段,而是 thought_signature,也是一串加密后的数据。

用这种加密的非自然语言数据,一个好处是,它可以是对模型内部更友好、压缩率更大的数据表述方式,也可以在一些涉及安审的场景下内容不泄露给用户。

更重要的还是防泄漏,这就跟最开始 GPT o1 不输出所有思考内容一样,主要是为了不暴露思考过程,模型发布后不会太轻易被蒸馏。

最后

目前 claude 4 sonnet、gemini 3 在 Agent 工具调用的场景下,都强制要求带工具调用的思考内容和签名,这个链路正常是能很大程度提升整体的推理执行效果,是 Agent 多步骤推理的必需品。

但目前 Agent 模型的稳定性还是个问题,例如在某些场景下,业务逻辑明确需要下一步应该调工具 A,但模型思考后可能就是会概率性的调工具B,在以前是可以直接 hack 替换调工具调用,或手动插入其他工具调用,没有副作用。

但在思维链这套机制下比较麻烦,因为没法替模型输出这个工具调用的思考内容,一旦打破这个链,对后续推理的效果和稳定性都会有影响。

可能模型厂商后续可以出个允许上层纠错的机制,例如可以在某个实际告诉函数工具选择错误,重新思考,原生支持,弥补模型难以保障稳定的不足。

如何系统的学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)





第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1160114.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Marktech推出转模成型封装

Marktech推出新型光电二极管和LED封装,提升光学性能Marktech光电与制造合作伙伴Optrans正在推出新型转模成型光电二极管和LED封装技术,目前处于开发阶段,计划于2026年第二季度向首批客户提供。这些下一代光子学封装适用于355纳米至2300纳米的…

大模型推理服务冷启动优化:从10分钟到秒级的实现技巧

本文介绍百度智能云团队基于vLLM框架对大模型推理服务的冷启动优化,通过跨实例模型权重加载加速、中间状态复用、延迟CUDA Graph捕获、守护实例预铺等技术,将Qwen3-235B-A22B模型的推理服务启动时间从近10分钟缩短到6秒以内。文章详细分析了冷启动的主要…

2026本科生必备9个降AI率工具测评榜单

2026本科生必备9个降AI率工具测评榜单 2026年本科生必备降AI率工具测评:为何需要这份榜单? 近年来,随着AIGC检测技术的不断升级,越来越多的本科生在撰写论文时遭遇了AI率过高的问题。无论是课程论文、毕业设计还是科研项目&#x…

【路径规划】基于A-star、PRM、RRT、人工势场法实现机器人路径规划算法附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f34…

2025年大模型深度解析:5个颠覆认知的技术真相,小白到程序员必看

本文揭示了2025年大语言模型的5个关键进展:模型训练成本远低于预期;AI排行榜可信度下降;真正的进步来自更聪明的推理与工具调用,而非单纯扩大规模;AI更像国际象棋搭档而非替代者;私有数据成为AI竞争新焦点。…

AI产品岗火爆招聘:校招1-2个月上岸,社招2-4个月转行!收藏这份大模型转行指南

文章介绍AI产品岗位招聘火爆情况,强调12月是转行AI最佳启动点,可避开内卷。详细列举2026年AI高薪岗位TOP4及薪资范围,提供校招1-2个月、社招2-4个月的转行路径。分享学员成功案例,展示双非本科、30等不同背景人士转行成果&#xf…

many sum【牛客tracker 每日一题】

many sum 时间限制:1秒 空间限制:512M 网页链接 牛客tracker 牛客tracker & 每日一题,完成每日打卡,即可获得牛币。获得相应数量的牛币,能在【牛币兑换中心】,换取相应奖品!助力每日有题…

【无人机三维路径规划】基于非支配排序遗传算法NSGA-II实现城市 山地 郊区环境下无人机三维路径规划 路径总长度最短(能耗最少)规避障碍物 安全性最高 飞行稳定性 飞行高度合理附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f34…

UR5机械臂PID轨迹跟踪控制控制,六自由度机械臂simscape物理仿真,需要可以提供DH参...

UR5机械臂PID轨迹跟踪控制控制,六自由度机械臂simscape物理仿真,需要可以提供DH参数表,坐标系表示,三维模型,可以导出角度,角速度,角加速度以及力矩,误差曲线图机械臂轨迹跟踪这事儿…

1]模型简介:COMSOL Multiphysics生成粗糙裂隙与分形系数应用 ‘[2]案例内...

[1]模型简介:COMSOL Multiphysics生成粗糙裂隙,可考虑分形系数。 [2]案例内容:数值模型,matlab数据。 [3]模型特色:额外点云法生成粗糙裂隙视频代码。裂隙的粗糙度直接影响着地下流体运移规律,这种天然的不…

基于SpringBoot的高校实习管理系统毕设源码

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在设计并实现一个基于SpringBoot的高校实习管理系统,以提升高校实习管理的效率和准确性。具体研究目的如下: 首先,通…

Claude Code 最佳实践的 8 条黄金法则

为什么同样是调用 Claude,有的人能写出工业级代码,而有的人只是在不断堆积“技术债”? 今天分享一位拥有 7 年 Amazon、Disney 大厂经验、现任创业公司 CTO 分享的实战指南。他把 Claude Code 当作每日主力工具,并总结出了一套高阶…

【滤波跟踪】基于EkF和无迹卡尔曼滤波(UKF)的目标跟踪Matlab代码,核心是利用笛卡尔坐标系下的状态转移模型处理位置、速度等状态估计

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f34…

Pixel Streaming 实战配置

目录 Pixel Streaming 配置分辨率 Pixel Streaming 配置分辨率 (1) 命令行参数) 启动 UE5 的 Pixel Streaming 服务器时,可以在命令行里加: PixelStreamingURLhttp://127.0.0.1:8888 ResX1920 ResY1080 或者在 Windows 打包的 .exe 后面:…

SpringBoot的高校宣讲会管理系统

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在设计并实现一个基于SpringBoot的高校宣讲会管理系统,以提升高校宣讲会的组织效率和管理水平。具体研究目的如下: 首先&#xf…

Pixel Streaming 实战配置

目录 Pixel Streaming 配置分辨率 Pixel Streaming 配置分辨率 (1) 命令行参数) 启动 UE5 的 Pixel Streaming 服务器时,可以在命令行里加: PixelStreamingURLhttp://127.0.0.1:8888 ResX1920 ResY1080 或者在 Windows 打包的 .exe 后面:…

Flow-Planner代码阅读(2):数据加载

一、数据加载 dataset 代码在flow_planner/data/dataset/nuplan.py中,类名NuPlanDataset(),通过__getitem__()函数随机获取某一帧数据。def __getitem__(self, idx) -> NuPlanDataSample:data np.load(os.path.join(self.data_dir, self.data_list[i…

四策略融合改进SSA优化BP神经网络分类预测(MISSA-BP) 改进点文献 目前相关分类文章...

四策略融合改进SSA优化BP神经网络分类预测(MISSA-BP) 改进点文献 目前相关分类文章数量中外都不是很多 改进创新足,抓紧入手抓紧发个人感觉英文开源中文核心都不是问题 改进点:中文注释清晰 融合spm映射、自适应-正余弦算法、levy机制、步长因子动态调整…

数据服务开源-SqlRest 1.6 idea中启动 (pg版)

核心参考mysql版部署:SqlRest数据服务项目基于Idea开发环境搭建https://blog.csdn.net/wen811651208/article/details/156546012 主要的修改点在于 环境变量中的数据库类型 和 连接参数。由于 SqlRest 是一个通用的数据服务中间件,切换数据库通常只需要修改对应的连…