大家好,我是PaperAgent,不是Agent!
不借助外部验证器,只让 LLM 反复“自评 + 重写”,就能把 Blocksworld 准确率从 49.8% 飙到89.3%,刷新多项规划 benchmark 的记录。
Self-Critique 带来的暴涨
🖼️ 整体流程一图胜千言
图 1:迭代自评示意
图 1:LLM = 探险家,每轮先“画地图”(生成计划),再“检查地图”(自评),把失败扔进背包,下次再画新地图。
🔍 为什么“自我批评”突然灵了?
过往研究(Valmeekam’23、Huang’24)认为 LLM 自评=假阳性之王,原因:
- 不会真的“逐步验证”动作前提;
- 没有外部 Oracle 给反馈,越改越错。
本文对症下药:
- 显式状态追踪:强制模型每步输出“前提-结果”状态;
- 失败记忆池:把历史错误计划+批评拼回 prompt,避免重蹈覆辙;
- 自一致性投票:同一计划让模型评 5 次,多数表决降低误判。
⚙️ 方法拆解
算法 1 :
- plan_prompt:16-shot 手工示例(Blocksworld 用 PDDL 描述)
- critique_prompt:零-shot,只给领域定义+“请逐步验证每条动作前提”
🧪 消融实验:哪个组件最值钱?
| 去掉的组件 | 准确率掉到 | 结论 |
|---|---|---|
| 逐步验证每条动作 | 57.5% | 最值钱 |
| 去掉领域定义 | 74.4% | 仍部分可用 |
| 去掉自一致性 | 85.5% | 2-3 pp 差距 |
🌟 跨模型验证:不是 Gemini 一家独秀
| 模型 | 基线 | Self-Critique | 提升 |
|---|---|---|---|
| GPT-4o | 42.8% | 64.2% | +21.4 pp |
| Claude 3.5 Sonnet | 68.0% | 89.5% | +21.5 pp |
| Gemma-2 27B | 略 | 微升 | 小模型收益有限 |
💡 实用启示 & 未来方向
- Prompt 即插件:零-shot 批评模板直接复用到新领域,无需重新训练。
- 成本可控:平均只需 6~14k tokens(≤10 轮迭代)即可收敛。
- 下一步:
- 把“自评”接入 MCTS/ToT 做树搜索;
- 在真实世界规划(旅行、项目管理)上试规模;
- 研究如何减少“假阳性”进一步逼近 Oracle。
🏁 结语
当 LLM 被“强迫”做一位严格的老师,给自己每份作业打红叉,它居然真能把错误率压到新低。
Intrinsic Self-Critique不仅刷新了规划 SOTA,更为“无监督自我提升”提供了一条极简却强大的新范式。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~