突破!LLM自我批评让规划能力暴涨89.3%!DeepMind新方法,不依赖外部验证,小白程序员也能轻松掌握!

大家好,我是PaperAgent,不是Agent!

不借助外部验证器,只让 LLM 反复“自评 + 重写”,就能把 Blocksworld 准确率从 49.8% 飙到89.3%,刷新多项规划 benchmark 的记录。

Self-Critique 带来的暴涨

🖼️ 整体流程一图胜千言

图 1:迭代自评示意

图 1:LLM = 探险家,每轮先“画地图”(生成计划),再“检查地图”(自评),把失败扔进背包,下次再画新地图。

🔍 为什么“自我批评”突然灵了?

过往研究(Valmeekam’23、Huang’24)认为 LLM 自评=假阳性之王,原因:

  1. 不会真的“逐步验证”动作前提;
  2. 没有外部 Oracle 给反馈,越改越错。

本文对症下药:

  • 显式状态追踪:强制模型每步输出“前提-结果”状态;
  • 失败记忆池:把历史错误计划+批评拼回 prompt,避免重蹈覆辙;
  • 自一致性投票:同一计划让模型评 5 次,多数表决降低误判。

⚙️ 方法拆解

算法 1 :

  • plan_prompt:16-shot 手工示例(Blocksworld 用 PDDL 描述)
  • critique_prompt:零-shot,只给领域定义+“请逐步验证每条动作前提”

🧪 消融实验:哪个组件最值钱?

去掉的组件准确率掉到结论
逐步验证每条动作57.5%最值钱
去掉领域定义74.4%仍部分可用
去掉自一致性85.5%2-3 pp 差距

🌟 跨模型验证:不是 Gemini 一家独秀

模型基线Self-Critique提升
GPT-4o42.8%64.2%+21.4 pp
Claude 3.5 Sonnet68.0%89.5%+21.5 pp
Gemma-2 27B微升小模型收益有限

💡 实用启示 & 未来方向

  1. Prompt 即插件:零-shot 批评模板直接复用到新领域,无需重新训练。
  2. 成本可控:平均只需 6~14k tokens(≤10 轮迭代)即可收敛。
  3. 下一步
  • 把“自评”接入 MCTS/ToT 做树搜索;
  • 在真实世界规划(旅行、项目管理)上试规模;
  • 研究如何减少“假阳性”进一步逼近 Oracle。

🏁 结语

当 LLM 被“强迫”做一位严格的老师,给自己每份作业打红叉,它居然真能把错误率压到新低。
Intrinsic Self-Critique不仅刷新了规划 SOTA,更为“无监督自我提升”提供了一条极简却强大的新范式。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1190176.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浙大西湖Ant团队:让大语言模型用“听“来优化“看“的压缩技术

这篇由浙江大学、西湖大学和蚂蚁集团联合发表的开创性研究,发表于2025年11月的arXiv平台(论文编号:arXiv:2511.14582v1),为多模态大语言模型的效率提升开辟了全新道路。该研究的第一作者是来自浙江大学的陶科达&#x…

程序员必看!COTA游戏AI架构大揭秘:从LLM大脑到毫秒级执行,这才是真正的“思考型“智能体!

不讲武德!游戏圈这回真是被AI抄家了。(doge) 这两天,一个ID名为**「快递员」**的神秘游戏账号引起全网围观。 51小时高强度排位,胜率一度逼近93%,直接碾压式登顶韩服LOL。 相关词条更是直冲热搜第一&…

Mastercam许可管理入门指南

在制造业中,Mastercam以其卓越的数控编程和加工功能成为行业中的佼佼者。然而,对于许多新用户或初次接触Mastercam的用户来说,许可管理可能是一个陌生的领域。本文旨在为您提供一份Mastercam许可管理的入门指南,帮…

【深度解析】2025大模型架构内卷升级!DeepSeek、Mistral、NVIDIA最新模型技术全攻略,小白也能看懂的LLM进化史

自最初的 GPT 架构被提出以来,已经过去了七年。乍一看,从 2019 年的 GPT-2 回顾,再展望 2024–2025 年的 DeepSeek V3 和 Llama 4,人们或许会惊讶地发现,这些模型在结构上依然高度相似。 比较不同的大语言模型&#x…

如何快速掌握PvZ Toolkit:游戏修改的终极指南

如何快速掌握PvZ Toolkit:游戏修改的终极指南 【免费下载链接】pvztoolkit 植物大战僵尸 PC 版综合修改器 项目地址: https://gitcode.com/gh_mirrors/pv/pvztoolkit 还在为植物大战僵尸中的资源不足而烦恼吗?PvZ Toolkit作为植物大战僵尸PC版的终…

油门刹车来回切换的ACC系统到底咋做的?今天咱们直接开撸Simulink+CarSim联合仿真。注意看这个PID控制模块的代码,老司机都爱这么玩

ACC自适应巡航控制模型simulink模型+carsim设置 可选购模型说明文件和操作说明(联系前请明确需求知识类商品出售不退)function [acc_cmd, mode_flag] ACC_Controller(v_ego, v_set, gap_actual, gap_target)persistent integral_error;if is…

[USACO09OPEN] Work Scheduling G

[USACO09OPEN] Work Scheduling G 依旧糖的要死 题目大意 总共 \(N\) 项工作,每个工作两个参数 \(D_i\)(截至日期) 和 \(P_i\)(所获利润),时间 \(0\) 开始,总共有 \(10^9\) 个时间单位。他目前可以从 \(N\) 项工…

救命!制造业AI Agent这么强?架构拆解+实战案例+ROI计算,一篇搞定!

双轨价值:为开发者解析Agent架构,为企业主量化投资回报 引言:制造业的认知革命 当AI从“感知”走向“决策”,AI Agent(人工智能代理)正成为智能工厂的“超级大脑”。它不再只是识别缺陷,而是理…

5分钟掌握AMD Ryzen处理器精准调优:SMU调试工具完全指南

5分钟掌握AMD Ryzen处理器精准调优:SMU调试工具完全指南 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://…

AI Agent架构保姆级教程:从“懵圈“到“精通“,四层闭环+四步路径,让你少走90%弯路

当前 AI Agent 的主流架构,普遍采用“分层式系统”设计,其核心包括: 以大模型为认知中枢,通过工具与记忆进行能力增强,再由 Agent 编排逻辑驱动执行环境,最终以产品化形态对外提供服务。这一分层已成为业界…

Linux性能排查实战:从“系统慢”到精准定位

大家好,我是刘叨叨,一个致力于让碎片化技术系统性的运维人。 监控大盘一片“绿色”,业务却喊“卡爆了”?别慌,今天分享一套直击要害的排查心法,让你快速把模糊的“系统慢”变成清晰的定位结论。 一、核心思路:先…

【硬核干货】大模型开发核心:预训练技术深度剖析,附完整代码实现!

在逐一熟悉各类主流 AI 应用场景:聊天交互、检索增强生成(RAG)知识库、网络搜索、工具调用、AI Coding等之后,接下来就是要进一步探究这些应用的核心支撑 —— 大语言模型(LLM, Large Language Model)的底层…

终极游戏手柄测试指南:零配置实时检测解决方案

终极游戏手柄测试指南:零配置实时检测解决方案 【免费下载链接】gamepadtest Gamepad API Test 项目地址: https://gitcode.com/gh_mirrors/ga/gamepadtest Gamepad API Test 是一款专为游戏开发者和玩家设计的轻量级手柄测试工具,能够实时可视化…

2026冷风机厂家权威推荐榜:奥德冷风机、工业冷风机、冷风机供应商及品牌实力解析

在工业制冷与通风领域,冷风机作为核心设备,其性能与稳定性直接影响生产效率与能耗成本。据行业数据显示,2025年国内冷风机市场规模已突破120亿元,年复合增长率达8.3%,其中工业冷风机占比超65%。面对市场需求的多元…

2026年学术论文降AI实战测评:谁是过关斩将的利器? - 品牌观察员小捷

步入2026年,学术界对AIGC的监管力度达到了前所未有的高度。随着各大期刊和高校将“AI率”列为与“查重率”同等重要的考核指标,毕业生们面临着严峻挑战。数据显示,超过七成的应届生在论文提交前都遭遇了AI检测超标的…

AI训练数据集供应商推荐:专业图片、视频、AI数据训练服务商精选 - 品牌2025

在人工智能模型训练如火如荼的今天,高质量、合规化的数据已成为决定项目成败的基石。无论是寻求AI训练图片素材供应商、AI训练视频素材供应商,还是更广泛的AI训练数据集供应商,企业面临的共同挑战是如何从海量信息中…

科研新范式:Claude 4.5 Sonnet 深度集成 Benchling,打通实验与写作全链路 - 147API

科研效率的瓶颈,很多时候不在“实验做不出来”,而在“做出来之后跑不成链路”。记录写在 Benchling,证据散在 PubMed,分析在脚本/表格里滚来滚去,最后写作又回到 Word/Overleaf:一旦项目变复杂,团队就会把大量时…

抖音内容高效下载攻略:告别水印困扰,轻松备份原创作品

抖音内容高效下载攻略:告别水印困扰,轻松备份原创作品 【免费下载链接】douyin-downloader 项目地址: https://gitcode.com/GitHub_Trending/do/douyin-downloader 还在为抖音视频的水印烦恼吗?想要批量下载学习素材却无从下手&#…

【CDA干货】5款神级AI数据分析工具,帮你搞定 80% 的工作难题!

在数字化运营的时代,AI已成为处理数据的更强大、高效且易于接近的解决方案。 AI 不仅改变了数据处理的速度和准确性,还极大地降低了数据分析的门槛,让普通用户也能轻松驾驭复杂的数据分析任务。 一、AI在数据分析中的应用 众所周知&#x…

2025上海不锈钢控制柜厂家推荐:专精特新+高新技术认证指南 - 品牌排行榜

一、上海不锈钢控制柜市场的产业升级窗口 根据中国电器工业协会发布的《2024年电气成套设备行业发展报告》,上海地区不锈钢配电箱制造厂家年产值突破320亿元,占全国市场份额的18.7%。随着新能源汽车、半导体制造、生…