让 AI 自己打怪升级,Meta用Self-play RL把Coding推向超级智能

MetaFAIR &MetaTBD Lab&卡内基等:朝着“超级智能软件工程 Agent”迈出了第一步。

SSR(Self-play SWE-RL)首次让大模型在“零人类标注”的情况下,仅靠自生成 Bug + 自修复的左右互搏,就能在 SWE-bench 系列 benchmark 上稳定碾压人类数据基线

为什么这件事重要?

Figure 1 展示了 SSR 的核心循环:

左:Bug-Injection Agent 生成含测试补丁的“Bug 制品”;右:Bug-Solving Agent 仅通过“测试补丁的逆”作为规格说明进行修复;二者共享同一套 LLM 权重,用 RL 同时更新。

旧范式(SFT/RLHF)新范式(SSR Self-Play)
依赖 GitHub Issue/PR、人类写好的自然语言描述与测试用例只需要一份能跑起来的 Docker 镜像(源码+依赖)
学的是“人类怎么修 Bug”学的是“自己如何制造并解决更难 Bug
数据标着天花板数据随训练无限增殖

方法精要

3.1 最小假设——“裸仓库”即可

  • 输入:一个打好依赖的 Docker 镜像
  • 不需要现成测试命令、Issue 描述、测试解析器、甚至语言类型标签
  • 所有测试发现/解析/运行命令,都由 Injection Agent现场探索出来

3.2 Bug 制品(Artifact)长什么样?

文件名作用
bug_inject.diff在业务代码里植入 Bug
test_weaken.diff会暴露 Bug 的断言删掉或弱化,制造“测试盲区”
test_script.sh可执行脚本,跑测试并输出文本日志
test_parser.py把文本日志转换成{test_id: pass/fail}的 JSON,供 RL 奖励计算
test_files.txt记录哪些测试文件参与验证,防止 Agent 靠改测试“作弊”

Figure 2 给出一个test_weaken.diff及其逆补丁——这就是Solver 端唯一收到的“规格说明书”

3.3 自博弈训练流程

  1. Injection 角色
  • 策略:代码整体删除orgit history 反 revert
  • 奖励:
    rinject= ⎩⎨⎧ −1.0 −α 1−(1+α)s 一致性失败 Bug 不可解(s=0)或太简单(s=1) 理想难度(0<s<1)
  • 目标:把 solve-rate s 拉到 ~0.2(理论最优见论文 §B)

  1. Solver 角色
  • 只看到“逆测试补丁”+ 报错仓库
  • 奖励:二进制,全部测试通过 +1,否则 -1
  • 失败尝试 → 直接当成高阶 Bug喂给下一轮自己,形成“错题本

  1. 参数共享 + 同时 RL 更新
    两个角色梯度一起回传,让模型同时学会“造难”和“解难”。

实验结果

4.1 主结果

Figure 8 显示在整个 150-step 训练轨迹上,SSR稳定自我提升,并全程压制人类数据基线:

BenchmarkCWM-sft 起点人类数据 RLSSR(Self-Play)Δ
SWE-bench Verified22.1 %25.3 %35.7 %+10.4
SWE-Bench Pro21.1 %24.4 %32.2 %+7.8

注:人类数据 RL = 同款镜像 + 自然语言 Issue + 人工测试脚本;SSR 完全没有这些。

4.2 消融实验

Figure 9 给出三把 ablation 小刀:

  1. Injection-OnlyRepair-Only都会掉分 → 必须双角色一起练
  2. Bug 植入策略
  • 直接瞎改 → collapse 到一行 trivial 改值
  • Removal+History融合 git 反 revert → 最逼真、分最高
  1. Solver 反馈给 Injection 奖励带来的提升微弱;真正关键的是在线共同进化的分布,而不是单点噪声信号。

理论洞察: challenger 的“最优解”

论文在 Appendix B 用博弈论证明:

  • 只要 challenger 的动作空间足够大(例如可以改测试),就能构造伪随机 fail的 dominant strategy,让 solver 永远只能达到目标 solve-rate p*≈0.2,无法真正学到修复能力
  • 缓解方案:把 challenger 锚定在真实、多样的代码库上,并限制其策略空间不偏离“自然 Bug”——SSR 正是这样做的。

如何学习AI大模型?

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!


第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1125681.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

医疗OCR用Tesseract稳缩写识别

&#x1f4dd; 博客主页&#xff1a;jaxzheng的CSDN主页 医疗OCR中Tesseract的稳定缩写识别&#xff1a;技术挑战与创新实践目录医疗OCR中Tesseract的稳定缩写识别&#xff1a;技术挑战与创新实践 引言&#xff1a;当缩写成为医疗数据的“隐形障碍” 一、医疗OCR缩写识别&#…

Thinkphp和Laravel框架的四川旅游学院校园水果自动售卖商城系统的设计与实现_yhyfhk6y

目录摘要项目开发技术介绍PHP核心代码部分展示系统结论源码获取/同行可拿货,招校园代理摘要 本研究基于ThinkPHP和Laravel框架&#xff0c;设计并实现了一款面向四川旅游学院校园的水果自动售卖商城系统。系统采用B/S架构&#xff0c;结合MySQL数据库&#xff0c;实现了用户管…

RAG架构完全指南:从标准到自适应,AI开发者必备的检索增强生成知识体系

文章详细介绍了9种RAG架构&#xff0c;包括标准RAG、对话式RAG、CRAG、Adaptive RAG等&#xff0c;分析了它们各自的适用场景、工作流程和优缺点。强调选择合适架构对项目成功至关重要&#xff0c;建议从简单开始&#xff0c;根据需求逐步增加复杂度&#xff0c;避免过度设计。…

【Go】Go环境搭建与第一个程序

Go环境搭建与第一个程序 前言 这篇是 Go基础合集 的第一篇学习笔记&#xff0c;这次整理的是 Go 语言的环境搭建和第一个程序。 想学一门新语言&#xff0c;第一步是什么&#xff1f;当然是把环境搭起来&#xff01;很多人卡在环境配置这一步就放弃了&#xff0c;其实 Go 的…

AI 外设接入 + 本地模型指定路径部署,FlowyAIPC v4.0.3 正式发布

【2026年01月06日】FlowyAIPC 全新 v4.0.3 版本正式发布&#xff0c;本次更新重点围绕「会议纪要反馈机制」「本地模型部署位置」以及「AI鼠标外设」同时对部分硬件配置下的功能策略进行了调整。 本地模型支持自定义部署位置 模型不再被“固定在一个路径里” 针对本地模型体…

STM32出现FLASH擦除失败异常现象分析及解决方法

目录 前言&#xff1a; 先说结论&#xff1a; 一、问题分析 二、异常排查 三、发现原因&#xff01; 四、如果这篇文章能帮助到你&#xff0c;请点个赞鼓励一下吧ξ( ✿&#xff1e;◡❛)~ 前言&#xff1a; 长颈鹿最近在使用STM32G070单片机进行项目开发&#xff0c;过程…

使用keychron Launcher改 K3Max 的功能键

解决问题的关键是发现并描述清楚问题 买了一个 K3Max 有一个痛点&#xff0c;每次按 F12 打开浏览器控制台&#xff0c;需要 fnF12。用起来非常累 看别人描述“而在我的日常工作中&#xff0c;常用的是F1&#xff5e;F12&#xff0c;期望F1~F12功能键和多媒体功能键的位置互换…

RAG(检索增强生成)架构与原理:告别LLM“幻觉”的秘密武器

写在前面的话 RAG是什么&#xff1f;如果你还不清楚或是一知半解&#xff0c;不要紧&#xff0c;如果看完这篇文章&#xff0c;你还不会&#xff0c;算我输&#xff01; 在人工智能飞速发展的今天&#xff0c;大型语言模型&#xff08;LLM&#xff09;以其强大的文本生成能力&a…

IEC-60958

IEC 60958 IEC 60958是一种传递数字音频的接口规范&#xff0c;相比I2S&#xff0c;IEC60958通过一根线同时传递时钟信号和数据信号。 IEC 60958在传输数据时使用双相符号编码(Biphase Mark Code)&#xff0c;简称BMC&#xff0c;属于一种相位调制(phase modulation)的编码方法…

RAG分块完全指南:7种核心策略详解,让你的大模型效果翻倍

本文详解RAG系统中分块(Chunking)策略这一关键环节&#xff0c;解析了7种主流分块方法&#xff1a;固定大小、语义、递归、文档、智能体、句子和段落分块。文章指出不存在"万能"策略&#xff0c;建议从512 tokens搭配10-15%重叠率开始&#xff0c;通过调试参数优化&a…

(加交叉验证)基于GPR的数据多变量回归预测 (多输入单输出)

目录 1、代码简介 2、代码运行结果展示 3、代码获取 1、代码简介 基于高斯过程回归GPR的数据多变量回归预测 (多输入单输出)交叉验证 程序已经调试好&#xff0c;无需更改代码替换数据集即可运行&#xff01;&#xff01;&#xff01;数据格式为excel&#xff01; 本程序…

大模型在自动驾驶中的应用:从VLA到端到端技术全解析

文章介绍了大模型在自动驾驶领域的应用&#xff0c;重点解析了VLA&#xff08;视觉-语言-动作&#xff09;技术与端到端的关系&#xff0c;并阐述了两种VLA实现方案&#xff1a;两阶段&#xff08;大模型Diffusion&#xff09;和单阶段&#xff08;纯大模型&#xff09;。同时提…

专科生必看!8个降AI率工具,高效避坑指南

专科生必看&#xff01;8个降AI率工具&#xff0c;高效避坑指南 AI降重工具&#xff1a;高效避坑的必备利器 随着人工智能技术的快速发展&#xff0c;越来越多的专科生在撰写论文时开始使用AI工具进行辅助。然而&#xff0c;AI生成的内容往往存在明显的“AI痕迹”&#xff0c;不…

JavaWeb相关环境安装

这篇博客我们讲一下JavaWeb相关得环境安装&#xff0c;用来后续完成前后端的项目部署。 1&#xff0c;JDK 1&#xff0c;下载安装包 下载安装包大家可以去官网进行下载&#xff0c;为了方便起见大家可以直接通过我提供的链接进行下载&#xff1a;JDK安装包&#xff0c;将下载后…

04|交付经理真正的 KPI 只有一个:可被接受的结果

在很多公司里&#xff0c;交付经理的 KPI 看起来非常“丰富”。 项目按期率里程碑完成率客户满意度验收通过率投诉数量 但如果你真的在一线做过交付&#xff0c;就会慢慢意识到一件事&#xff1a;这些 KPI&#xff0c;大多数只是“结果的影子”&#xff0c; 而不是交付真正被评…

小白也能学会!2024-2025年RAG系统高精度实现指南,企业级应用必备收藏

本文系统分析了企业级RAG系统面临的五大挑战&#xff0c;包括历史数据过时、文档分块破坏上下文、向量检索局限、图表理解瓶颈和流程缺乏灵活性。针对这些问题&#xff0c;文章提出了多种解决方案&#xff1a;选择合适的LLM和嵌入模型、建立评估体系、采用混合检索与重排序技术…

‌为什么供应商报价有13%和3%两种增值税?‌

为什么供应商报价有13%和3%两种增值税&#xff1f;‌ 13%税率‌&#xff1a;适用于‌一般纳税人‌销售‌货物、加工修理修配劳务、有形动产租赁‌等业务。例如&#xff1a;销售手机、电脑、机械设备、汽车配件、工业原材料等。 3%征收率‌&#xff1a;适用于‌小规模纳税人‌的…

参数高效微调三剑客:LoRA、MoLoRA与MoR1E的深度比较与应用指南

大模型微调的技术演进 在大型语言模型(LLM)时代&#xff0c;全参数微调(Full Fine-tuning)面临三大挑战&#xff1a; 计算资源消耗&#xff1a;微调百亿参数模型需昂贵GPU集群存储开销&#xff1a;每个下游任务需保存完整模型副本灾难性遗忘&#xff1a;微调可能损害模型原有…

of 的发音?弱读最常见/əv/

of 的发音取决于语境&#xff0c;常见有两种读法。 1️⃣ 最常见&#xff08;弱读&#xff0c;口语 / 学术汇报里几乎都用这个&#xff09; of → /əv/ 接近中文&#xff1a;“呃v / əv”&#xff08;很轻&#xff09; 例子&#xff1a; one of them → /wʌn əv em/ a l…

基于1D-CNN的数据多变量回归预测 (多输入单输出)

目录 1、代码简介 2、代码运行结果展示 3、代码获取 1、代码简介 基于一维卷积神经网络(1D-CNN)的数据多变量回归预测 (多输入单输出) 程序已经调试好&#xff0c;无需更改代码替换数据集即可运行&#xff01;&#xff01;&#xff01;数据格式为excel&#xff01; 本程序…