【论文阅读】AbsoluteZero: ReinforcedSelf-play Reasoningwith Zero Data

【论文阅读】AbsoluteZero: ReinforcedSelf-play Reasoningwith Zero Data

  • 1 发表时间与团队
  • 2 问题背景与核心思路
  • 3 具体设计
    • 3.1 模型设计
    • 3.2 self play设计
  • 4. 实验
  • 5 结论
  • 6 有趣的发现

1 发表时间与团队

  • 发表时间:2025年10月(arXiv v3 版本日期为2025年10月16日)。

  • 团队:主要由清华大学团队主导,合作单位包括北京通用人工智能研究院(BIGAI)和宾夕法尼亚州立大学。主要作者包括 Andrew Zhao、Yiran Wu、Zilong Zheng 和黄高(Gao Huang)教授等。

2 问题背景与核心思路

  • 背景:现有的强化学习推理方法(如 RLVR)虽然减少了对过程标签的依赖,但仍需要大量人工标注的问题和答案作为训练起点。随着 AI 能力提升,高质量人工数据的稀缺性以及人类题目对超智能体学习潜力的限制成为了瓶颈。

  • 核心思路:提出 Absolute Zero (AZ) 框架,实现从零数据开始的强化学习。通过单个模型进行“自博弈”(Self-play):模型既是提问者 (Proposer) 也是解题者 (Solver)。

    • 提问者生成能最大化自身学习进步的任务。
    • 解题者通过解决这些任务来提升推理能力。
    • 整个过程不依赖任何外部人类标注的题目。

3 具体设计

3.1 模型设计

  • TRR++ 算法:提出了 Task-Relative REINFORCE++。为了处理多任务环境下的高方差,它为 2 种角色(提问者/解题者)和 3 种任务类型(归纳/演绎/溯因)的组合设计了 6 个独立的基准值 (Baselines),通过归一化优势值(Advantage)来稳定训练。

  • 双重奖励机制:

    • 解题者奖励:基于可验证的规则(如代码执行结果是否正确)。
    • 提问者奖励:基于“学习进度”(Learning Progress)。如果解题者在某个任务上最初失败但在更新后成功,则认为该任务具有高学习价值,给予提问者高奖励。

3.2 self play设计

代码作为统一表示:所有推理任务都转化为 Python 代码。

三种逻辑任务:

  • Induction (归纳):给定输入输出,写出代码逻辑。
  • Deduction (演绎):给定代码和输入,推导输出。
  • Abduction (溯因):给定代码和输出,推导原始输入。

任务演化:从极其简单的 Python 操作开始,随着模型能力增强,生成的任务复杂度和逻辑深度自动演进。

4. 实验

  • 基础模型:使用 Qwen2.5-7B-Instruct 作为起点。

  • 对比基准:与使用人工数据的标准 RLVR 以及其他 Self-play 方法进行对比。

  • 结果:

    • 在完全没有人类题目数据的情况下,AZR 在多个数学和推理基准测试(如 AIME, AMC, MATH)上表现优异。

    • 实验证明,模型能够自发地从简单逻辑演进到复杂逻辑,且提问者生成的任务质量随训练持续提升。

5 结论

  • 数据零依赖:证明了推理能力的提升可以不依赖于人类预设的问题集。

  • 自博弈潜力:展示了通过“提问-解题”闭环实现模型自我进化的可能性。

  • 可扩展性:这种方法为超越人类水平的智能(Superintelligence)提供了一条路径,即通过自主生成的挑战来不断突破当前能力的上限。

6 有趣的发现

  • 代码先验增强推理能力(Code priors amplify reasoning): 基础的 Qwen-Coder-7b 模型在初始阶段的数学表现比 Qwen-7b 低 3.6 分。但在经过 AZR 训练后,Coder 版本反而反超了基础版本 0.7 分。这表明,强大的代码能力在经过 AZR 训练后,能够显著放大模型整体推理能力的提升。

  • AZR 展现出更显著的跨领域迁移(Cross domain transfer is more pronounced for AZR): 在进行标准的 RLVR(基于规则的强化学习)后,专门的代码专家模型在数学准确率上平均仅提升了 0.65 分;相比之下,在“自提议(self-proposed)”的代码推理任务上训练的 AZR-Base-7B 和 AZR-Coder-7B,其数学平均分分别提升了 10.9 分和 15.2 分。这证明了 AZR 具有更强的泛化推理能力增益。

  • 更大的基座带来更大的增益(Bigger bases yield bigger gains): 性能提升随模型规模同步增长:3B、7B 和 14B 的 Coder 模型分别获得了 +5.7、+10.2 和 +13.2 分的提升。这说明持续扩大模型规模对 AZR 框架是非常有利的。

  • 注释作为中间计划自然涌现(Comments as intermediate plans emerge naturally): 在解决代码归纳任务时,AZR 经常像 ReAct 框架那样,将分步计划作为“注释”交织在代码中(见附录 C.3)。类似行为在极大的正式数学模型(如 671B 的 DeepSeek Prover v2)中也被观察到。因此,我们相信允许模型在生成长篇回答时使用“中间草稿本(scratch-pads)”,在其他领域也大有裨益。

  • 认知行为与 Token 长度取决于推理模式(Cognitive Behaviors and Token length depends on reasoning mode): 通过 AZR 训练,模型自发涌现出了不同的认知行为,如分步推理、穷举法和试错法,且这些行为在不同任务类型中表现各异。此外,随着训练进行,生成的 Token 数量也在增长,但增长幅度因任务而异:**溯因任务(Abduction)**的长度增长最快,因为模型需要不断尝试直到输出匹配;而演绎和归纳任务的长度增长则相对温和。

  • 安全警钟敲响(Safety alarms ringing): 我们观察到使用 Llama3.1-8b 的 AZR 偶尔会产生一些令人担忧的思维链(CoT),我们称之为“噢,糟糕时刻(uh-oh moment)”(示例见图 34)。这突显了未来在安全感知训练(safety-aware training)方面进行研究的必要性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1201040.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Taro多端研发:2025年AI原生时代的“一次编写,处处智能“终极指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

桥梁墙面混凝土裂缝风化识别分割数据集labelme格式7752张2类别

数据集格式:labelme格式(不包含mask文件,仅仅包含jpg图片和对应的json文件)图片数量(jpg文件个数):7752标注数量(json文件个数):7752标注类别数:2标注类别名称:["efflorescence","crack"]每个类别…

对声音数字化的一些问题

一、声音转模拟的电信号 一般是麦克风和三极管放大电路组成。 麦克风一般是线圈感应类型或者电容类型。 二、模拟电信号转数字信号 需要模拟转数字信号。 需要一些电压比较器,当模拟电压达到某个电压,就导通输出数字电平。 三、过滤噪音的思路 1、声音数…

2026英语雅思培训学校机构辅导机构怎么选?深度解析行业模式+优质机构口碑榜单与家长择校指南

对于计划让孩子备考雅思、冲刺海外院校的家长来说,挑选合适的英语雅思培训学校机构辅导机构始终充满困惑。不知道如何判断机构的课程是否适配孩子的雅思基础与留学目标,担心师资不专业、教学体系不完善,又怕选错机构…

2026英语雅思学习辅导机构怎么选?深度解析行业现状+优质机构口碑榜单与家长择校指南

对于计划让孩子备考雅思、冲刺海外院校的家长来说,挑选合适的英语雅思学习辅导机构始终充满困惑。不知道如何判断机构的课程是否适配孩子的雅思基础与留学目标,担心师资不专业、教学体系不完善,又怕选错机构浪费时间…

hal!HalGetBusDataByOffset函数分析得到Device (P2P0)PCI设备空间前4个字节

hal!HalGetBusDataByOffset函数分析得到Device (P2P0)PCI设备空间前4个字节 1: kd> g Breakpoint 51 hit eax00000000 ebx899050a0 ecx00000100 edx8996d118 esi00000000 edi00000000 eip804f25ee espf791abdc ebpf791ac48 iopl0 nv up ei pl zr na pe nc cs0008 s…

1688供应商API:评价系统集成与供应商筛选实战指南

在电商供应链管理中,供应商评价体系的自动化集成与高效筛选能力直接影响采购决策效率。本文将基于1688开放平台API,详细解析评价系统对接与供应商筛选的技术实现路径,并提供可直接落地的代码方案。 一、评价数据获取与解析 通过alibaba.prod…

AI 应用的开发方法

AI 应用的开发方法已经从单纯的“调用 API”转变为以智能体(Agentic Workflow)和规格驱动开发(Spec-driven Development)为核心的系统化工程。现在的开发范式强调:AI 不再是应用的一个功能,而是应用的底层逻…

【爆肝】2026年AI技术栈:RAG+微调+长上下文,通往AGI的黄金组合!小白程序员必学!

01. 引言:大模型的“阿喀琉斯之踵”依然存在 时间来到 2026 年,大模型技术已经迈入了一个全新的阶段。ChatGPT-5.2的推理能力相比 GPT-4 有了显著提升 [^1],Gemini 3 在长文本记忆上也有了质的飞跃。然而,一个尴尬的现实依然困扰…

abaqus在轮胎中的应用,2D轮胎网格划分映射成3D模型,装配充气模拟以及稳态滚动分析

abaqus在轮胎中的应用,2D轮胎网格划分映射成3D模型,装配充气模拟以及稳态滚动分析轮胎仿真在工程领域一直是块硬骨头,特别是涉及到从设计到工况模拟的全流程。最近折腾Abaqus的时候发现,用二维轴对称模型转三维这招是真香。咱们先…

TDengine 数学函数 SIGN 用户手册 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

深入Python配置管理:从环境变量到动态配置中心的演进与实践

深入Python配置管理:从环境变量到动态配置中心的演进与实践 引言:配置管理的核心挑战 在现代软件开发中,配置管理远不止是简单的键值对存储。随着微服务架构的普及和云原生应用的兴起,配置管理已演变为一个复杂的系统工程问题。对…

真香警告!Mini Agent开源神器,小白30分钟变身AI开发大神,老板看了直呼内行!

Mini Agent 是一个极简但专业的演示项目,旨在展示使用 MiniMax M2 模型构建 Agent 的最佳实践。项目通过兼容 Anthropic 的 API,完全支持交错思维(interleaved thinking),从而解锁 M2 模型在处理长而复杂的任务时强大的…

【solidworks日记】测量/草图定位/倒角

1.当多个定位孔之间有结构关系时,最好统一画在同一张草图上,并且智能尺寸使用“定位孔与定位孔之间的尺寸”,而不是单独分别和外部结构标识定位、互相孤立。这样方便改外部尺寸时,多个定位孔之间的结构关系不需要重新调整。比如&a…

2026年铜雕厂家权威推荐榜单:五大实力企业引领行业新标杆

在城市更新、文旅融合与公共艺术蓬勃发展的背景下,铜雕及金属雕塑产业正迎来新一轮高质量发展周期。作为兼具艺术性、文化性与工程性的细分领域,铜雕厂家不仅需具备精湛的工艺技术,更需拥有从创意设计到安装落地的一…

摄影爱好者必备:afilmory 个人摄影网站服务器搭搭建教程

如果你是摄影爱好者,不管是风光、人像、街拍还是纪实,大概率都会遇到这些情况: 📷 拍了很多照片,却长期躺在硬盘里 😵 社交平台压缩严重,画质失真 🧠 想系统性展示作品,却不知道怎么搭网站 💻 用现成建站平台,风格和控制力都有限 🔒 希望作品只属于自己,不被…

【代码已开源】告别RAG“语义陷阱“!MCTS驱动的知识检索框架让AI推理能力暴涨,小白也能秒变大神!

这篇论文《Reasoning in Action: MCTS-Driven Knowledge Retrieval for Large Language Models》揭示了当前大模型检索增强生成(RAG)技术中存在的致命缺陷:检索与推理的割裂。 现有的RAG系统大多依赖于表面层次的语义相似度(embed…

香橙派通过VNC连接后处于管理员界面的切换为普通用户界面

首先当我们通过realVNC中连接上香橙派后,在终端里输入 whoami 后提示出来的是: 如果输出是 root:说明你的 VNC 服务是用管理员权限开启的。 如果输出是 HwHiAiUser:说明用户没问题,只是 Shell 没加载对…

香橙派到手如何通过网线实现与电脑连接

首先我们需要先配置好自己电脑" Internet协i议版本4(TCP/Pv4)"我们先要打开自己电脑的控制面板,然后选择网络和Internet,然后选择网络连接,你要先插上网线与香橙派连接上,然后右键以太网选择属性…

量化私募诚意高薪聘请:24/25/26届本硕博校招/社招/春招/秋招都可数学、物理、统计、计算机、软件等专业1、量化软件开发工程师(本科985以上)base北上杭深关键词:c+

量化私募诚意高薪聘请: 24/25/26届本硕博 校招/社招/春招/秋招都可 数学、物理、统计、计算机、软件等专业 1、量化软件开发工程师 (本科985以上)base北上杭深 关键词:c、python 负责:交易系统、投研系统、回测系统 年包40-80万、福利 有同行、…