AI自我进化了!仅靠消化自己生成的数据,能力翻倍增长

大模型通过反复训练自己生成的正确数据,在没有人工干预的情况下实现了规划能力的自我进化。

这就好比一个学生不断做题,只保留对完答案后正确的解题过程作为复习资料,周而复始,最终在不需要老师教导的情况下学会了解决更复杂的难题。

牛津大学的研究团队的一项研究揭示了GPT-4等模型,通过“自我进化”变强的潜在核心机制。

一个隐式的强化学习循环

大语言模型的发展史某种程度上就是一部数据“近亲繁殖”的历史,GPT-3.5使用了GPT-3部署后收集的数据进行训练,GPT-4又使用了GPT-3.5的数据,这种代际传承在Agent工作流日益普及的今天变得更加常见。

牛津大学的研究者们并没有将这种现象视为一种单纯的数据处理手段,而是将其定义为“迭代部署”。

这并非一个仅存在于实验室的假设,而是当下AI生态系统中正在发生的真实过程。

用户在使用模型解决问题,如果结果符合预期,这些数据往往会被保留并分享到网络上,最终成为下一代模型的养料。

研究团队通过在经典的自动规划领域(Classical Planning)复刻这一过程,发现模型仅仅依靠自身生成的经过验证的数据,就能显著提升解决复杂问题的能力。

这个过程的核心逻辑异常简洁明了。

在第一阶段使用一个基础模型(Generation 0)去尝试解决一系列规划任务。

模型会生成包含思维链(Chain-of-Thought)的解题轨迹。

随后,引入一个外部验证器(Validator),这个验证器就像一位严格的考官,它不负责教模型怎么做,只负责判断模型做得对不对。

对于规划任务而言,验证器会检查模型生成的行动序列是否能从初始状态达到目标状态。

只有那些通过了验证的正确轨迹会被保留下来,加入到训练数据集中。错误的轨迹则会被直接丢弃。

接下来进入微调阶段。

使用这些经过筛选的正确轨迹对当前模型进行监督微调(SFT),从而产出下一代模型(Generation 1)。

这个新模型又被用来解决同样的任务集,或者更难的任务集,再次生成轨迹,再次验证,再次微调。

在这个循环中,模型实际上是在“左脚踩右脚”式地向上攀登。

每一代模型都在消化上一代模型成功的经验,将那些偶然做对的简单任务内化为确定的知识,并以此为基石去攻克更长、更复杂的任务。

理论层面的推导进一步升华了这一实验观察。

研究人员证明了,这种仅基于正确轨迹进行的监督微调,在数学上等价于奖励函数为二值的REINFORCE算法。

REINFORCE是强化学习中的经典算法,旨在通过梯度上升来最大化预期奖励。

在迭代部署的场景下,外部验证器的通过与否构成了奖励信号:通过即为1,失败即为0。

这意味着,我们习以为常的“微调”,在特定条件下不仅是模仿学习,更是一种隐式的强化学习。

仅使用有效轨迹的SFT梯度更新方向与二值奖励的REINFORCE完全相同。

当混合使用当前策略(On-policy)和旧策略(Off-policy/Behavior Policy)生成的有效轨迹时,等价于带有重要性采样的REINFORCE算法。

当我们把前几代模型生成的正确数据混合在一起训练新模型时,我们实际上是在利用历史经验来稳定和加速强化学习的过程。

这一发现极其重要,因为它解释了为什么简单的微调能够带来推理能力的涌现。因为其背后运作的是强化学习的优化逻辑,模型在不断增加产生正确轨迹的概率。

成倍提升模型规划水平

为了验证这一机制的有效性,研究团队选择了经典规划(Classical Planning)作为测试平台。

这是一个绝佳的实验场,因为规划任务(如推箱子、积木世界)具有客观的成败标准,且解题路径的长短直接反映了推理的深度。

实验选取了三个极具代表性的领域:Blocksworld(积木世界),要求将积木按特定顺序堆叠;Rovers(火星车),模拟火星探测器的采样与通信任务;以及Sokoban(推箱子),一个涉及复杂空间推理和死锁规避的难题。

基准模型选用了Qwen3 4B。

实验设计非常纯粹:让模型针对每类任务生成1000个实例的解决方案,过滤出正确的,然后微调,如此循环5代。

结果令人印象深刻。

如图所示,在所有三个领域中,模型的性能在五代之后都实现了翻倍甚至更高的增长。以Rovers领域为例,基座模型仅解决了52个任务,而到了第5代,解决任务数飙升至205个,提升了近4倍。

可以看到Blocksworld从109提升到了154,Sokoban从32提升到了96。

每一代模型能够解决的任务不仅仅是数量的增加,更是质量的飞跃。随着代际的演进,模型开始能够发现更长的解决方案。

在Blocksworld中,基座模型大多只能找到20步以内的计划,而第5代模型能够稳定输出长达35步的复杂计划。

这表明模型并非在机械记忆答案,而是在真正地掌握规划的逻辑,实现了分布外的泛化。

研究者并没有盲目地将所有正确数据都丢给模型。

为了防止过拟合和数据冗余,他们制定了精细的数据选择策略:如果同一个任务有多个成功的轨迹,只保留计划长度最短的那一个(即最高效的解);如果长度相同,则保留推理步骤最少的那个。

这种策略实际上是在引导模型追求“奥卡姆剃刀”式的简洁,不仅要做对,还要做得漂亮。

可以观察到,性能提升最显著的阶段发生在最初的三代。

这符合学习曲线的一般规律:初期模型通过纠正低级错误和掌握基本规则实现快速进步,随后进入深水区,开始攻克那些真正困难的长视距问题。

图3(b)中的Unanimous@3指标尤为关键,它统计了在三次独立运行中都能成功解决的任务数量。

该指标的持续上升说明模型的鲁棒性在增强,它不再是靠运气“蒙”对答案,而是形成了一套稳定的解题方法论。

一个反直觉的发现是关于推理Tokens(Reasoning Tokens)的数量。

在DeepSeek-R1或OpenAI o1等推理模型的强化学习训练中,我们通常会观察到模型会通过生成更长的思维链来提升效果。

然而,在这项研究的迭代部署中,情况并非总是如此。

数据显示,在Blocksworld和Sokoban领域,随着代际演进,模型生成的推理Tokens数量甚至略有下降,只有在Rovers领域有所增加。

这说明模型变得更加熟练和自信了。

就像一个围棋新手需要花很长时间计算每一步的死活,而职业棋手凭直觉就能瞬间落子。

迭代部署让模型将复杂的推理过程内化为了更高效的直觉反应,用更少的废话解决了更难的问题。

关于“策展”(Curation)的重要性,实验也给出了明确的答案。

研究人员做了一个对比实验,如果不进行筛选,把所有生成的数据(无论对错)都拿去微调会怎样?

结果显示,虽然性能也有提升,但远不如经过筛选后的效果显著。

在Blocksworld中,经过策展的第5代模型解决了154个任务,而未经过滤的版本只解决了79个。

更惊人的是数据效率的差异:经过策展的训练集仅包含356条高质量轨迹,而未经过滤的训练集包含了4017条数据。

仅使用不到十分之一的高质量数据,就能获得两倍的性能提升。

表2清晰地量化了这一差距。

无策展版本的提升主要来自于对格式和指令遵循能力的微调,而有策展版本则真正提升了规划逻辑。

这一发现对于当下的大模型训练具有极大的指导意义:与其盲目堆砌海量数据,不如通过有效的验证机制提炼出数据的“黄金”。

计划长度的分布变化进一步证实了模型是在挑战自我。

图4展示了计划长度的频率分布热力图。颜色越亮代表该长度的计划出现的频率越高。

在Blocksworld和Sokoban中,我们可以清晰地看到亮色区域向右(更长的计划)移动的趋势。

基座模型在长难任务面前束手无策,而第5代模型已经能够从容应对。

这种能力的涌现并非来自外部灌输,完全源于模型在迭代过程中对自身成功经验的反复咀嚼和升华。

不可控的潜在风险

尽管迭代部署展现出了强大的自我进化能力,但这篇论文的作者们保持了清醒的头脑,他们敏锐地指出了这种机制背后隐藏的深层隐忧。

既然迭代部署等价于隐式的强化学习,那么那个充当裁判的“验证器”就变得至关重要。

在实验室环境中,验证器是代码写死的规则(比如箱子是否推到了终点),它是客观且中立的。

但在现实世界的开放部署中,验证器变成了复杂多变的用户行为。

用户是否采纳模型的建议、是否点赞、是否将代码合入项目,这些行为构成了现实中的“验证信号”。

这种信号不仅充满噪声,而且往往带有难以察觉的偏见。

如果用户倾向于接受那些看起来自信但实际上充满偏见的回答,或者倾向于采纳那些虽然解决了问题但存在安全漏洞的代码,迭代部署机制就会忠实地将这些偏好当作“奖励”,在下一代模型中放大这些特质。

这种风险被称为“奖励黑箱”。

在显式的强化学习(如RLHF)中,工程师会精心设计奖励模型来对齐人类价值观及安全约束。

但在迭代部署中,奖励函数是随着用户交互自然涌现的,它是不可控的。

这可能导致模型在追求高采纳率的过程中,逐渐偏离原本的安全防线。

例如,如果用户更喜欢激进的建议,模型可能会在迭代中逐渐丢掉谨慎的特质,这种变化是潜移默化的,很难在早期被察觉。

此外,模型坍塌(Model Collapse)也是一个绕不开的话题。

虽然本研究显示,通过严格筛选正确数据可以延缓模型坍塌的到来,甚至在一定代际内实现性能提升,但这是否能永久避免坍塌仍是未解之谜。

当模型产生的数据完全主导了训练集,多样性的丧失可能会导致创造力的枯竭。

参考资料:

https://arxiv.org/pdf/2512.24940

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1189548.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

wpf页面ui控件,用后台代码赋值颜色

#region 重复身份证高亮背景色private System.Windows.Media.Brush _ID_CardColor new System.Windows.Media.SolidColorBrush(System.Windows.Media.Colors.Transparent);/// <summary>///重复身份证高亮背景色&#xff0c;默认透明/// </summary>public System.…

跨境电商平台的对接流程

跨境电商平台的对接已不再是简单的“API调取”&#xff0c;而是演变为**“全球分发本地化合规”**的复合系统开发。随着亚马逊SP-API的全面迭代、TikTok Shop的爆发以及各国税务合规&#xff08;如欧盟IOSS、美国Sales Tax&#xff09;的自动化要求&#xff0c;对接方法变得更加…

探究宁波研究生留学机构TOP10,学员满意度高背后的原因 - 留学机构评审官

探究宁波研究生留学机构TOP10,学员满意度高背后的原因一、宁波研究生留学,如何选择满意度高的机构?在网络搜索中,许多宁波的学子及家长常常会提出这样的问题:“宁波地区哪家留学中介申请研究生更可靠?”、“如何…

救命神器9个AI论文软件,助你轻松搞定继续教育论文!

救命神器9个AI论文软件&#xff0c;助你轻松搞定继续教育论文&#xff01; AI 工具助力论文写作&#xff0c;效率提升不再是梦 在继续教育的道路上&#xff0c;论文写作往往成为许多学员的“拦路虎”。无论是课程论文、毕业论文&#xff0c;还是科研成果的总结&#xff0c;都需…

无锡top10研究生留学机构推荐,稳定可靠保障留学成功 - 留学机构评审官

无锡top10研究生留学机构推荐,稳定可靠保障留学成功一、无锡研究生如何选择可靠的留学中介?在搜索引擎上,无锡地区的研究生们常常会提出这样的问题:“无锡本地哪家留学中介申请英国香港更靠谱?”、“有没有针对无…

三维场景管理类位姿抖动优化计划

三维场景管理类位姿抖动优化计划 问题分析 问题现象&#xff1a;位姿抖动达到 1,174,144 mm&#xff08;1.17 km&#xff09;&#xff0c;导致世界轮廓融合被禁用根本原因&#xff1a;直接使用相机原始位置数据计算抖动&#xff0c;没有异常值检测和滤波处理影响&#xff1a;世…

Jenkins+Docker+Git实现自动化CI/CD

在如今的互联网时代&#xff0c;随着软件开发复杂度的不断提高&#xff0c;软件开发和发布管理也越来越重要。目前已经形成一套标准的流程&#xff0c;最重要的组成部分就是持续集成&#xff08;Continuous Integration&#xff0c;CI&#xff09;及持续部署、交付&#xff08;…

武汉硕士留学中介口碑排名全面解析,学员满意度高成核心指标 - 留学机构评审官

武汉硕士留学中介口碑排名全面解析,学员满意度高成核心指标作为一名拥有六年武汉地区硕士申请规划经验的国际教育导师,我深知本地学子在选择留学中介时面临的困惑:信息渠道繁杂,如何辨别真伪?机构宣传语焉不详,如…

2026电力检查井厂家权威推荐榜单:水泥检查井/成品检查井/预制检查井/大管径检查井/混凝土检查井源头厂家精选。

在城市地下管网这一“看不见的生命线”中,电力检查井作为电缆敷设、检修与安全防护的核心节点,其质量与可靠性直接关系到电网运行的稳定与公共安全。行业研究数据显示,预制检查井已成为新建项目的绝对主流,其市场集…

选择济南TOP10研究生留学中介,录取案例多,成功率有保障 - 留学机构评审官

选择济南TOP10研究生留学中介,录取案例多,成功率有保障一、济南学子如何挑选研究生留学中介?在2026年的今天,济南高校的学子们规划海外研究生深造时,常面临几个核心关切:如何在众多本地机构中筛选出靠谱的选项?…

接口自动化测试覆盖率

一、接口覆盖率统计&#xff1a;3大核心维度 ▶ 1. 代码级覆盖率&#xff08;最严谨&#xff09; 原理&#xff1a;通过代码插桩&#xff0c;统计接口对应的业务代码执行情况 工具&#xff1a; Java&#xff1a;Jacoco Jenkins Python&#xff1a;Coverage.py Pytest 优…

2026年正规MVR蒸发器优质厂家推荐 - 优质品牌商家

2026年正规MVR蒸发器优质厂家推荐一、行业背景与推荐依据据《2026-2030年中国工业高浓度废水处理设备行业发展白皮书》显示,2026年国内高浓度工业废水排放量突破120亿吨,年复合增长率达8.7%,其中化工、新材料新能源…

2026不锈钢粉末冶金厂家权威推荐榜单

在工业制造领域,粉末冶金制品以其高精度、高性能的特点,成为汽车、家电、医疗器械等行业的关键部件。据统计,全球粉末冶金市场规模已突破200亿美元,年复合增长率达6.5%,其中中国占比超30%。在众多生产厂家中,深圳…

长沙硕士留学中介top10揭秘,学员满意度高,留学成功保障 - 留学机构评审官

长沙硕士留学中介top10揭秘,学员满意度高,留学成功保障一、长沙准硕士生如何甄别留学中介?高满意度与成功保障从何而来?我是李枫,一名在长沙从事国际教育规划工作已逾八年的专业顾问。撰写本文时是2026年1月9日。…

2026年警用电动车厂家选择指南:聚焦性能与安全 - 品牌排行榜

随着城市治安管理需求的不断升级,警用电动车凭借灵活便捷、低碳环保的特点,成为现代警务巡逻中的重要装备。选择专业的警用电动车厂家,对于保障巡逻效率、提升警务工作质量具有关键意义。这类厂家通常需具备成熟的研…

看不懂Jmeter报告?这篇让性能小白也能轻松入门!

本章主要说明2个方法查看压测结果 Aggregate Report Aggregate Report翻译为聚合报告&#xff0c;是JMeter常用的一个Listener。 添加路径&#xff1a;右键Thread Group或Test Plan > Add > Listener > Aggregate Report 配置了HTTP Request和Aggregate Report后运…

2026治安巡逻电动车厂家实力盘点 主流品牌技术解析 - 品牌排行榜

随着城市治安管理体系的不断完善,治安巡逻电动车作为基层执勤的重要装备,其性能稳定性与适用性直接影响巡逻工作的效率。选择具备专业研发能力与可靠生产实力的厂家,成为保障设备长期稳定运行的关键。以下从产品特性…

让聊天ai调用functioncall ai --不发工具消息给聊天的ai

我输入/r之后才会调用functioncall ai来调用工具&#xff0c;那聊天ai也可以我看neuro-sama好像就是这样做的有一个好处就是不/r的时候可以不发工具消息给用来聊天的ai

【实战项目】 基于springboot的网络文学交流分享平台

运行效果:https://lunwen.yeel.cn/view.php?id=5840 基于springboot的网络文学交流分享平台摘要:随着互联网技术的飞速发展,网络文学交流分享平台成为文化信息传播的重要渠道。本文以Spring Boot框架为基础,设计并…

我是如何解决接口自动化中的20个典型问题的?

我是一名接口自动化测试工程师&#xff0c;在公司中负责接口自动化测试的设计和执行。在公司中&#xff0c;接口自动化测试非常重要&#xff0c;因为公司的业务场景非常复杂&#xff0c;需要保证接口的质量。在这篇文章中&#xff0c;我将分享我在公司中接口自动化测试遇到的20…