2025小结:从RL到Agentic RL

如果说训练大模型的目标是稳定且高效地scale up,那Agentic RL给人的印象往往是既不稳定,也不高效,对于资源有限的团队来说,也很难scale。

上半年发生过很多变故耽误了不少时间,中间有几个月完全断层,基本没有跟进任何AI相关的东西。之后笔者去了一家Startup玩了三个多月的Agentic RL,总算把近期落下的一些功课补上了。虽说标题写的是从RL到Agentic RL,但我准备反着来,先说说Agentic RL。

作者:林正
链接:https://zhuanlan.zhihu.com/p/1989735723948073690

关于Agent

一、它太慢了

这里的慢,并不是发生参数更新的训练侧,而是Rollout阶段。一般来说,Agent Rollout需要在多个独立的Docker容器里面去交互,有些任务难免会包含一些耗时的操作,比如apt、pip装几个包,wget下载一些东西,网络请求虽然可以尽可能的优化,比如挂代理或者caching,但还有一些由LLM写的复杂算法,在运行时也避免不了几十秒的环境交互时间。即便利用asyncio把所有的trajectory都写成异步,还是偶尔能看到显卡在那里空转。在环境带来的超高cost下,fully async和low precision rollout都不太能起作用,因为瓶颈不在GPU计算,它们也不能加速环境的交互反馈。最终导致训练侧消费数据太快,而生产侧生产数据的速度太慢。之前有看见过Meta用LLM去simulate真实的环境(arXiv:2511.03773),但总感觉怪怪的,面对复杂的环境逻辑(例如一个涉及到庞大系统理解的bug),很难相信 LLM 能推理出完全正确的Observation。

在做Agentic RL的过程中,我们想了很多办法去优化Rollout的时间,除了提升推理引擎的推理速度,也花了很多功夫去优化环境的交互速度。我时常幻想:如果存在一个交互极快、任务海量且 Diversity极高的环境,那该多好。

二、它不稳定

不稳定的因素非常多,来自环境的噪声,算法的问题,训推不一致等等。有时候,训练的环境本身就不完美:docker镜像的问题,依赖冲突,timeout等等,导致LLM做出了正确的决定但是拿不到reward。有时候是算法的问题:对于负奖励样本的处理,rollout trajectory的过滤,尤其是决定将哪些数据送进训练侧会极大程度地左右训练成效。至于训推不一致,这个可太有意思了。最开始注意到推理引擎和训练引擎的不一致,出现了TIS,后来训MoE的时候因为expert选择可能不一样又出现了R2,R3,GSPO等等,我们在训练中实验模型对off-policy的容忍度,也成了工程的一部分。这部分内容,年底通义的那篇文章总结得非常到位(arXiv:2512.01374)。 此外还有一些玄学bug:rollout 出来的token,decode 成文本后再 rncode 回 token,竟然可能与原始 token 不一致。总之,如何稳定地把 Agentic RL 训得更久,是一个核心难题。

三、它很难scale

其实很难scale的原因也就是由上面两个问题导致的,rollout慢会导致训练step很难scale up,不稳定则会导致reward崩溃。但除此之外,还有一个重要因素:工程上的 Scale 难度。

随着Agentic RL和RL infrastructure的发展,训练的工程复杂度正变得越来越高,在这个阶段,我觉得算法和system的耦合正变得越来越紧密。想要高效率的实验新的想法,需要理解RL整个框架的设计,有时候算法的idea比较复杂,可能需要在训练侧和推理侧两边下功夫。推理上面,怎么写异步代码让docker起停、环境交互、GPU时间全部overlap起来打满GPU利用率是非常重要的,此外,也要考虑哪些东西会阻塞event loop,哪些东西会造成死锁,写agent loop的时候需要多想一下,这些工程能力是我以前做监督学习的时候不具备的。(话说时序pipeline调度啥的是不是操作系统里面上演过很多次了)

Debug一个RL系统也是比较费力的,由于很多东西存在随机性,有时候连bug都复现不了,这一次训练存在的bug,再启动一次就没了,好在SLIME提供了rollout debug功能,可以把上次rollout的数据存下来,下一次训练时直接复用送给训练侧,这省去了再次rollout的时间,也可以用同样的数据帮助复现之前出现的bug。

Agentic RL时代,工程能力的要求会越来越高,可维护的代码、模块化解耦的设计、并行和异步的考量以及训推框架(Megatron、FSDP、SGLang和vLLM)的掌握,都应该是必备的技能。

关于RL和Reasoning

年初DeepSeek-R1的发布彻底点燃了整个社区对推理和强化学习的热情,那根持续上涨不会饱和的思维链长度曲线最让人激动,暗示着模型通过RL能够不断提升自己,从而解决更难的问题。但后来的事情我们都知道了,(简单的配置下)RL并不能让模型的能力无限提升下去。

当时我说,RL实际上是在抽签+筛选,这就是后来被称为Amplifier派的思想,即RL并不能提升base模型的上限,只是在放大模型某一方面能力。arXiv:2504.13837这篇文章里有个图非常形象的说明了这一点

图源Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

训练开始的时候,模型其实有非常多的路径可走,但RL会筛选掉那些拿不到奖励的轨迹,导致RL训练后的模型展现出很高的Pass@1,但实际上在Pass@K上还比不了base模型。这篇论文据说一开始被质疑了很多次,但后来在NeurIPS25拿到了满分。关于这个问题,社区反复争论了几轮,这篇知乎文章梳理得很不错:

RL 能否拓展 LLM 的能力边界?——yet another reading list (2512)
https://zhuanlan.zhihu.com/p/1982385220817807141

其实到现在,我的看法也有了一些改变。这要从RL的一个重要的副产物:Chain of Thought (CoT) 说起,它扮演了至关重要的角色。

一、CoT是在搜寻一个压缩的概率空间

如果把 LLM 的输出比作“打字机前的猴子”,虽然理论上猴子能在无数次试错中写出莎士比亚全集,我们也总能在无数次采样中找到正确答案,但关键在于 LLM 输出的概率空间极其巨大,如何高效采样到正确答案?如果我们把 CoT 看作一个条件,那么我们实际上是希望能提供一个比更优的分布,从而让采样到正确答案变得更容易。

二、CoT是自然语言形式的latent space

ML的核心在于 feature。我们都知道,feature 是数据的有效表达,backbone 生成的 feature 越强,head 就越容易 probe 出任务结果。CoT 就是一种自然语言形式的 Latent Feature。 它作为媒介,让模型调用一套对各种任务都通用的meta-ability来解题。也就是说,任务虽千变万化,但解决任务的能力也许是一个有限且通用的集合。如果说传统的 feature extractor 是在提取数据的有用表达,那么 RL 训练出的 CoT 就是在提取“解决任务的能力”的通用表示。而最 fascinating 的是,这个 latent feature 是以人类可读的自然语言呈现的。

那么RL能提升base模型的能力吗?可以,只是我们还不能稳定做到。RL incentivizes, but how to incentivize is the key.

RL的泛化能力

当时除了那根思维链曲线,最让我兴奋的是 RL 模型展现出的优异泛化能力。SFT 的一个大问题是灾难性遗忘,而 RL 不仅保留了模型原有的大部分能力,甚至在任务 A 上训练后,还能在任务 B 上展现出能力提升。当时我和朋友讨论:如果仔细对比 RL 和 SFT 的公式,它们长得很像,那 RL 到底强在哪?一个很大的差别在于:RL 的数据是模型自己合成的(On-policy),采样自模型内在的分布;而 SFT 的数据分布往往与模型当前的分布偏差较大。 后来 arXiv:2509.04259 也专门探讨了这一点。 至于为什么能展现 OOD能力,正如前文所言:CoT 正在作为一个高效的 Latent Feature,让模型调用通用的任务解决能力来应对未见过的难题。

图源RL’S RAZOR: WHY ONLINE REINFORCEMENT LEARNING FORGETS LESS

这一年来,RL4LLM 的 Bug 修了不少,算法更迭了数轮,各种 XXPO 层出不穷。虽然 System 层面已进化多次,让 Off-policy 更少、效率更高,但目前仍有一些问题待解。RL 的基建在易用性和效率上总要做些取舍。总的来说,还是非常期待明年社区在 Agentic RL 上的研究,早日让 LLM 真正代理人类完成现实世界的复杂任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1156200.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

捏着鼻子玩过PEM电解槽模拟的都懂,三维两相流这玩意儿能把人整懵。不过别慌,今天咱们用COMSOL搞点接地气的操作,先来瞅瞅多孔介质这货怎么折腾

PEM电解槽三维两相流模拟,包括电化学,两相流传质,析氢析氧,化学反应热等多物理场耦合,软件comsol,可分析多孔介质传质,析氢析氧过程对电解槽电流密度分布,氢气体积分数,氧…

2026年简历自动筛选神器有哪些?6款高效AI招聘工具架构测评

摘要在2026年,简历自动筛选神器已成为企业提升招聘效率的标配。然而,市面上的工具良莠不齐,有的仅是简单的关键词匹配,有的则是具备深度语义理解的AI智能体。作为技术架构师,我们需要透过营销词汇看清底层逻辑&#xf…

社区医疗服务鼓号系统 问答小程序的设计与开发--论文PHP_nodejs_vue+uniapp

文章目录社区医疗服务鼓号系统问答小程序的设计与开发系统设计与实现的思路主要技术与实现手段源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!社区医疗服务鼓号系统问答小程序的设计与开发 随着社区医疗服务的普及,居民对便捷…

钓鱼论坛 渔具商城系统小程序PHP_nodejs_vue+uniapp

文章目录 钓鱼论坛与渔具商城系统小程序开发方案 系统设计与实现的思路主要技术与实现手段源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 钓鱼论坛与渔具商城系统小程序开发方案 钓鱼论坛与渔具商城系统小程序采用PHP、Node.js、Vue.js…

手把手教你实现scanner驱动开发入门必看教程

扫描仪驱动开发从零到实战:Linux下的SANE与USB内核驱动深度实践 你有没有遇到过这样的场景?公司采购了一台新型号扫描仪,插上电脑后系统却“视而不见”;或者在工业产线上,定制的视觉采集设备需要精准控制曝光和行频&am…

JLink在工业控制中的应用:实战案例解析

JLink在工业控制中的实战应用:从调试到运维的全链路解析最近在调试一款基于STM32H7的PLC主控板时,又一次深刻体会到——一个靠谱的调试工具,真的能救项目于水火之中。那天现场反馈设备启动异常,串口无输出、远程连接失败。客户催着…

Java Web 民宿在线预定平台系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

摘要 随着旅游业的快速发展和互联网技术的普及,民宿在线预定平台逐渐成为游客出行住宿的重要选择。传统的民宿预定方式存在信息不透明、沟通效率低、管理混乱等问题,亟需通过数字化手段优化用户体验和运营效率。民宿在线预定平台通过整合房源信息、在线支…

基于微信小程序的考研资源共享平台的设计与实现PHP_nodejs_vue+uniapp

文章目录考研资源共享平台的设计与实现系统功能模块设计技术实现与优化系统设计与实现的思路主要技术与实现手段源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!考研资源共享平台的设计与实现 微信小程序考研资源共享平台基于PHP、Node.j…

基于SpringBoot+Vue的信息化在线教学平台管理系统设计与实现【Java+MySQL+MyBatis完整源码】

摘要 随着信息技术的快速发展,教育行业正逐步向数字化、智能化转型。传统的教学模式受限于时间和空间,难以满足现代教育的多样化需求,尤其是在线教育的兴起,使得高效、便捷的教学管理平台成为迫切需求。信息化在线教学平台能够整合…

基于微信小程序的设备报修系统PHP_nodejs_vue+uniapp

文章目录微信小程序设备报修系统技术方案前端技术实现后端服务架构核心功能模块系统特色优势系统设计与实现的思路主要技术与实现手段源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!微信小程序设备报修系统技术方案 该系统采用前后端分离…

旅游线路定制微信小程序PHP_nodejs_vue+uniapp

文章目录技术架构设计核心功能模块开发工具链性能优化策略安全与合规措施系统设计与实现的思路主要技术与实现手段源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!技术架构设计 旅游线路定制微信小程序采用前后端分离架构,后端…

本地健康宝微信小程序 防疫站疫苗接种健康系统的设计与实现PHP_nodejs_vue+uniapp

文章目录本地健康宝微信小程序防疫站疫苗接种健康系统的设计与实现系统设计与实现的思路主要技术与实现手段源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!本地健康宝微信小程序防疫站疫苗接种健康系统的设计与实现 该系统基于PHP、Node…

【毕业设计】SpringBoot+Vue+MySQL 在线宠物用品交易网站平台源码+数据库+论文+部署文档

摘要 随着互联网技术的快速发展和人们生活水平的提高,宠物经济逐渐成为新兴的消费热点。宠物用品市场需求日益增长,传统的线下宠物用品商店已无法满足消费者对便捷性和多样化的需求。在线宠物用品交易平台应运而生,为宠物主人提供了一站式的购…

SpringBoot+Vue 游戏销售平台平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

摘要 随着互联网技术的飞速发展,数字化娱乐产业逐渐成为人们日常生活的重要组成部分。游戏销售平台作为连接游戏开发者和玩家的桥梁,其市场需求日益增长。传统的游戏销售模式受限于线下渠道和单一的服务形式,难以满足用户多样化的需求。在线游…

Keil5调试STM32硬件断点使用场景解析

硬件断点实战:在Keil5中精准调试STM32的底层秘密你有没有遇到过这样的场景?代码烧进STM32后,运行到一半突然“死机”,串口毫无输出;你想在main()函数前打个断点看看启动流程,却发现断点变成了灰色小圆圈——…

STM32驱动L298N电机模块的PWM控制方法:操作指南

用STM32精准控制L298N驱动的直流电机:从原理到实战的完整指南你有没有遇到过这样的场景?手里的智能小车跑起来一卡一抖,调速不平滑,换向时还“咯噔”一下;或者调试半天发现L298N芯片烫得不敢摸,甚至直接烧了…

Keil5下载后编译错误排查:系统学习配置要点

Keil5装完却编译不过?别急,这才是真正的问题所在你有没有过这样的经历:花了一小时下载、安装Keil MDK(俗称Keil5),兴冲冲打开μVision新建工程,导入代码,点击“Build”——结果瞬间弹…

SpringBoot+Vue 养老智慧服务平台平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

摘要 随着人口老龄化趋势加剧,传统养老模式已难以满足现代社会的需求,智慧养老服务平台成为解决养老问题的重要途径。智慧养老服务平台通过信息化手段整合养老资源,提供高效、便捷的服务,提升老年人生活质量。该系统结合互联网技术…

从零实现STM32CubeMX下载与开发环境准备

从零开始搭建STM32开发环境:CubeMX下载与配置实战全解析 你是不是也经历过这样的时刻?买回一块STM32最小系统板,满心期待地插上电脑,却发现连第一个“Hello World”都跑不起来。不是缺这个库,就是少那个驱动&#xff…

Pandas与DynamoDB的无缝对接

在数据处理领域,Pandas无疑是一个强大的工具,它能够高效地处理各种数据结构和数据分析任务。然而,当我们需要将这些数据存储或与其他服务对接时,常常会遇到一些挑战,特别是当这些数据需要被写入到NoSQL数据库如DynamoDB时。本文将通过一个实际的例子,详细讲解如何将Panda…