该文介绍2025年两篇关于强化学习(RL)与大语言模型(LLM)结合的最新技术综述。第一篇梳理了RL在LLM全生命周期(预训练、对齐、推理增强)的应用,重点解析RLVR技术;第二篇聚焦"大推理模型(LRM)",探讨奖励设计、策略优化等核心问题,并提供了60+开源模型、40+数据资源和30+训练框架的全面盘点,展示了RL如何提升LLM推理能力和涌现行为。
今天分享2篇2025最新RL×LLM的技术综述:复旦、字节等全景扫描“RL在LLM全生命周期的打法”,清华、上海AI Lab等聚焦“RL如何炼成大推理模型”
传统 RLHF解决“对齐”——让模型更礼貌、更安全。
2024 年起,OpenAI o1、DeepSeek-R1、Kimi k1.5、Qwen3 等相继亮相:在数学、代码、科学问答上暴涨几十个百分点,秘诀是RL with Verifiable Rewards(RLVR)——用可自动判对的奖励(unit-test、math-verify)代替昂贵人类偏好。
结果:推理长度↑、Pass@1↑,出现“自我反思”“纠错”等涌现行为,于是“大推理模型(LRM)”概念出圈。
第一篇Paper完整梳理 RL 在 LLM 全生命周期的玩法:从预训练 → 对齐 → 推理增强,重点解读 RLVR(可验证奖励 RL)的算法演进、多模态延伸、Agent 训练与内部反馈机制。
全生命周期地图
RL增强的LLM关键组件
| 阶段 | 关键算法 | 备注 |
|---|---|---|
| 预训练 | Reinforcement Pre-Training、OctoThinker | 把 next-token 变成可验证 RL 任务 |
| 对齐 | RLHF、DPO、RLAIF、Constitutional AI | 人类/AI 偏好→策略优化 |
| 推理增强 | RLVR + 多模态 + Agent | 最浓墨重彩的章节 |
LLM+RL全分类体系
推理阶段的强化学习方法
RLVR(可验证奖励强化学习)成为核心
用“自动判卷”式奖励(代码单元测试、数学答案校验)替代人工偏好,直接优化推理正确率。
算法演进路线
- GRPO:去价值网络,组内相对奖励做 baseline,稳定高效。
- DAPO:Clip-Higher(上界放松)+ 动态采样 + 超长截断,长链推理不崩。
- Tree 系列:TreeRPO/TreeRL 把 rollout 组织成树,步级奖励+KV-cache 复用,提升探索密度。
- 序列级新范式:GSPO 用整条序列的重要性权重,解决 token 级偏差,MoE 训练更稳。
清华、上海AI Lab等
把镜头对准「大推理模型 LRM」——为何 RL 能让 LLM 长出“长思维链”?它系统拆解了奖励设计、策略优化、采样策略、训练资源与落地应用,并给出 60+ 开源模型、40+ 数据/环境、30+ 训练框架的超全盘点。
一张图看懂 RL for LRM 组件
综述总览。介绍了面向大型推理模型(LRMs)的 RL 基础组件、开放问题、训练资源与应用,核心关注语言智能体与环境在长期演化中的大规模交互。
基础组件分类树,展示各方向的代表性工作:奖励设计、策略优化、采样策略
奖励设计 5 象限
| 类型 | 信号密度 | 是否可验证 | 案例 |
|---|---|---|---|
| ① 规则奖励 | 稀疏 | ✅ | 数学答案对错、代码单元测试 |
| ② 生成奖励 | 稀疏/密集 | ❌/✅ | LLM-as-a-Judge、RRM |
| ③ 密集奖励 | 步级/Token 级 | ✅/❌ | PRM、TreeRPO、Turn-level |
| ④ 无监督奖励 | 任意 | ❌ | 自一致性、熵、置信度 |
| ⑤ 奖励塑形 | 任意 | — | 混合规则+RM、Pass@K 对齐 |
策略优化“去 Critic” 浪潮
- GRPO:组内均值做 baseline,省掉价值网络,7B→67B 全尺寸可跑。
- DAPO:Clip-Higher + 动态采样 + 超长截断,AIME24 提升 10+ 分。
- GSPO:序列级重要性采样,MoE 训练更稳。
采样=隐藏核心生产力
| 技巧 | 目的 | 代表 |
|---|---|---|
| 在线难度过滤 | 避免梯度为 0 | PRIME、DAPO |
| 树 rollout | 步级奖励+KV-cache 复用 | TreeRL、ToTRL |
| 长度课程 | 8k→16k→32k 渐进 | DeepScaleR、S1 |
表4 | 用于 LLM RL 训练的静态数据集,涵盖数学、代码、STEM 与智能体领域
表6 | 面向 LLM 后训练的开源 RL 基础设施
如何学习AI大模型?
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!
第一阶段:从大模型系统设计入手,讲解大模型的主要方法;
第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案
大模型全套视频教程
200本大模型PDF书籍
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集
大模型产品经理资源合集
大模型项目实战合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓