DeepSeek-R1 的强化学习方案中,其亮点之一在于通过 GRPO 算法取代RLHF 常用的 PPO,通过尽可能减少人类标注数据,设计纯 RL 的环境,用精心设计的奖励机制来训练模型自己学会推理。那么什么是PPO、GRPO,其产生的背景、核心思想和应用场景又有哪些?本文将从以下方面介绍:
\1. 强化学习基础
\2. PPO、DPO、GRPO深度解析
\3. 总结与应用建议
*一、强化学习基础*
1. 什么是强化学习?
定义:强化学习(Reinforcement Learning, RL)是机器学习的一个分支,其核心是通过与环境(Environment)的交互学习最优决策策略。通过试错获得反馈(奖励或惩罚),最终目标是最大化累积奖励。
类比:类似于训练小狗完成动作——做对了给零食(正奖励),做错了不鼓励(负奖励),最终小狗学会“坐下”或“握手”。
最近两年,大家都可以看到AI的发展有多快,我国超10亿参数的大模型,在短短一年之内,已经超过了100个,现在还在不断的发掘中,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?
与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,整体AI领域2025年预计缺口1000万人,其中算法、工程应用类人才需求最为紧迫!
学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】
【2025最新】AI大模型全套学习籽料(可白嫖):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!
2. 强化学习的产生背景
起源:1950年代控制论与心理学研究的结合,早期应用于机器人路径规划、游戏AI等。
核心需求:解决序列决策问题(Sequential Decision Making),即在多步决策中平衡短期与长期收益。
爆发点:2016年AlphaGo击败李世石,强化学习成为AI领域的热点技术。
3. 强化学习核心要素
5. RLHF(基于人类反馈的强化学习)
类比:AI的“家教辅导班”
想象你在教一个孩子学画画,但无法直接用分数评价每幅画的好坏(传统奖励函数设计困难)。于是你请了一位美术老师(人类),对孩子的画作进行点评(反馈),告诉TA哪些线条更优美、哪些配色需要改进。
RLHF的核心思想**:**通过人类的主观反馈替代或修正环境奖励,让AI更符合人类价值观。
通过RLHF,AI不仅能完成目标任务,还能理解人类的主观意图和价值观。这是DPO、PPO、GRPO等技术的重要应用场景之一。
*二、PPO、DPO、GRPO深度解析*
1. PPO(近端策略优化)
类比:健身教练的“安全训练计划”
想象你是一名健身教练,学员要通过不断调整训练动作来增强肌肉(最大化奖励)。但直接让学员每天大幅增加训练量(策略突变),可能会导致受伤(训练崩溃)。
PPO的核心思想**:**制定一个“安全范围”,让学员每次训练量只能小幅调整,确保稳定进步。
核心原理详解
*(1)* 策略梯度(Policy Gradient):
**基础思想:**根据动作的“好坏”(优势函数)调整策略。比如,某个动作让学员举得更重(高奖励),就多鼓励这个动作。
问题:如果学员突然尝试过重的动作(策略突变),可能导致肌肉拉伤(训练崩溃)。
*(2)* *PPO的改进——Clip机制**:*
“安全阈值”:规定每次训练量变化不超过±20%(类比Clip阈值ε=0.2)。
(3) 价值网络(Critic)的作用:
类似于“体能评估师”,预测某个训练动作的长期效果(状态价值)。
帮助计算优势函数At:当前动作比平均动作好多少(例如举12kg比举10kg多带来20%的效果增益)。
优缺点总结
优点**:**稳定可控,适合复杂任务(如机器人学走路、游戏AI打Boss)。
缺点**:**需依赖“体能评估师”(Critic网络)和大量训练数据,计算成本高。
实际应用
ChatGPT的微调:用PPO结合人类反馈的奖励模型,让模型生成更自然的回答。
2. DPO(直接偏好优化)
类比:学生通过“老师批改”直接改进答案
假设学生写作文,老师不会直接给分数(奖励模型),而是标注“这段写得好,那段需要删掉”(偏好数据对)。学生通过对比好答案和差答案,直接改进写作策略。
DPO的核心思想**:**跳过“评分标准”(奖励模型),直接用老师的批注优化作文。
核心原理详解
(1) 传统RLHF的缺陷:
传统方法:先让老师制定评分标准(训练奖励模型),再让学生按标准优化(PPO)。流程复杂,容易出错。
DPO的简化:直接告诉学生“答案A比答案B好”,无需解释为什么。
(2) 损失函数解析:
LDPO=−logσ(β(logπ**θ(y**w∣x)−logπ**θ(y**l∣x)))
-
σ:Sigmoid函数,将差值转化为概率(例如好答案比差答案的概率高80%)。
-
β:控制优化强度(类似老师批改的严格程度)。
(3) 工作原理:
输入数据:标注的偏好对(如“答案A逻辑清晰,答案B跑题”)。
优化目标:让模型对好答案y**w的概率显著高于差答案y**l。
优缺点总结
优点**:**无需训练奖励模型,显存占用低,适合快速微调(如让ChatGPT生成更友善的回答)。
缺点**:**依赖高质量偏好数据(若老师批改不准确,学生可能学偏)。
实际应用
对话模型对齐**:让AI拒绝回答有害问题(如“如何制造炸弹?”)。 **
*文本摘要优化***:**根据用户点击数据(偏好信号),生成更吸引人的摘要。
3. GRPO(组相对策略优化)
类比:“选秀比赛”中的组内PK
假设综艺节目选拔歌手,导演让同一组选手唱同一首歌(生成多候选),根据组内表现(奖励)决定晋级和淘汰。
GRPO的核心思想**:**通过组内比较(而非绝对评分)优化策略,节省评委(Critic网络)的成本。
核心原理详解
(1) 组内相对奖励:
多候选生成:同一问题生成多个答案(如5种解题思路)。
奖励归一化:将组内答案的奖励转换为标准分(例如:某答案比组内平均分高1个标准差,则优势显著)。
公式示例:
-
μ组:组内平均奖励(如5个答案的平均得分)。
-
σ组:组内奖励标准差(反映答案质量的波动)。
(2) 省略Critic网络:
传统PPO需要评委(Critic)预测每个答案的得分,GRPO直接通过组内PK动态计算优势,节省显存。
(3) 稳定性控制:
KL散度惩罚**:**防止新策略与旧策略差异过大(如选手突然改变唱法,导致观众不适应)。
剪切机制**:**限制策略更新幅度(类似PPO的Clip)。
优缺点总结
优点**:**显存占用降低50%,适合资源受限场景(如手机端模型训练);多候选生成增强多样性(如探索不同解题思路)。
缺点**:**推理时需生成多个候选答案,耗时增加。
实际应用
数学推理**:**DeepSeek-R1模型在GSM8K数学题上,通过多答案PK提升准确率至51.7%。
代码生成**:**生成多种代码实现,选择最简洁高效的版本。
三、总结与应用建议
1. 核心对比
2. 应用建议
PPO:需与环境交互或依赖奖励模型的复杂任务(如机器人控制)。
DPO:拥有高质量偏好数据且需快速微调语言模型的任务(如对话生成)。
GRPO:显存受限或需增强多样性的任务(如数学推理、代码生成)。
最近两年,大家都可以看到AI的发展有多快,我国超10亿参数的大模型,在短短一年之内,已经超过了100个,现在还在不断的发掘中,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?
与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,整体AI领域2025年预计缺口1000万人,其中算法、工程应用类人才需求最为紧迫!
学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】
【2025最新】AI大模型全套学习籽料(可白嫖):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!