DeepSeek基础：PPO、DPO、GRPO概念详解

DeepSeek-R1 的强化学习方案中，其亮点之一在于通过 GRPO 算法取代RLHF 常用的 PPO，通过尽可能减少人类标注数据，设计纯 RL 的环境，用精心设计的奖励机制来训练模型自己学会推理。那么什么是PPO、GRPO，其产生的背景、核心思想和应用场景又有哪些？本文将从以下方面介绍：

\1. 强化学习基础

\2. PPO、DPO、GRPO深度解析

\3. 总结与应用建议

*一、强化学习基础*

1. 什么是强化学习？

定义：强化学习（Reinforcement Learning, RL）是机器学习的一个分支，其核心是通过与环境（Environment）的交互学习最优决策策略。通过试错获得反馈（奖励或惩罚），最终目标是最大化累积奖励。

类比：类似于训练小狗完成动作——做对了给零食（正奖励），做错了不鼓励（负奖励），最终小狗学会“坐下”或“握手”。

最近两年，大家都可以看到AI的发展有多快，我国超10亿参数的大模型，在短短一年之内，已经超过了100个，现在还在不断的发掘中，时代在瞬息万变，我们又为何不给自己多一个选择，多一个出路，多一个可能呢？

与其在传统行业里停滞不前，不如尝试一下新兴行业，而AI大模型恰恰是这两年的大风口，整体AI领域2025年预计缺口1000万人，其中算法、工程应用类人才需求最为紧迫！

学习AI大模型是一项系统工程，需要时间和持续的努力。但随着技术的发展和在线资源的丰富，零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】

【2025最新】AI大模型全套学习籽料（可白嫖）：LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等，从入门到进阶再到精通，超全面存下吧！

2. 强化学习的产生背景

起源：1950年代控制论与心理学研究的结合，早期应用于机器人路径规划、游戏AI等。

核心需求：解决序列决策问题（Sequential Decision Making），即在多步决策中平衡短期与长期收益。

爆发点：2016年AlphaGo击败李世石，强化学习成为AI领域的热点技术。

3. 强化学习核心要素

在这里插入图片描述

5. RLHF（基于人类反馈的强化学习）

类比：AI的“家教辅导班”

想象你在教一个孩子学画画，但无法直接用分数评价每幅画的好坏（传统奖励函数设计困难）。于是你请了一位美术老师（人类），对孩子的画作进行点评（反馈），告诉TA哪些线条更优美、哪些配色需要改进。

RLHF的核心思想**：**通过人类的主观反馈替代或修正环境奖励，让AI更符合人类价值观。
在这里插入图片描述

通过RLHF，AI不仅能完成目标任务，还能理解人类的主观意图和价值观。这是DPO、PPO、GRPO等技术的重要应用场景之一。

二、PPO、DPO、GRPO深度解析

1. PPO（近端策略优化）

类比：健身教练的“安全训练计划”

想象你是一名健身教练，学员要通过不断调整训练动作来增强肌肉（最大化奖励）。但直接让学员每天大幅增加训练量（策略突变），可能会导致受伤（训练崩溃）。

PPO的核心思想**：**制定一个“安全范围”，让学员每次训练量只能小幅调整，确保稳定进步。

核心原理详解

(1) 策略梯度（Policy Gradient）：

基础思想：根据动作的“好坏”（优势函数）调整策略。比如，某个动作让学员举得更重（高奖励），就多鼓励这个动作。

问题：如果学员突然尝试过重的动作（策略突变），可能导致肌肉拉伤（训练崩溃）。

(2) *PPO的改进——Clip机制**：*

“安全阈值”：规定每次训练量变化不超过±20%（类比Clip阈值ε=0.2）。

(3) 价值网络（Critic）的作用：

类似于“体能评估师”，预测某个训练动作的长期效果（状态价值）。

帮助计算优势函数At：当前动作比平均动作好多少（例如举12kg比举10kg多带来20%的效果增益）。

优缺点总结

优点：稳定可控，适合复杂任务（如机器人学走路、游戏AI打Boss）。

缺点：需依赖“体能评估师”（Critic网络）和大量训练数据，计算成本高。

实际应用

ChatGPT的微调：用PPO结合人类反馈的奖励模型，让模型生成更自然的回答。

2. DPO（直接偏好优化）

类比：学生通过“老师批改”直接改进答案

假设学生写作文，老师不会直接给分数（奖励模型），而是标注“这段写得好，那段需要删掉”（偏好数据对）。学生通过对比好答案和差答案，直接改进写作策略。

DPO的核心思想**：**跳过“评分标准”（奖励模型），直接用老师的批注优化作文。

核心原理详解

(1) 传统RLHF的缺陷：

传统方法：先让老师制定评分标准（训练奖励模型），再让学生按标准优化（PPO）。流程复杂，容易出错。

DPO的简化：直接告诉学生“答案A比答案B好”，无需解释为什么。

(2) 损失函数解析：

LDPO=−logσ(β(logπ**θ(*y**w*∣x)−logπ**θ(*y**l*∣x)))

σ：Sigmoid函数，将差值转化为概率（例如好答案比差答案的概率高80%）。
β：控制优化强度（类似老师批改的严格程度）。

(3) 工作原理：

输入数据：标注的偏好对（如“答案A逻辑清晰，答案B跑题”）。

优化目标：让模型对好答案*y**w的概率显著高于差答案y**l*。

优缺点总结

优点：无需训练奖励模型，显存占用低，适合快速微调（如让ChatGPT生成更友善的回答）。

缺点：依赖高质量偏好数据（若老师批改不准确，学生可能学偏）。

实际应用

对话模型对齐：让AI拒绝回答有害问题（如“如何制造炸弹？”）。

文本摘要优化：根据用户点击数据（偏好信号），生成更吸引人的摘要。

3. GRPO（组相对策略优化）

类比：“选秀比赛”中的组内PK

假设综艺节目选拔歌手，导演让同一组选手唱同一首歌（生成多候选），根据组内表现（奖励）决定晋级和淘汰。

GRPO的核心思想**：**通过组内比较（而非绝对评分）优化策略，节省评委（Critic网络）的成本。

核心原理详解

(1) 组内相对奖励：

多候选生成：同一问题生成多个答案（如5种解题思路）。

奖励归一化：将组内答案的奖励转换为标准分（例如：某答案比组内平均分高1个标准差，则优势显著）。

公式示例：

μ组：组内平均奖励（如5个答案的平均得分）。
σ组：组内奖励标准差（反映答案质量的波动）。

(2) 省略Critic网络：

传统PPO需要评委（Critic）预测每个答案的得分，GRPO直接通过组内PK动态计算优势，节省显存。

(3) 稳定性控制：

KL散度惩罚**：**防止新策略与旧策略差异过大（如选手突然改变唱法，导致观众不适应）。

剪切机制**：**限制策略更新幅度（类似PPO的Clip）。

优缺点总结

优点：显存占用降低50%，适合资源受限场景（如手机端模型训练）；多候选生成增强多样性（如探索不同解题思路）。

缺点：推理时需生成多个候选答案，耗时增加。

实际应用

数学推理：DeepSeek-R1模型在GSM8K数学题上，通过多答案PK提升准确率至51.7%。

代码生成：生成多种代码实现，选择最简洁高效的版本。

三、总结与应用建议

1. 核心对比
在这里插入图片描述

2. 应用建议

PPO：需与环境交互或依赖奖励模型的复杂任务（如机器人控制）。

DPO：拥有高质量偏好数据且需快速微调语言模型的任务（如对话生成）。

GRPO：显存受限或需增强多样性的任务（如数学推理、代码生成）。