【DeepSeek背后的技术】系列三：强化学习（Reinforcement Learning, RL）

1 简介
- 1.1 强化学习（RL）简介
- 1.2 基于人类反馈的强化学习 (RLHF) 简介
- - 1.2.1 四个重要角色
  - 1.2.2 三个步骤
2 强化算法
- 2.1 PPO（Proximal Policy Optimization）
- - 2.1.1 核心思想
  - 2.1.2 算法步骤
  - 2.1.3 优点
  - 2.1.4 缺点
  - 2.1.5 应用场景
- 2.2 GRPO（Group Relative Policy Optimization）
- - 2.2.1 核心思想
  - 2.2.2 算法步骤
  - 2.2.3 优点
  - 2.2.4 缺点
  - 2.2.5 应用场景
  - 2.2.6 对比其他算法
- 2.3 Long CoT（Long Chain-of-Thought for Decision-Making）
- - 2.3.1 核心思想
  - 2.3.2 算法步骤
  - 2.3.3 优点
  - 2.3.4 缺点
  - 2.3.5 应用场景

1 简介

1.1 强化学习（RL）简介

强化学习（Reinforcement Learning, RL）是一种智能体在与环境互动过程中，通过试错和奖励机制学习如何达成目标的算法。在这个过程中，智能体会不断探索环境，采取行动，并根据环境反馈的奖励或惩罚调整自己的行为策略，最终学习到最优策略。因此，反复实验(trial and error） 和 延迟奖励（delayed reward） 是强化学习最重要的两个特征。

强化学习已在多个领域得到应用，例如游戏（例如围棋AlphaGo）、机器人（例如波士顿动力机器狗）、金融（例如量化交易策略）和大模型（例如语言大模型训练范式RLHF）等。

如下图所示，强化学习的基本要素包括：

智能体 (Agent)：指 LLM/Stable Diffusion 等大模型。
环境 (Environment)：指用户使用和反馈。
状态 (State)：环境中所有可能状态的集合。
动作 (Action)：智能体所有可能动作的集合。
奖励 (Reward)：智能体在环境的某一状态下所获得的奖励。

强化学习

强化学习基本概念：

基本概念

智能体的目标是找到一个策略，根据当前观测到的环境状态和奖励反馈，选择最大化预期奖励的最佳动作。

1.2 基于人类反馈的强化学习 (RLHF) 简介

基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback，RLHF) 是一种新颖的人工智能训练方法，它结合了强化学习和人类反馈，通过融入用户智慧和经验，引导智能体学习和进化。该技术已在 GPT-4、Gemini、Claude 等自然语言大模型中得到广泛应用，并取得了显著成效。

如下图所示，自然语言大模型RLHF训练过程包含四个重要角色和三个步骤。

RLHF

1.2.1 四个重要角色

Actor Model（演员模型）：待训练的语言模型。
Critic Model（评论家模型）：预测语言模型输出的奖励。
Reward Model（奖励模型）：计算语言模型在当前状态下的奖励。
Reference Model（参考模型）：为Actor Model参数更新提供“约束”，防止其过度偏离。

其中，Actor/Critic Model在RLHF阶段是需要训练（参数更新），而Reward/Reference Model是参数冻结的。

其他角色：

Pretrained Model （预训练模型）：是指大量文本数据上进行训练的语言模型。预训练模型已经学习了语言的基本知识，例如词法、句法和语义等。
SFT Model （监督微调模型）：使用人类标注高质量数据对Pretrained Model的监督训练得到，在RLHF阶段用于初始化Actor模型和Reference模型。
Reward Model 奖励网络：使用人类标注候选文本排序数据集对Pretrained Model的监督训练得到，能够提供LLM输出文本的‘好坏’奖励信号。在RLHF阶段用于初始化Reward模型和Critic模型。

1.2.2 三个步骤

SFT（大模型监督微调）阶段：使用人工标注数据集对预训练模型进行监督微调，得到SFT Model（监督微调模型）。
RW（奖励模型训练）阶段：使用SFT模型生成多个回答，人工标注回答的‘好坏’得到排序标注数据集，对预训练模型进行训练，得到Reward Model（奖励模型）。
RLHF阶段：Actor模型生成文本，利用Critic/Reward/Reference Model（图中黄色框区域）共同组成了一个“reward-loss”计算体系，产生奖励信号，对Actor和Critic Model进行更新，直到 Actor 模型达到理想状态。

下图为OpenAI发布的GPT-3.5的RLHF的过程。

GPT-3.5

2 强化算法

下面介绍一些常用的RL算法：PPO、GRPO和PRIME。DeepSeek使用的是GRPO算法。

2.1 PPO（Proximal Policy Optimization）

2.1.1 核心思想

PPO是一种基于策略梯度（Policy Gradient）的强化学习算法，旨在通过限制策略更新的幅度来保证训练稳定性，避免传统策略梯度方法中因更新过大导致的性能崩溃。

2.1.2 算法步骤

目标函数设计

目标函数

优势估计

优势估计

更新策略
通过多轮小批量梯度上升优化目标函数，避免单步更新过大。

2.1.3 优点

训练稳定，无需复杂的信任区域计算（如TRPO）。
样本利用率高，适用于连续和离散动作空间。

2.1.4 缺点

超参数（如剪切阈值( \epsilon )）对性能敏感。
对优势函数估计的准确性依赖较高。

2.1.5 应用场景

游戏AI（如Dota 2、星际争霸II）、机器人控制、自然语言生成。

2.2 GRPO（Group Relative Policy Optimization）

GRPO（Group Relative Policy Optimization） 是一种基于群体相对性能的策略优化方法，旨在通过比较不同策略组（Group）的表现来指导策略更新，提升训练的稳定性和多样性。该方法通常用于多任务学习或多智能体强化学习场景，通过组间相对评估避免局部最优。

论文：DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

2.2.1 核心思想

群体分组（Grouping）：将策略划分为多个组（例如不同策略参数初始化或不同任务分配），每个组独立与环境交互。
相对性能评估：根据组的相对表现（如平均回报）动态调整策略更新方向。
策略更新约束：通过组间比较，抑制低性能组的更新幅度，促进高性能组的探索。

2.2.2 算法步骤

算法步骤1

伪代码如下：

2.2.3 优点

避免局部最优：组间竞争促进策略多样性，减少早熟收敛。
适应多任务：天然支持多任务学习，各组可专注于不同子任务。
资源分配高效：动态调整组间权重，集中资源训练高性能策略。

2.2.4 缺点

计算开销大：维护多个策略组增加内存和计算成本。
超参数敏感：组数 ( K ) 和温度 ( \tau ) 需精细调节。
组间干扰：低效组可能拖累整体训练速度。

2.2.5 应用场景

多任务强化学习：每组处理不同任务（如机器人抓取不同物体）。
多智能体协同：各组代表不同智能体策略，通过相对评估优化协作。
超参数搜索：将不同超参数配置视为组，快速筛选最优组合。

2.2.6 对比其他算法

算法	核心机制	适用场景	与GRPO的区别
PPO	剪切策略更新幅度	单任务通用场景	GRPO通过组间比较提升多样性
MAPPO	多智能体策略优化	协作型多智能体	GRPO强调组间竞争而非协作
ES	进化策略全局搜索	高维参数空间优化	GRPO基于梯度更新而非进化