从0开始学verl：快速掌握HybridFlow论文开源实现

1. 引言：为什么选择 verl？

大型语言模型（LLM）的后训练阶段，尤其是基于人类反馈的强化学习（RLHF），已成为提升模型对齐能力的关键环节。然而，传统 RL 训练框架在面对千亿级参数模型时，往往面临吞吐低、扩展性差、集成复杂等问题。

verl是由字节跳动火山引擎团队开源的高效强化学习训练框架，专为 LLM 后训练设计，是HybridFlow 论文的官方开源实现。它通过创新的 Hybrid 编程模型和 3D-HybridEngine 技术，在保持高灵活性的同时实现了业界领先的训练吞吐。

本文将带你从零开始，深入理解verl的核心架构与工作流程，重点解析其关键配置项（特别是令人困惑的 batch size 系统），并通过源码剖析帮助你构建完整的工程化认知。

2. verl 核心特性概览

2.1 高性能与生产就绪

verl不仅是一个研究原型，更是一个可用于生产环境的高性能框架。其核心优势包括：

最先进的吞吐量：无缝集成 vLLM、SGLang 等 SOTA 推理引擎，显著提升生成效率。
高效的资源利用：支持灵活的设备映射与并行策略，适配不同规模 GPU 集群。
内存优化机制：基于 3D-HybridEngine 实现 Actor 模型重分片，消除冗余内存占用，降低通信开销。

2.2 架构灵活性与易用性

verl的设计理念强调模块化与可扩展性：

多样化 RL 算法支持：采用 Hybrid 编程模型，统一表达单控制器与多控制器范式，用户仅需几行代码即可构建复杂数据流。
无缝集成主流生态：兼容 HuggingFace 模型接口，并可轻松对接 PyTorch FSDP、Megatron-LM 等训练框架。
解耦计算与数据依赖：提供模块化 API，便于定制化开发与系统集成。

3. 安装与验证：快速启动你的第一个 verl 环境

3.1 环境准备

确保已安装 Python 3.9+ 及 PyTorch 相关依赖。建议使用 Conda 创建独立环境：

conda create -n verl python=3.9 conda activate verl

3.2 安装 verl

目前verl可通过源码或 pip 安装（具体方式参考项目文档）。假设已完成安装，接下来进行验证。

3.3 验证安装是否成功

进入 Python 交互环境并导入verl：

import verl print(verl.__version__)

若输出版本号（如0.1.0），则表示安装成功。

提示：可通过 CSDN 星图镜像广场获取预配置好的 AI 开发环境，一键部署包含verl的完整 RLHF 训练栈。

4. 核心概念解析：GRPO 与 verl 的关系

4.1 GRPO：PPO 的高效变体

verl默认支持GRPO（Generalized Reward-based Policy Optimization），这是 DeepSeek 提出的一种 PPO 高效替代方案。相比标准 PPO，GRPO 具有以下简化：

组件	PPO	GRPO
Reward Model	✅ 需要额外 RM 打分	❌ 省略，使用规则函数直接计算 reward
Critic Model	✅ 需要 V_i估计	❌ 省略，直接用 R_i作为 value
Advantage 计算	A = R + γV' - V	A = R - baseline（基于规则 reward）

这种设计大幅减少了模型数量和通信开销，特别适合规则明确的对齐任务。

4.2 verl 如何支持 GRPO

在verl中，GRPO 的实现体现在以下几个方面：

use_critic=False：关闭 critic 模型更新逻辑。
use_rm=False：不调用外部 reward model。
reward_fn=batch => scores：用户自定义规则函数，返回 token-level 或 sequence-level 分数。

这使得整个训练流程更加轻量，聚焦于 actor 模型的策略优化。

5. Batch Size 系统深度解析

在verl的训练过程中，存在多个与 batch 相关的参数，容易引起混淆。我们以ppo_trainer.yaml中的典型配置为例，逐层拆解其含义。

5.1 全局配置

data.train_batch_size: 60 trainer.n_gpus_per_node: 6 trainer.nnodes: 1

data.train_batch_size=60：每步处理 60 条训练样本（prompt）。
单机 6 卡，总 GPU 数为 6。

⚠️ 注意：data.train_batch_size必须能被trainer.n_gpus_per_node整除，否则会报错。

5.2 Actor Rollout Ref 配置详解

actor_rollout_ref: actor: ppo_mini_batch_size: 60 ppo_micro_batch_size_per_gpu: 8 ulysses_sequence_parallel_size: 1 fsdp_config: param_offload: false optimizer_offload: false rollout: log_prob_micro_batch_size_per_gpu: 8 n: 12 tensor_model_parallel_size: 2 ref: log_prob_micro_batch_size_per_gpu: 8

这些参数共同决定了数据如何在分布式环境中流动与处理。

6. 源码级工作流分析

6.1 数据流总览

在ray_trainer.py的fit()函数中，一个完整的训练步骤包含以下阶段：

with _timer('step', timing_raw): with _timer('gen', timing_raw): gen_batch_output = self.actor_rollout_wg.generate_sequences(gen_batch) with _timer('old_log_prob', timing_raw): old_log_prob = self.actor_rollout_wg.compute_log_prob(batch) if self.use_reference_policy: with _timer('ref', timing_raw): ref_log_prob = self.ref_policy_wg.compute_ref_log_prob(batch) with _timer('adv', timing_raw): batch = compute_advantage(batch, ...) if self.config.trainer.critic_warmup <= self.global_steps: with _timer('update_actor', timing_raw): actor_output = self.actor_rollout_wg.update_actor(batch)

整个流程可概括为： 1.生成序列（Generate）2.计算旧策略 log prob3.计算参考策略 log prob4.计算 advantage5.更新 actor 模型

6.2 generate_sequences：从 60 到 720 的转变

观察以下日志输出：

print('gen_batch shape: ', gen_batch.batch['input_ids'].shape) # 输出: torch.Size([60, 8192]) gen_batch_output = self.actor_rollout_wg.generate_sequences(gen_batch) print("gen_batch_output.batch['prompts'].shape: ", gen_batch_output.batch['prompts'].shape) # 输出: torch.Size([720, 8192])

输入是 60 条 prompt，输出变成 720 条 response。这个倍增来自于rollout.n=12—— 每条 prompt 被采样生成 12 个 response。

即：
$$ 60 \times 12 = 720 $$

6.3 ActorRolloutRefWorker 初始化中的 batch 归一化

在fsdp_workers.py的ActorRolloutRefWorker.__init__中，有一段关键的 batch size 归一化逻辑：

if self._is_actor: self.config.actor.ppo_mini_batch_size *= self.config.rollout.n # 60 * 12 = 720 self.config.actor.ppo_mini_batch_size //= (self.device_mesh.size() // self.ulysses_sequence_parallel_size) # 720 // 6 = 120

解析过程：

乘以 n：因为每个 prompt 生成 n=12 个样本，所以 mini-batch 实际样本数变为 $60 \times 12 = 720$。
除以 DP shard 数：device_mesh.size()=6，ulysses_sequence_parallel_size=1，因此 DP 组大小为 6。
最终每个 GPU 上的ppo_mini_batch_size = 720 // 6 = 120。

✅ 结论：虽然原始 batch 是 60，但经过 rollout 扩展和 DP 分片后，每个 GPU 实际处理 120 个样本。

6.4 Rollout 并行策略：Tensor Parallelism 的应用

在_build_rollout方法中，verl使用了 Tensor Parallelism（TP）来加速推理：

infer_tp = self.config.rollout.tensor_model_parallel_size # =2 dp = self.world_size // infer_tp # =6//2=3 rollout_device_mesh = init_device_mesh('cuda', mesh_shape=(dp, infer_tp), mesh_dim_names=['dp', 'infer_tp'])

这意味着：

将 6 张 GPU 分成 3 组，每组 2 张卡用于 TP 推理。
每组负责 $\frac{60}{3} = 20$ 条 prompt 的 rollout。
每条 prompt 生成 12 个 response → 每组处理 $20 \times 12 = 240$ 条 sequence。
总共生成 $3 \times 240 = 720$ 条 sequence。

该结构如下图所示：

[GPU0-GPU1] ← TP Group 0 → 20 prompts × 12 = 240 seqs [GPU2-GPU3] ← TP Group 1 → 20 prompts × 12 = 240 seqs [GPU4-GPU5] ← TP Group 2 → 20 prompts × 12 = 240 seqs

6.5 Micro Batch Size 的作用

尽管ppo_micro_batch_size_per_gpu被标记为“似乎没用”，但在梯度累积场景下仍有意义：

actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu: 8 actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu: 8

这两个参数控制在compute_log_prob阶段，每个 GPU 每次前向传播处理多少条 sequence。

例如： - 每个 GPU 收到 240 条 sequence（来自 rollout） - 设置log_prob_micro_batch_size_per_gpu=8- 则需执行 $240 / 8 = 30$ 次 micro-step 完成 log prob 计算

这有助于控制显存峰值，避免 OOM。

7. 实际运行中的数据流转图示

以下是verl在单机六卡环境下的一次完整 step 数据流转示意：

Input Prompts (60) ↓ Split into 3 DP groups (20 each) ↓ Each group uses 2-GPU TP for rollout (vLLM) ↓ Each group generates 20×12=240 responses ↓ Total sequences: 720 ↓ Distribute to 6 GPUs (~120 per GPU) ↓ Compute old policy log prob (micro_bs=8) ↓ Compute ref policy log prob (micro_bs=8) ↓ Compute advantage via rule-based reward_fn ↓ Update actor using PPO/GRPO loss

这一流程充分体现了verl对数据并行（DP）、张量并行（TP）、序列并行（SP）的灵活调度能力。

8. 常见问题与避坑指南

8.1 batch size 不整除导致报错

错误示例：

data.train_batch_size: 64 trainer.n_gpus_per_node: 6

64 无法被 6 整除，会导致分片失败。

✅ 正确做法：选择能被 GPU 数整除的 batch size，如 60、72、96 等。

8.2 rollout.n 过大导致显存溢出

rollout.n决定了每个 prompt 生成多少 response。过大会导致：

生成阶段显存压力增加
后续 log prob 计算负担加重

✅ 建议：根据模型大小和 GPU 显存合理设置n=4~16。

8.3 忽略 device_mesh 导致性能下降

未正确配置tensor_model_parallel_size可能导致：

无法充分利用多卡协同
推理速度变慢

✅ 建议：根据 GPU 数量合理划分 TP 组，保持负载均衡。

9. 总结

verl作为 HybridFlow 论文的开源实现，不仅提供了高性能的 RL 训练能力，还通过清晰的模块化设计降低了使用门槛。通过对 batch size 系统的深入剖析，我们可以看到其背后精巧的分布式调度机制。

本文核心要点总结如下：

GRPO 是轻量版 PPO：省去 RM 和 Critic，直接用规则 reward 驱动训练。
batch size 是动态扩展的：train_batch_size × n = 实际样本数。
归一化发生在 worker 初始化阶段：自动适配 DP 和 SP 配置。
rollout 使用 TP 加速：通过tensor_model_parallel_size控制推理并行粒度。
micro_batch_size 用于控制显存：避免 log prob 计算时 OOM。

掌握这些原理后，你可以更有信心地在实际项目中部署verl，并根据需求调整配置以达到最佳性能。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。