零基础玩转verl：无需高端显卡也能体验强化学习

1. 引言

随着大语言模型（LLM）的快速发展，后训练阶段的优化技术逐渐成为提升模型性能的关键环节。其中，基于强化学习（Reinforcement Learning, RL）的对齐方法如PPO（Proximal Policy Optimization）被广泛应用于指令微调和人类偏好建模。然而，主流RL框架往往依赖高性能GPU集群，导致普通开发者难以参与实践。

verl是由字节跳动火山引擎团队开源的一个高效、灵活且可用于生产环境的强化学习训练框架，专为大型语言模型的后训练设计。它是 HybridFlow 论文的开源实现，具备模块化API、高吞吐量和良好的可扩展性。更重要的是，verl 在架构上支持低资源环境下的部署尝试——这为我们使用老旧或低端显卡进行学习与实验提供了可能。

本文将带你从零开始，在仅有一块 Tesla P40（24GB 显存，计算能力 6.1）这种十年前的硬件条件下，成功运行 verl 框架并执行一个完整的 PPO 训练流程。我们将重点解决兼容性问题、显存溢出错误以及配置陷阱，并提供一套可复用的“降级适配”方案，帮助你绕过官方文档未覆盖的现实障碍。

2. 环境准备与依赖安装

2.1 硬件与系统要求

本教程适用于以下典型低配环境：

GPU：NVIDIA Tesla P40（24GB VRAM，Compute Capability 6.1）
CUDA 支持版本上限：CUDA 11.x（不支持 CUDA 12）
不支持 FP16/BF16 硬件加速
内存建议 ≥32GB
操作系统：Ubuntu 20.04 x86_64

注意：Tesla P40 基于 Pascal 架构，其硬件限制决定了无法使用现代深度学习中常见的 BF16 和 FlashAttention 技术。因此必须通过软件层面进行降级配置。

2.2 分步安装流程

由于 Docker 镜像拉取常因网络问题失败，我们采用本地源码安装方式构建 verl 运行环境。请严格按照以下顺序执行安装步骤，避免版本冲突。

安装顺序	组件	版本/配置	说明
1	CUDA	11.8	必须使用 11.x 系列以兼容 P40
2	cuDNN	8.9.7 for CUDA 11.x	手动解压并链接至 CUDA 目录
3	Python	3.10	推荐使用 conda 虚拟环境
4	PyTorch	2.6.0+cu118	需指定 CUDA 11.8 编译版本
5	Apex	来自 NVIDIA 官方仓库	启用 CUDA 扩展
6	verl	GitHub 最新主干（git clone）	源码安装

步骤详解

1. 安装 CUDA 11.8

wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run sudo sh cuda_11.8.0_520.61.05_linux.run --toolkit --installpath=/usr/local/cuda-11.8

修改.bashrc添加路径：

export PATH=/usr/local/cuda-11.8/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH

2. 安装 cuDNN 8.9.7

# 创建独立目录存放 cuDNN sudo mkdir -p /usr/local/cudnn-8.9.7-cuda11 sudo tar -xvf cudnn-linux-x86_64-8.9.7.29_cuda11-archive.tar.xz \ --strip-components=1 -C /usr/local/cudnn-8.9.7-cuda11 # 复制文件到 CUDA 安装目录 sudo cp -lP /usr/local/cudnn-8.9.7-cuda11/lib/* /usr/local/cuda-11.8/lib64/ sudo cp -lP /usr/local/cudnn-8.9.7-cuda11/include/* /usr/local/cuda-11.8/include/

3. 创建虚拟环境并安装 PyTorch

conda create -n verl-env python=3.10 -y conda activate verl-env pip install torch==2.6.0+cu118 torchvision==0.21.0+cu118 torchaudio==2.6.0+cu118 \ --index-url https://download.pytorch.org/whl/cu118

4. 安装 Apex

git clone https://github.com/NVIDIA/apex.git cd apex MAX_JOB=32 pip install -v --disable-pip-version-check --no-cache-dir \ --no-build-isolation --config-settings "--build-option=--cpp_ext" \ --config-settings "--build-option=--cuda_ext" ./

5. 安装 verl 及其依赖组件

git clone https://github.com/volcengine/verl.git cd verl bash scripts/install_vllm_sglang_mcore.sh # 安装 vLLM、SGLang 等后端 pip install --no-deps -e .

验证安装是否成功：

import verl print(verl.__version__)

若输出版本号（如0.1.0），则表示安装成功。

3. 低资源适配改造策略

3.1 数据类型降级：BF16 → FP32

Tesla P40 的计算能力为 6.1，不支持 BFLOAT16 和 FLOAT16。而 verl 默认启用bfloat16精度，直接运行会报错：

ValueError: Bfloat16 is only supported on GPUs with compute capability of at least 8.0. Your Tesla P40 GPU has compute capability 6.1.

解决方案：全局替换数据类型

在 verl 源码中搜索所有"bfloat16"字符串（带引号），替换为"float32"：

grep -r "bfloat16" . --include="*.py"

常见需修改文件包括： -configs/algorithm/ppo.py-configs/model/qwen.py-verl/trainer/main_ppo.py

关键点：不能简单通过命令行参数--dtype=float32覆盖，因为部分模块硬编码了精度设置。

3.2 Attention 模式切换：FlashAttention-2 → Eager

FlashAttention-2 使用 Tensor Core 和大块共享内存（≥80KB），而 Tesla P40 仅有 48KB 共享内存，且无 Tensor Core，导致 kernel 编译失败：

triton.runtime.errors.OutOfResources: out of resource: shared memory, Required: 81920, Hardware limit: 49152

解决方案：禁用 FlashAttention

在代码中查找"flash_attention_2"并替换为"eager"：

grep -r "flash_attention_2" . --include="*.py"

主要修改位置： -configs/model/common.py-verl/models/utils.py

此外，在启动脚本中显式关闭 chunked prefill：

++actor_rollout_ref.rollout.enable_chunked_prefill=false

4. 实际训练任务配置与执行

4.1 选择轻量模型与数据集

为了适应 P40 的显存限制，我们选择：

模型：Qwen2.5-0.5B-Instruct（约 5 亿参数）
数据集：GSM8K（小学数学应用题，适合测试推理能力）

下载模型

huggingface-cli download Qwen/Qwen2.5-0.5B-Instruct --local-dir ./models/Qwen2.5-0.5B-Instruct

数据预处理

GSM8K 原始格式为 Arrow，需转换为 Parquet 并按 verl 格式组织：

from datasets import load_from_disk ds = load_from_disk("gsm8k_disk") ds["train"].to_parquet("train.parquet") ds["test"].to_parquet("test.parquet")

使用verl/examples/data_preprocess/gsm8k.py将原始数据转为 RL 训练格式。

4.2 修改后的训练脚本（P40 可运行版）

保存为verl-ppo-gsm8k.sh：

export HYDRA_FULL_ERROR=1 export VLLM_DTYPE=float32 export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128 PYTHONUNBUFFERED=1 TRITON_MAX_SHARED_MEMORY=49152 python3 -m verl.trainer.main_ppo \ data.train_files=$HOME/tony/data/gsm8k/fmt_rl/train.parquet \ data.val_files=$HOME/tony/data/gsm8k/fmt_rl/test.parquet \ data.train_batch_size=1 \ data.max_prompt_length=256 \ data.max_response_length=256 \ actor_rollout_ref.model.path=$HOME/tony/workspace/verl/models/Qwen/Qwen2.5-0.5B-Instruct \ actor_rollout_ref.actor.optim.lr=1e-6 \ actor_rollout_ref.actor.ppo_mini_batch_size=1 \ actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1 \ actor_rollout_ref.rollout.name=vllm \ actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=1 \ actor_rollout_ref.rollout.tensor_model_parallel_size=1 \ actor_rollout_ref.rollout.gpu_memory_utilization=0.3 \ actor_rollout_ref.rollout.max_num_batched_tokens=512 \ ++actor_rollout_ref.rollout.enable_chunked_prefill=false \ ++actor_rollout_ref.fsdp_config.cpu_offload=true \ ++actor_rollout_ref.fsdp_config.offload_params=true \ actor_rollout_ref.rollout.max_num_seqs=1 \ actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=1 \ critic.optim.lr=1e-5 \ critic.model.path=$HOME/tony/workspace/verl/models/Qwen/Qwen2.5-0.5B-Instruct \ critic.ppo_micro_batch_size_per_gpu=1 \ algorithm.kl_ctrl.kl_coef=0.001 \ trainer.logger=console \ trainer.val_before_train=False \ trainer.n_gpus_per_node=1 \ trainer.nnodes=1 \ trainer.save_freq=10 \ trainer.test_freq=10 \ trainer.total_epochs=2 2>&1 | tee verl_demo.log

关键参数解释

参数	作用
`VLLM_DTYPE=float32`	强制 vLLM 使用 FP32 推理
`TRITON_MAX_SHARED_MEMORY=49152`	限制 Triton 共享内存使用不超过 48KB
`cpu_offload=true`	启用 FSDP CPU 卸载，缓解显存压力
`max_num_batched_tokens=512`	控制批处理 token 总数，防止 OOM
`ppo_micro_batch_size_per_gpu=1`	极小批量训练，适配低显存