verl grpo 快速开始

news/2025/12/3 15:11:38/文章来源:https://www.cnblogs.com/rh-li/p/19302501

1. 什么是verl

verl是字节开发的一个RL框架,是现在最主流的强化学习算法框架,没有之一。

2. 环境部署

作者在不拉docker镜像的前提下,尝试使用官方教程部署verl,部署后,代码跑不通。
上网查了很多资料后,作者自己摸索出了一套流程,可以成功部署环境,并且跑通代码。

  • 前置条件:cuda>12.2
  1. 下载git库
git clone https://github.com/volcengine/verl.git
cd verl
  1. 使用uv创建虚拟环境(在<venv-path>中填入环境的存储地址)(这里python版本设为3.10或者3.12都可以)
uv venv <venv-path> --python=3.12
source <venv-path>/bin/activate
  1. 安装v0.5.0版本的verl
# 进入verl文件夹中
cd verl
git checkout v0.5.0
uv pip install e .
uv pip install vllm==0.8.2
uv pip install tensordict==0.6.2
uv pip install "sglang[all]>=0.4.5.post3"
uv pip install torch==2.6.0 torchaudio==2.6.0  torchvision==0.21.0
uv pip install ray==2.44.0

下载flash-attn(点击链接即可下载)后,上传到服务器,然后安装

uv pip install flash_attn-2.6.3+cu123torch2.4cxx11abiFALSE-cp312-cp312-linux_x86_64.whl

3. GRPO 快速开始

  1. 下载gsm8k数据集(在<data_dir>中填入数据集的醋出路径)
cd verl
source <venv-path>/bin/activate 
export HF_ENDPOINT=https://hf-mirror.com
python3 examples/data_preprocess/gsm8k.py --local_dir <data_dir>
  1. 下载模型
huggingface-cli download Qwen/Qwen2.5-3B-Instruct --local-dir <qwen-model-path>
  1. 传入wandb api-key
export WANDB_API_KEY=your_api_key_here
  1. 开始训练
    1. 修改examples/grpo_trainer/run_qwen2_5-3b_gsm8k_grpo_lora.sh中的几个参数
      • data.train_files:训练集数据地址(<data_dir>/train.parquet
      • data.val_files:测试集数据地址(<data_dir>/test.parquet)
      • actor_rollout_ref.model.path:模型地址(<qwen-model-path>)
      • actor_rollout_ref.rollout.tensor_model_parallel_size:如果是在单GPU上运行,需要改为1
      • trainer.n_gpus_per_node(根据自己的GPU数量设置)
    2. 运行脚本
      bash examples/grpo_trainer/run_qwen2_5-3b_gsm8k_grpo_lora.sh
      

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/985631.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LLM 投毒 [1/3] - 解读Transformer的“思想”

本文深入剖析大语言模型(LLM)的内部机制,揭示如何通过分析Transformer的激活状态来检测隐藏的恶意“触发器”。文章从威胁模型出发,详细解释了Transformer架构、知识存储假设(知识神经元与叠加)、因果追踪技术,…

博士留学录取率榜单出炉:谁的Offer产出能力最强?

博士申请的 “终极目标” 是全奖 Offer—— 能否精准对接全奖资源、适配奖学金申请要求、高效把控申请节奏,直接决定最终录取质量。优质机构的全奖服务,不是 “碰运气” 而是 “资源 + 策略” 的双重保障,让全奖录取…

前端文件上传终极指南:从原理到架构实践! - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年美的真暖空气能中央空调品牌权威推荐榜单:美的尊享HNM1壁挂炉‌/美的明装暖气‌/美的真享水科技中央空调‌品牌精选

随着“双碳”战略的深入实施与国家清洁供暖政策的全面推进,我国家用采暖市场正经历一场深刻的绿色与智能化转型。市场数据显示,2024年我国城市供热市场规模已达近4000亿元,其中南方等非传统集中供暖区域的需求增长尤…

2025年泡沫模块供货厂家权威推荐榜单:工业化循环水养殖‌/海容模块建房‌/鱼池墙体材料‌源头厂家精选

在绿色建筑与节能改造领域,以EPS(可发性聚苯乙烯)泡沫模块为核心的新型墙体建造技术,正以其卓越的保温性能、快速的施工速度以及稳定的结构表现,推动着建筑行业的变革。这类模块不仅广泛应用于海容模块建房,也延…

2025年中国十大超声波吐司面包切割机服务商推荐:哪家售后服

本榜单基于食品加工行业真实生产场景调研、设备性能实测与客户口碑反馈,深度筛选出十家标杆企业,聚焦切割品质、产能效率、安全合规、运维成本核心需求,为食品加工企业选型提供客观依据,助力精准匹配适配的服务伙伴…

2025年打工人代餐清单:上班族便携即食的低热量代餐品牌推荐

在现代快节奏的生活中,许多上班族常常因为工作繁忙而无法规律饮食,导致营养不均衡或体重管理困难。代餐食品作为一种便捷的解决方案,越来越受到都市白领的青睐。尤其是液体代餐,以其方便快捷的特点,成为通勤、加班…

ScheduledExecutorService中调度方法scheduleWithFixedDelay,scheduleAtFixedRate,schedule的异同

理解这几个调度方法的区别对于构建可靠的定时任务系统很重要。下表清晰地展示了它们的核心异同:特性 schedule(Runnable, delay, unit) scheduleAtFixedRate(...) scheduleWithFixedDelay(...)执行次数 仅1次 固定次数…

今日收获小SB一枚

✔ 解决:检查文件是否为真正的 DOCXfile E241.0_STAR3.5_changelog.docx正常输出应像:Microsoft Word 2007+❗ 原因 3:curl 参数中 token header 拼写错误 你现在用: -H "X-JFrog-Art-Api:{artifactory_token…

深入解析:⸢ 拾贰 ⸥⤳ 实战攻防演练:红蓝对抗 有效性检验

深入解析:⸢ 拾贰 ⸥⤳ 实战攻防演练:红蓝对抗 & 有效性检验pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

2025年汽车零部件柔性抓取解决方案:柔触机器人如何赋能车灯自动化搬运

一、引言:聚焦高端制造,柔触机器人引领柔性抓取新趋势联系方式:130 4183 2698官网:https://www.rochu.com/ 在2025年智能制造加速落地的背景下,工业自动化对末端执行器提出了更高要求——不仅要“抓得住”,更要“…

sql server 导出excel表

使用 ssms(sql server manage studio) 工具导出表数据为excel文件 - 右键点击数据库->任务->导出数据sql server 导入和导出向导连接要导出的数据库输出方式为excelexcel 文件路径,文件后缀为.xls excel 版本选…

2025年市场热销雷达干扰模拟器品牌实力排行,无线信号测量仪表/以太网测试仪/光通信测量仪表雷达干扰模拟器企业推荐排行榜单

随着电子对抗、频谱管理与通信安全等领域需求的持续增长,雷达干扰模拟器作为关键的测试与评估设备,其市场重要性日益凸显。一款性能稳定、功能全面且贴合实战需求的模拟器,已成为相关行业单位进行技术研发、装备测试…

【文章管理系统团队】Alpha阶段Scrum冲刺第2天随笔

【文章管理系统团队】Alpha阶段Scrum冲刺第2天随笔 一、站立式会议记录(2分) • 参会成员:阿依古再丽、刘雨彤、王嘉慧、罗佳楠、王腾 • 会议照片:

二、每日工作详情(6分)阿依古再丽(项目管理)• 昨日完成…

docker runc逃逸漏洞修复的大坑

docker runc逃逸漏洞修复的大坑本人在修复docker runc逃逸漏洞过程中,没有注意到的是:需根据 CPU 架构(amd64/arm64)选择对应版本runc新版本文件。由于云主机的系统是华为欧拉系统,属于arm64 CPU架构,我本人下载…

最大化仿射变换

最大化仿射变换 题目描述 有一个变量 $x$,初始时 $x = 0$。 给定 $n$ 个操作,第 $i$ 个操作定义了一个仿射变换,形式为: $x := a_i x + b_i$ 其中 $:=$ 为赋值号,$a_i$ 和 $b_i$ 均为非负整数。 你需要将这 $n$ 个…

视频汇聚平台EasyCVR级联至萤石云平台通道无法播放原因排查

一、问题背景 近期,我们接到用户反馈,在将EasyCVR平台级联至萤石云平台后,虽然通道成功上传,但视频无法正常播放。针对此问题,我们立即展开排查。二、排查过程 由于该场景涉及GB28181协议级联,我们直接在现场环境…

2025年3C电子分拣柔性夹爪优选厂家

在3C电子制造业向高精度、柔性化转型的2025年,苏州柔触机器人科技有限公司作为以柔性夹爪为核心的高科技企业,凭借德国纳米材料科技与仿生学设计的深度融合,为行业提供了兼具安全性与效率的抓取解决方案。作为柔性夹…

2025年柔性夹爪品牌怎么选?苏州柔触机器人核心技术

随着工业自动化进入"柔性化"深度转型期,2025年市场对柔性夹爪的需求呈现爆发式增长。作为末端执行器的关键组成,柔性夹爪的性能直接影响智能制造的效率与质量。在众多品牌中,苏州柔触机器人科技有限公司凭…

2025年医疗用品搬运技术革新:柔性夹爪解决方案全景解析

在医疗行业高质量发展的2025年,医疗用品搬运的安全性、精准性与效率已成为医疗机构和生产企业关注的核心议题。从玻璃安瓿瓶到精密手术器械,从生物样本到药品试剂,各类医疗用品对搬运过程的要求极为严苛。传统人工搬…