【GitHub每日速递 20251124】超神!verl助力大语言模型强化学习,多项特性引领行业新潮流

news/2025/11/24 8:16:11/文章来源:https://www.cnblogs.com/freedom-w/p/19262178

image

原文: https://mp.weixin.qq.com/s/PDq5QuTZOtJr_SbnD-29qA

超神!verl助力大语言模型强化学习,多项特性引领行业新潮流

verl 是一个用于大语言模型的强化学习框架的工具库。简单讲,它帮助开发者用强化学习技术优化大语言模型的输出表现。适用人群:AI研究人员、大模型开发人员

项目地址:https://github.com/volcengine/verl

主要语言:Python

stars: 15.6k

image

仓库介绍

verl 是由字节跳动种子团队发起,verl 社区维护的一个用于大语言模型(LLMs)的强化学习训练库,它是 HybridFlow: A Flexible and Efficient RLHF Framework 论文的开源版本。

优势

  • 灵活性与易用性
    • 算法扩展容易:通过混合控制器编程模型,能灵活表示和高效执行复杂的训练后数据流,只需几行代码就能构建如 GRPO、PPO 等强化学习数据流。
    • 无缝集成现有 LLM 基础设施:利用模块化 API 解耦计算和数据依赖,可与 FSDP、Megatron - LM、vLLM、SGLang 等现有 LLM 框架无缝集成。
    • 灵活的设备映射:支持将模型灵活放置在不同的 GPU 集合上,能有效利用资源,并在不同集群规模下实现可扩展性。
    • 与流行模型集成:可与 HuggingFace 上的流行模型轻松集成。
  • 高效性
    • 先进的吞吐量:集成了最先进的 LLM 训练和推理引擎,实现了 SOTA 的强化学习吞吐量。
    • 高效的 actor 模型重分片:3D - HybridEngine 消除了内存冗余,显著减少了训练和生成阶段之间转换时的通信开销。

核心功能

  • 训练框架支持:支持 FSDP、FSDP2 和 Megatron - LM 进行训练。
  • 生成引擎支持:使用 vLLM、SGLang 和 HF Transformers 进行滚动生成。
  • 模型兼容性:与 Hugging Face Transformers 和 Modelscope Hub 中的多种模型兼容,如 Qwen - 3、Qwen - 2.5、Llama3.1 等。
  • 训练方式:提供监督微调以及多种强化学习算法,如 PPO、GRPO、GSPO 等。支持基于模型的奖励和基于函数的奖励,适用于数学、编码等任务;支持视觉语言模型(VLMs)和多模态强化学习;支持多轮对话和工具调用。
  • 对齐配方:提供 LLM 对齐配方,如自我博弈偏好优化(SPPO)。
  • 技术支持:支持 Flash attention 2、序列打包、序列并行等技术,还支持 LoRA、Liger - kernel 等。
  • 扩展性:可扩展到 671B 模型和数百个 GPU,支持多 GPU 的 LoRA RL 以节省内存。
  • 实验跟踪:支持使用 wandb、swanlab、mlflow 和 tensorboard 进行实验跟踪。

应用场景

  • 大语言模型训练:可用于各种大语言模型的强化学习训练,提升模型在数学、编码等任务上的性能。
  • 多模态学习:支持视觉语言模型和多模态强化学习,适用于需要处理多种模态数据的场景。
  • 智能对话系统:通过多轮对话和工具调用支持,可用于开发更智能的对话系统。

最新消息

  • 2025 年 8 月,verl 在 PyTorch 专家交流网络研讨会上展示,相关幻灯片可获取。
  • 2025 年 7 月,ReTool 配方完全开源,首个 verl 见面会将在 ICML 温哥华举行。
  • 2025 年 6 月,verl 结合 Megatron 后端支持 DeepSeek - 671B 和 Qwen3 - 235B 等大型 MoE 模型。
  • 2025 年 3 月,DAPO 算法开源,其训练由 verl 提供支持。

未来规划

  • 包括 Q3 路线图、DeepSeek 671b 优化、多轮滚动和工具使用优化、代理集成、异步和离策略架构等。

入门指南

文档提供了详细的入门指南,包括安装、快速开始、编程指南、PPO 和 GRPO 示例等内容,还介绍了运行 PPO 示例的详细步骤、可复现的算法基线以及代码解释和高级用法。

性能调优

提供了详细的性能调优指南,帮助用户优化性能。

相关升级说明

  • 支持 vLLM >= 0.8.2,使用 FSDP 作为训练后端时可参考相关安装指南。
  • 全面支持 FSDP2,设置相关选项即可启用,且 FSDP2 的 CPU 卸载与梯度累积兼容。
  • 支持 AMD(ROCm 内核),提供了安装指南和 vLLM 性能调优文档。

一行代码让LLM拥有持久记忆,Memori开源SQL内存引擎节省80-90%成本!

Memori 是一个开源的 LLM 和 AI 代理记忆引擎。简单讲,它能帮助大模型和智能体记住之前的信息,实现长期记忆和多智能体协作。适用人群:AI开发者、LLM应用研究者。

项目地址:https://github.com/GibsonAI/Memori

主要语言:Python

stars: 3.0k

image

核心功能

  • 借助 memori.enable() 这一简单代码行,就能让任意大语言模型(LLM)具备记忆对话、从交互中学习以及跨会话保持上下文的能力。
  • 记忆数据存储于标准 SQL 数据库(如 SQLite、PostgreSQL、MySQL),用户可完全自主掌控。

主要优势

  • 集成简便:仅需一行代码,就能与 OpenAI、Anthropic、LiteLLM、LangChain 等各类 LLM 框架实现集成。
  • SQL 原生存储:存储的记忆数据具有可移植性、可查询性和可审计性,用户能自主控制数据库。
  • 成本降低:无需使用昂贵的向量数据库,可节省 80 - 90% 的成本。
  • 无供应商锁定:可将记忆数据导出为 SQLite 格式,便于迁移。
  • 智能记忆:能够自动进行实体提取、关系映射和上下文优先级排序。

快速上手

通过 pip install memorisdk 命令安装 memorisdk,然后使用以下示例代码即可开启记忆功能:

from memori import Memori
from openai import OpenAI# 初始化
memori = Memori(conscious_ingest=True)
memori.enable()client = OpenAI()# 首次对话
response = client.chat.completions.create(model="gpt-4o-mini",messages=[{"role": "user", "content": "I'm building a FastAPI project"}]
)# 后续对话 - Memori 自动提供上下文
response = client.chat.completions.create(model="gpt-4o-mini",messages=[{"role": "user", "content": "Help me add authentication"}]
)
# LLM 自动知晓你的 FastAPI 项目

数据库支持

支持多种 SQL 数据库,包括 SQLite、PostgreSQL、MySQL、Neon 和 Supabase,并给出了相应的连接字符串示例。

LLM 框架支持

通过 LiteLLM 的原生回调系统,可与众多 LLM 框架兼容,如 OpenAI、Anthropic、LiteLLM、LangChain、Azure OpenAI 等,还支持 100 多种 LiteLLM 兼容的模型。

配置选项

  • 持久存储:可在初始化 Memori 时配置数据库连接字符串、记忆模式和 API 密钥等参数。
  • 记忆模式:提供 Conscious Mode(一次性工作记忆注入)、Auto Mode(每次查询动态搜索)和 Combined Mode(两者结合)三种模式。
  • 使用 ConfigManager:可通过环境变量或配置文件自动加载配置信息。

架构概述

Memori 通过拦截 LLM 调用,在调用前注入上下文,调用后记录对话。具体流程如下:

  • 调用前:拦截应用的 LLM 调用,由检索代理或意识代理检索相关记忆,并将上下文注入消息中。
  • 调用后:接收 LLM 响应,由记忆代理提取实体、分类并存储对话到 SQL 数据库,同时返回原始响应给应用。
  • 后台任务:意识代理每 6 小时分析模式,将重要记忆从长期存储提升到短期存储。

示例代码

提供了多种示例代码,涵盖基本使用、个人助理、记忆检索、高级配置、多用户场景等方面,方便用户参考。

框架集成

展示了与多种框架的集成示例,如 AgentOps、Agno、AWS Strands、Azure AI Foundry 等,实现不同的功能。

交互式演示

提供了两个交互式演示,分别是个人日记助手(用于情绪跟踪和模式分析)和研究助手(具备网络搜索功能),用户可在线体验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/974418.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【STM32工程开源】STM32单片机智能台灯系统

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Ai元人文构想:从“题海战术”到“理解原理”:AI治理中规则逻辑与价值协议的差异论证与效率抉择

从“题海战术”到“理解原理”:AI治理中规则逻辑与价值协议的差异论证与效率抉择 引语 岐金兰说:"其实我们最大的困惑是,A/B方案,都基于学习迭代过程,二者的差异与优劣,如何论证?" 在人工智能治理的研…

2025年评价高的隧道炉工业级大功率厂家最新推荐权威榜

2025年评价高的隧道炉工业级大功率厂家最新推荐权威榜行业背景与市场趋势随着全球食品工业自动化水平的不断提升,隧道炉作为烘焙、干燥、杀菌等工艺的核心设备,市场需求持续增长。根据《2024-2029年全球工业烤箱市场…

2025年质量好的定制化鸡蛋液产品安全性权威榜

2025年质量好的定制化鸡蛋液产品安全性权威榜行业背景与市场趋势随着食品工业的快速发展和消费者对食品安全要求的不断提高,定制化鸡蛋液产品市场迎来了前所未有的增长机遇。据中国蛋品行业协会最新数据显示,2024年我…

2025年比较好的钢板预处理线优质厂家推荐榜单

2025年钢板预处理线优质厂家推荐榜单:技术与市场的双重考量行业背景与市场趋势钢板预处理作为金属加工制造的关键环节,其质量直接影响后续涂装、焊接等工艺效果及产品使用寿命。根据中国表面工程协会2024年发布的行业…

机器人领域Day One奖学金计划新增14位获得者

某中心机器人部门宣布Day One奖学金计划新增14位获得者,该计划旨在支持来自多元背景的优秀硕士生,涵盖机器人、工程、计算机科学等领域,提供全额奖学金、实习机会和行业导师指导。机器人领域Day One奖学金计划新增1…

Gopeed跨终端下载神器测评:开源免费+远程控制,下载速度跑满带宽的秘诀! - 实践

Gopeed跨终端下载神器测评:开源免费+远程控制,下载速度跑满带宽的秘诀! - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font…

nats import export简单说明

nats import & export简单说明服务导出(Service Export):用于请求-回复模式。一个账户将服务(即一个主题,用于接收请求并回复)导出,其他账户可以导入该服务并向其发送请求。 流导出(Stream Export):用于…

从“题海战术”到“理解原理”:AI治理中规则逻辑与价值协议的差异论证与效率抉择

从“题海战术”到“理解原理”:AI治理中规则逻辑与价值协议的差异论证与效率抉择 引语 岐金兰说:“其实我们最大的困惑是,A/B方案,都基于学习迭代过程,二者的差异与优劣,如何论证?” 在人工智能治理的研究中,我…

2025年知名的卡布广告灯箱厂家最新推荐排行榜

2025年知名的卡布广告灯箱厂家最新推荐排行榜行业背景与市场趋势随着城市化进程加速和商业竞争日益激烈,户外广告行业迎来了新一轮发展机遇。据《2024-2025年中国户外广告行业市场分析报告》显示,全球户外广告市场规…

2025年知名的浴室柜平板铰链厂家最新推荐排行榜

2025年知名的浴室柜平板铰链厂家最新推荐排行榜行业背景与市场趋势随着家居装修品质要求的不断提升,浴室柜作为卫浴空间的重要组成部分,其五金配件的质量日益受到消费者重视。据中国五金制品协会最新数据显示,2024年…

2025年知名的浮吊实力厂家TOP推荐榜

2025年知名的浮吊实力厂家TOP推荐榜行业背景与市场趋势随着全球贸易的持续增长和港口基础设施建设的加速推进,浮吊作为港口机械与海洋工程装备的重要组成部分,市场需求呈现稳定上升态势。根据国际港口协会(IAPH)最…

2025年靠谱的压缩木浆棉用户口碑最好的厂家榜

2025年靠谱的压缩木浆棉用户口碑最好的厂家榜行业背景与市场趋势随着全球环保意识的不断提升和可持续发展理念的深入人心,压缩木浆棉作为一种环保、可降解的清洁材料,近年来市场需求呈现爆发式增长。根据《2024-2029…

2025年质量好的造纸烘干网带优质厂家推荐榜单

2025年质量好的造纸烘干网带优质厂家推荐榜单行业背景与市场趋势造纸烘干网带作为造纸机械中的关键部件,其质量直接影响纸张生产的效率与品质。根据中国造纸协会最新数据,2024年我国造纸行业总产值达1.4万亿元,同比…

2025年靠谱的金蝶软件品牌好评榜

2025年靠谱的金蝶软件品牌好评榜:专业推荐与采购指南行业背景与市场趋势随着数字化转型浪潮席卷全球,企业管理软件市场迎来了前所未有的发展机遇。根据IDC最新发布的《中国公有云企业应用软件市场预测,2024-2028》报…

2025年必备的6大AI论文生成器推荐,轻松搞定高质量论文!

作者在校园咖啡馆为毕业论文发愁,好在 2025 年 AI 强大,分享 6 大 AI 论文生成器。包括 PaperFine,能 30 分钟生成 5 万字初稿,改稿精准;鲲鹏智写 20 分钟生成 3 万字初稿,改稿出色;瑞达写作 20 分钟搞定 2 万字…

2025年口碑好的杭州中小企业财务软件商用系统优选榜

2025年口碑好的杭州中小企业财务软件商用系统优选榜行业背景与市场趋势随着数字化转型浪潮席卷全球,中小企业财务管理软件市场正迎来爆发式增长。据艾瑞咨询最新发布的《2025年中国企业级SaaS行业研究报告》显示,202…

通过学习分位数函数改进预测技术

本文介绍了一种通过同时学习完整分位数函数来改进预测的方法,避免了传统方法中的分位数交叉问题,能够更好地优化资源权衡,适用于单变量和多变量预测场景。通过学习分位数函数改进预测 分位数函数是一种数学函数,它…

从规则逻辑到价值协议:AI治理范式的演进、融合与前瞻

从规则逻辑到价值协议:AI治理范式的演进、融合与前瞻 摘要 本文旨在系统性地阐述人工智能治理领域两种核心范式的演进关系。传统的"规则逻辑"范式(以下简称A方案)与新兴的"价值协议"范式(以下…

读社会工程卷2:解读肢体语言04人类情感处理器

读社会工程卷2:解读肢体语言04人类情感处理器1. 非语言表现 1.1. 每个人都会有自己肢体语言的基准态,因为不适导致的基准态变化能给社会工程师提供很多信息 1.2. 非语言交流会影响他人对我们的看法,所以我们要明智地…