使用BroRL扩展探索突破强化学习训练瓶颈

使用BroRL的扩展探索突破强化学习训练瓶颈

在使用基于可验证奖励的强化学习(RLVR)训练大语言模型(LLMs)时,一个最引人注目的问题是如何克服性能瓶颈。先前某中心的解决方案——延长强化学习(ProRL)表明,在延长训练期间增加更多强化学习步骤可以扩展LLMs的推理边界。

但最终,团队遇到了瓶颈。经过数千步训练后,性能提升减弱,模型的改进停滞,甚至开始退化。关于此的更多细节,请参阅《使用ProRL v2通过延长训练来扩展LLM强化学习》。

这引发了一个关键问题:这个瓶颈是RL的根本限制,还是执行扩展方式导致的假象?

今天,我们很高兴介绍扩展强化学习(BroRL),这是一个探索互补且强大的扩展维度:路径扩展的新范式。BroRL不是仅仅训练更多步骤,而是将每个提示的探索性路径数量大幅增加到数百的量级。这种方法突破了其他方法停滞的性能上限,并被证明在数据和计算效率上显著更高。我们将发布使用BroRL训练的最先进的15亿参数模型。

本文深入探讨了相关的核心理论见解、新的实证结果,以及为什么扩展路径是解锁LLMs下一层级推理能力的关键。

BroRL如何实现持续学习?

大多数RL扩展工作侧重于训练长度。这通常导致学习信号不稳定,模型难以摆脱其现有的知识库。RL的感知限制通常只是其探索策略的限制。

BroRL通过专注于在每个更新步骤进行路径扩展来探索,从而挑战这一范式。其目标是通过从根本上稳定RL过程,实现在先前停滞处的持续学习,超越渐进式收益。

表1. 步骤扩展(ProRL)与路径扩展(BroRL)的核心比较

特性步骤扩展(例如ProRL)路径扩展(BroRL)
扩展方式增加更多训练步骤(3000+)增加每个提示的路径数量(N=512)
性能趋势遇到性能瓶颈;收益递减突破瓶颈;稳健、持续改进
学习信号可能不稳定且嘈杂来自详尽探索的稳定、高质量更新
效率在饱和点效率低下计算和数据效率更高

路径扩展如何控制RL的不稳定性?

如《BroRL:通过扩展探索来扩展强化学习》中详细所述,我们的理论分析(第2节)揭示,RL更新过程受两种竞争力量支配:已采样的路径和未采样的空间。

可以做一个类比:想象探索一片广阔、浓雾笼罩的景观以找到最高峰。你实际走过的路径(已采样的路径)提供了可靠、积极的反馈,帮助你提升高度。然而,你没有走的无数条路径(未采样的空间)产生了不确定性和噪声。这种噪声就像引力,把你拖下山坡。当你只派出少数侦察兵(ProRL中N=16)时,他们的报告是嘈杂的,这种向下的拉力可能强大到足以阻止你上升,让你困在高原上。

BroRL的解决方案简单而强大:派出整支侦察大军(N=512)。通过绘制景观的绝大部分,来自未探索迷雾的随机噪声被平均化,并变得极其微弱。所有成功路径带来的“向上信号”变得极其强大。

在我们的形式化分析中,这意味着当N很大时,模型性能的净变化变为正(ΔJ > 0)。这提供了一个稳定、高质量的学习信号,使模型能够攀升越过瓶颈。

突破RL性能瓶颈

我们将BroRL方案应用于一个在3000个训练步骤后已经达到瓶颈的强大ProRLv2模型。结果是决定性的。

图1讲述了一个有力的故事。继续使用ProRL方案(蓝线)会导致停滞和最终的退化,而BroRL(橙线)则使模型恢复活力,实现了稳健且持续的绩效提升,突破了先前的上限。

图1.BroRL (N=512) 在数学基准测试上展示了持续的绩效提升,而ProRL (N=16) 则达到瓶颈并随着延长训练而退化

BroRL综合结果

我们使用64个某中心H100 GPU,继续使用原始方案(N=16)和新的BroRL方案(N=512)训练3000步的ProRLv2检查点。分歧是明显的:ProRL停滞不前,而BroRL在更短的时间内带来了稳定、显著的提升。

表2. BroRL与ProRL在关键推理基准测试上的综合性能比较

方法NRL 步骤总时间 (小时)数学分数代码分数Reasoning Gym 分数
Baseline162,00060.1451.4359.06
Baseline163,00061.6952.0061.29
ProRL163,000+225+56.362.0852.2662.10
ProRL163,000+535+133.862.02 (停滞)52.7461.45 (退化)
BroRL5123,000+107+98.162.6253.3162.71
BroRL5123,000+134+122.862.8553.4862.82
BroRL5123,000+419+393.963.6656.6463.40

仅用98.1小时后,BroRL已经在所有指标上决定性地超越了ProRL方法的最终性能,完成时间大约少了35小时。这证实了,对于推动饱和模型的边界,扩展路径规模是一个更有效且计算效率更高的策略。

BroRL为15亿参数的推理模型设定了最先进的水平,在数学(63.66)、代码(56.64)和推理健身房(63.40)基准测试中取得了最高分。

卓越的计算效率

BroRL不仅更好,而且在使用计算方面更快、更智能。

  • 算法效率:大量N的路径产生了更多样化的候选样本集。用于过滤无信息轨迹的动态采样通过率从41%跃升至62%,意味着浪费的计算更少。
  • 硬件效率:BroRL将生成过程从内存限制转变为计算限制,并提高了前缀缓存命中率。因此,GPU可以充分利用其并行处理能力,在我们的硬件设置中,吞吐量从36.5样本/秒几乎翻倍至72.4样本/秒。

表3. BroRL与ProRL的计算效率指标(采样通过率和吞吐量)

方法 (N)动态采样通过率生成吞吐量 (样本/秒)
ProRL (16)41%36.5
BroRL (512)62%72.4

更高的令牌效率

BroRL在数学和代码基准测试上都以更少的输出令牌实现了更高的准确性,表明具有更好的“分数-每-令牌”效率和更紧凑、冗余更少的推理。

大量N的路径探索(N=512)为每个提示展示了众多简洁、高收益的轨迹,这既提高了采样紧凑正确链条的机会,又减少了对冗长、低信号推理的依赖。这在步骤扩展通常会导致令牌膨胀的情况下,将质量与响应长度解耦。

表4. BroRL与ProRL在数学和代码任务上的令牌效率比较

任务ProRL 分数BroRL 分数分数差异ProRL 令牌数BroRL 令牌数令牌差异
数学62.0263.66+1.6416,50615,760-745
代码52.7456.64+3.9026,80826,090-717

开始使用BroRL

我们的研究结果确立了路径规模不仅是超参数,而且是扩展强化学习的关键且高效的维度。步骤扩展方法遇到的性能瓶颈并非RL的根本限制,而是探索不足的假象。关键的见解和要点包括:

  1. 路径扩展是RL一个新的、至关重要的扩展维度。它在仅靠深度扩展会失败的地方提供了稳定的学习信号。
  2. 性能瓶颈并非死胡同。可以通过扩展路径规模以生成更高质量的策略更新来克服。
  3. BroRL计算效率更高,使硬件吞吐量翻倍并提高了算法样本效率。
  4. BroRL令牌效率更高,用更少的资源实现更多。
  5. 新的BroRL训练检查点为15亿参数的推理模型设定了最先进水平。

对于那些希望用RL最大化其模型潜力的人来说,BroRL提供了一条有原则的前进道路:当你遇到瓶颈时,不要只是向前推进——要拓宽探索。

要开始使用,请通过Hugging Face探索和评估BroRL模型。

致谢
感谢Yejin Choi、Fang Wu、Zaid Harchaoui、Pavlo Molchanov、Jan Kautz和Jun Yang对本文的贡献。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1205264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大庆市萨尔图龙凤让胡路红岗大同英语雅思培训辅导机构推荐,2026权威出国雅思课程中心学校口碑排行榜

在雅思备考的赛道上,大庆市萨尔图、龙凤、让胡路、红岗、大同各区考生普遍面临着诸多困境:优质雅思培训资源筛选困难,难以匹配个性化提分需求;各类教育机构宣传繁杂,靠谱性难以甄别;缺乏权威的测评参考与口碑排名…

2026年自贡养老机构TOP5口碑甄选 给长辈的晚年幸福加分

随着老龄化社会的深入发展,四川自贡地区优质养老资源的关注度持续走高。为长者挑选一家环境适宜、服务专业的养老院、养老机构、养老中心,成为众多家庭的重要心事。本文结合机构服务口碑、设施配套、照护专业性等核心…

项目经理一定要注意,不懂AI将被淘汰!

你有没有算过,自己每天有多少时间,是耗在那些“不得不做”却又价值不高的事情上? 找一份三个月前的需求变更记录,要在十几个文件夹里大海捞针;每周一下午,雷打不动地对着空白的文档模板,艰难拼凑…

2026年亚通方形摇摆筛厂家评价Top10,值得关注的品牌

在工业生产的关键分选环节中,振动筛设备的性能直接关乎生产线效率与产品品质。面对市场上种类繁多的振动筛厂家,企业在选择时往往面临需求难匹配、服务无保障、品质难把控的困境。以下结合用户关注的生产能力、售后服…

2026苏州装修公司前五口碑排行榜:零增项+性价比综合测评

一、本次评选核心指标说明性价比水平:综合套餐价格、建材品质(一线品牌占比、环保等级)、隐形消费控制三大维度,采用 “价格 - 价值” 量化模型评估,重点考量套餐透明度与实际投入产出比。技术实力:涵盖设计师资…

胺基脂肪酸喷雾干燥机厂家怎么选择?双瑞机械来支招

2026年化工产业高质量发展进程加速,精细化生产与绿色环保已成为企业突破产能瓶颈、提升产品竞争力的核心方向。无论是胺基脂肪酸喷雾干燥机的高效应用、超细粉末喷雾干燥机械的精准适配,还是并流式喷雾干燥机械的工艺…

DSPE-PEG2K-R8,磷脂-聚乙二醇-R8肽,DSPE-PEG2000-R8

DSPE-PEG2K-R8,磷脂-聚乙二醇-R8肽,DSPE-PEG2000-R8 DSPE-PEG2K-R8 是一种典型的脂质-聚合物-多肽偶联分子,由 DSPE(1,2-二硬脂酰-sn-甘油-3-磷脂酰乙醇胺)、分子量约为 2000 的 PEG(聚乙二醇)…

【2026年最新整理】小白怎么入门网络安全?看这篇就够啦!

作为一个工作十余年,有丰富Web安全攻防、渗透领域实战经验的老鸟,由于我之前写了不少网络安全技术相关的文章和回答,不少读者朋友知道我是从事网络安全相关的工作,于是经常有人私信问我: 我刚入门网络安全&#xff0c…

2026口碑好的真空等离子清洗机厂家排名出炉,傲月光电真空等离子清洗机位列其中

在工业制造的精细化浪潮中,真空等离子清洗机作为提升产品表面洁净度与附着性能的关键设备,是电子、汽车、医疗等行业保障良率的核心支撑。面对市场上鱼龙混杂的供应商,如何找到技术可靠、服务完善的合作伙伴?以下结…

DSPE-PEG2K-甘草次酸,DSPE-PEG2000-Glycyrrhizic acid DSPE-PEG2K-GA,磷脂-聚乙二醇-甘草次酸

DSPE-PEG2K-甘草次酸,DSPE-PEG2000-Glycyrrhizic acid DSPE-PEG2K-GA,磷脂-聚乙二醇-甘草次酸DSPE-PEG2K-甘草次酸是一种典型的脂质-聚合物-小分子复合结构分子,由磷脂 DSPE(1,2-二硬脂酰-sn-甘油-3-磷脂酰乙醇胺)、分…

2026年实木衣柜资深厂商排名,山西口碑较好的有几家?

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家标杆企业,为山西及周边地区有实木衣柜定制需求的家庭与装企提供客观依据,助力精准匹配适配的服务伙伴。 TOP1 推荐:山西澳科森实木家具有限公司 推荐指数:…

DSPE-PEG2K-转铁蛋白,DSPE-PEG2000-Transferrin, DSPE-PEG2K-Tf,磷脂-聚乙二醇-转铁蛋白

DSPE-PEG2K-转铁蛋白,DSPE-PEG2000-Transferrin, DSPE-PEG2K-Tf,磷脂-聚乙二醇-转铁蛋白 DSPE-PEG2K-转铁蛋白是一种典型的脂质-聚合物-蛋白质偶联分子,由磷脂 DSPE(1,2-二硬脂酰-sn-甘油-3-磷脂酰乙醇胺&#xff…

python 第8章学习 / 文件

以下是根据您提供的《Python文件操作》文档内容,对文件操作相关概念、方法和代码的全面总结。文档主要涵盖文件编码、文件读取、写入、追加及综合案例,我将按照操作类型分类总结,并提供详细的代码示例和注意事项。一…

自动化数控机床市场洞察:2026年哪些品牌受青睐?动力刀塔数控车/空调配件数控机床,自动化数控机床采购供应链

在制造业智能化转型的浪潮中,自动化数控机床作为核心生产装备,其精度、效率与稳定性直接影响企业订单交付能力与产品良率。据行业权威机构统计,2025年国内数控机床市场规模突破800亿元,其中高精度、多场景适配型设…

DSPE-PEG3.4K-FA,磷脂-聚乙二醇-叶酸,DSPE-PEG3400-Folic acid,DSPE-PEG3.4K-FA

DSPE-PEG3.4K-FA,磷脂-聚乙二醇-叶酸,DSPE-PEG3400-Folic acid,DSPE-PEG3.4K-FADSPE-PEG3.4K-FA 是一种典型的脂质-聚合物-小分子偶联结构分子,由磷脂 DSPE(1,2-二硬脂酰-sn-甘油-3-磷脂酰乙醇胺)、分子量约…

NMN是什么?最新研究发现:NMN通过NAD⁺激活干细胞,延缓衰老的关键机制

NMN是什么?为什么近几年频繁出现在“抗衰老”研究中? 随着年龄增长,很多人会发现身体修复能力下降、精力恢复变慢,而这些变化的背后,往往指向同一个核心分子——NAD⁺。 研究发现,NAD⁺与衰老密切相关,它不仅是…

导师推荐10个AI论文写作软件,继续教育学生轻松搞定论文!

导师推荐10个AI论文写作软件,继续教育学生轻松搞定论文! AI 工具助力论文写作,轻松应对学术挑战 在当前继续教育的背景下,越来越多的学生和科研工作者需要撰写高质量的学术论文。面对繁重的写作任务和严格的格式要求&#xff0c…

API数据分析:淘宝流量来源分析,渠道优化!

在电商领域,流量来源分析是优化营销策略的核心。淘宝作为中国领先的电商平台,其流量数据可通过API(应用程序接口)高效获取和分析。本技术帖将逐步指导您如何利用淘宝API进行流量来源分析,并基于数据优化渠道策略。我们…

2026年性价比高的售后完善的装修专业公司推荐,别错过!

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家南京及周边区域的装修标杆企业,为有居住品质提升需求的业主提供客观依据,助力精准匹配适配的服务伙伴。 TOP1 推荐:南京大境空间设计 推荐指数:★★★★★…

2026年宁夏户外创意广告牌公司排名,昊远联动传媒位列前茅

在数字化传播与线下场景深度融合的今天,一块占据城市核心地段的户外创意广告牌,早已超越单纯的信息展示功能,成为品牌与消费者建立情感连接、传递核心价值的城市名片。面对市场上良莠不齐的户外广告制作公司,如何精…