使用BroRL的扩展探索突破强化学习训练瓶颈
在使用基于可验证奖励的强化学习(RLVR)训练大语言模型(LLMs)时,一个最引人注目的问题是如何克服性能瓶颈。先前某中心的解决方案——延长强化学习(ProRL)表明,在延长训练期间增加更多强化学习步骤可以扩展LLMs的推理边界。
但最终,团队遇到了瓶颈。经过数千步训练后,性能提升减弱,模型的改进停滞,甚至开始退化。关于此的更多细节,请参阅《使用ProRL v2通过延长训练来扩展LLM强化学习》。
这引发了一个关键问题:这个瓶颈是RL的根本限制,还是执行扩展方式导致的假象?
今天,我们很高兴介绍扩展强化学习(BroRL),这是一个探索互补且强大的扩展维度:路径扩展的新范式。BroRL不是仅仅训练更多步骤,而是将每个提示的探索性路径数量大幅增加到数百的量级。这种方法突破了其他方法停滞的性能上限,并被证明在数据和计算效率上显著更高。我们将发布使用BroRL训练的最先进的15亿参数模型。
本文深入探讨了相关的核心理论见解、新的实证结果,以及为什么扩展路径是解锁LLMs下一层级推理能力的关键。
BroRL如何实现持续学习?
大多数RL扩展工作侧重于训练长度。这通常导致学习信号不稳定,模型难以摆脱其现有的知识库。RL的感知限制通常只是其探索策略的限制。
BroRL通过专注于在每个更新步骤进行路径扩展来探索,从而挑战这一范式。其目标是通过从根本上稳定RL过程,实现在先前停滞处的持续学习,超越渐进式收益。
表1. 步骤扩展(ProRL)与路径扩展(BroRL)的核心比较
| 特性 | 步骤扩展(例如ProRL) | 路径扩展(BroRL) |
|---|---|---|
| 扩展方式 | 增加更多训练步骤(3000+) | 增加每个提示的路径数量(N=512) |
| 性能趋势 | 遇到性能瓶颈;收益递减 | 突破瓶颈;稳健、持续改进 |
| 学习信号 | 可能不稳定且嘈杂 | 来自详尽探索的稳定、高质量更新 |
| 效率 | 在饱和点效率低下 | 计算和数据效率更高 |
路径扩展如何控制RL的不稳定性?
如《BroRL:通过扩展探索来扩展强化学习》中详细所述,我们的理论分析(第2节)揭示,RL更新过程受两种竞争力量支配:已采样的路径和未采样的空间。
可以做一个类比:想象探索一片广阔、浓雾笼罩的景观以找到最高峰。你实际走过的路径(已采样的路径)提供了可靠、积极的反馈,帮助你提升高度。然而,你没有走的无数条路径(未采样的空间)产生了不确定性和噪声。这种噪声就像引力,把你拖下山坡。当你只派出少数侦察兵(ProRL中N=16)时,他们的报告是嘈杂的,这种向下的拉力可能强大到足以阻止你上升,让你困在高原上。
BroRL的解决方案简单而强大:派出整支侦察大军(N=512)。通过绘制景观的绝大部分,来自未探索迷雾的随机噪声被平均化,并变得极其微弱。所有成功路径带来的“向上信号”变得极其强大。
在我们的形式化分析中,这意味着当N很大时,模型性能的净变化变为正(ΔJ > 0)。这提供了一个稳定、高质量的学习信号,使模型能够攀升越过瓶颈。
突破RL性能瓶颈
我们将BroRL方案应用于一个在3000个训练步骤后已经达到瓶颈的强大ProRLv2模型。结果是决定性的。
图1讲述了一个有力的故事。继续使用ProRL方案(蓝线)会导致停滞和最终的退化,而BroRL(橙线)则使模型恢复活力,实现了稳健且持续的绩效提升,突破了先前的上限。
图1.BroRL (N=512) 在数学基准测试上展示了持续的绩效提升,而ProRL (N=16) 则达到瓶颈并随着延长训练而退化
BroRL综合结果
我们使用64个某中心H100 GPU,继续使用原始方案(N=16)和新的BroRL方案(N=512)训练3000步的ProRLv2检查点。分歧是明显的:ProRL停滞不前,而BroRL在更短的时间内带来了稳定、显著的提升。
表2. BroRL与ProRL在关键推理基准测试上的综合性能比较
| 方法 | N | RL 步骤 | 总时间 (小时) | 数学分数 | 代码分数 | Reasoning Gym 分数 |
|---|---|---|---|---|---|---|
| Baseline | 16 | 2,000 | – | 60.14 | 51.43 | 59.06 |
| Baseline | 16 | 3,000 | – | 61.69 | 52.00 | 61.29 |
| ProRL | 16 | 3,000+225 | +56.3 | 62.08 | 52.26 | 62.10 |
| ProRL | 16 | 3,000+535 | +133.8 | 62.02 (停滞) | 52.74 | 61.45 (退化) |
| BroRL | 512 | 3,000+107 | +98.1 | 62.62 | 53.31 | 62.71 |
| BroRL | 512 | 3,000+134 | +122.8 | 62.85 | 53.48 | 62.82 |
| BroRL | 512 | 3,000+419 | +393.9 | 63.66 | 56.64 | 63.40 |
仅用98.1小时后,BroRL已经在所有指标上决定性地超越了ProRL方法的最终性能,完成时间大约少了35小时。这证实了,对于推动饱和模型的边界,扩展路径规模是一个更有效且计算效率更高的策略。
BroRL为15亿参数的推理模型设定了最先进的水平,在数学(63.66)、代码(56.64)和推理健身房(63.40)基准测试中取得了最高分。
卓越的计算效率
BroRL不仅更好,而且在使用计算方面更快、更智能。
- 算法效率:大量N的路径产生了更多样化的候选样本集。用于过滤无信息轨迹的动态采样通过率从41%跃升至62%,意味着浪费的计算更少。
- 硬件效率:BroRL将生成过程从内存限制转变为计算限制,并提高了前缀缓存命中率。因此,GPU可以充分利用其并行处理能力,在我们的硬件设置中,吞吐量从36.5样本/秒几乎翻倍至72.4样本/秒。
表3. BroRL与ProRL的计算效率指标(采样通过率和吞吐量)
| 方法 (N) | 动态采样通过率 | 生成吞吐量 (样本/秒) |
|---|---|---|
| ProRL (16) | 41% | 36.5 |
| BroRL (512) | 62% | 72.4 |
更高的令牌效率
BroRL在数学和代码基准测试上都以更少的输出令牌实现了更高的准确性,表明具有更好的“分数-每-令牌”效率和更紧凑、冗余更少的推理。
大量N的路径探索(N=512)为每个提示展示了众多简洁、高收益的轨迹,这既提高了采样紧凑正确链条的机会,又减少了对冗长、低信号推理的依赖。这在步骤扩展通常会导致令牌膨胀的情况下,将质量与响应长度解耦。
表4. BroRL与ProRL在数学和代码任务上的令牌效率比较
| 任务 | ProRL 分数 | BroRL 分数 | 分数差异 | ProRL 令牌数 | BroRL 令牌数 | 令牌差异 |
|---|---|---|---|---|---|---|
| 数学 | 62.02 | 63.66 | +1.64 | 16,506 | 15,760 | -745 |
| 代码 | 52.74 | 56.64 | +3.90 | 26,808 | 26,090 | -717 |
开始使用BroRL
我们的研究结果确立了路径规模不仅是超参数,而且是扩展强化学习的关键且高效的维度。步骤扩展方法遇到的性能瓶颈并非RL的根本限制,而是探索不足的假象。关键的见解和要点包括:
- 路径扩展是RL一个新的、至关重要的扩展维度。它在仅靠深度扩展会失败的地方提供了稳定的学习信号。
- 性能瓶颈并非死胡同。可以通过扩展路径规模以生成更高质量的策略更新来克服。
- BroRL计算效率更高,使硬件吞吐量翻倍并提高了算法样本效率。
- BroRL令牌效率更高,用更少的资源实现更多。
- 新的BroRL训练检查点为15亿参数的推理模型设定了最先进水平。
对于那些希望用RL最大化其模型潜力的人来说,BroRL提供了一条有原则的前进道路:当你遇到瓶颈时,不要只是向前推进——要拓宽探索。
要开始使用,请通过Hugging Face探索和评估BroRL模型。
致谢
感谢Yejin Choi、Fang Wu、Zaid Harchaoui、Pavlo Molchanov、Jan Kautz和Jun Yang对本文的贡献。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)