SWiRL:数据合成、多步推理与工具使用

SWiRL:数据合成、多步推理与工具使用

在大语言模型(LLMs)蓬勃发展的今天,其在复杂推理和工具使用任务上却常遇瓶颈。本文提出的Step-Wise Reinforcement Learning(SWiRL)技术,为解决这些难题带来曙光。它通过创新的合成数据生成和强化学习方法,显著提升模型表现,快和我一同深入探究这项技术的奥秘吧!

论文标题
Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use
来源
arXiv:2504.04736v2 [cs.AI] + https://arxiv.org/abs/2504.04736

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

大语言模型(LLMs)在自然语言处理领域成果斐然,展现出强大的能力,像Gemini 2、Claude 3等模型不断涌现,为该领域带来诸多突破。然而,它们在处理复杂任务时却面临困境。当遇到需要多步推理和工具使用的任务,如多跳问答、数学解题、编码等,LLMs往往表现不佳。同时,传统的强化学习方法,像RLHF、RLAIF等,主要针对单步优化,难以应对多步任务中复杂的推理和工具调用需求。因此,如何提升LLMs在多步推理和工具使用方面的能力,成为当前亟待解决的问题 。

研究问题

  1. 传统强化学习(RL)方法,如RLHF、RLAIF等,主要聚焦于单步优化,难以应对多步任务中复杂的推理和工具调用需求。

  2. 多步推理过程中,中间步骤的错误容易导致最终结果错误,如何保证模型在整个推理链条上的准确性,并有效从错误中恢复,是一大挑战。

  3. 在多步任务中,模型需要学会合理分解问题、适时调用工具、准确构造工具调用指令等,现有方法在这些方面的指导和优化能力不足。

主要贡献

1. 提出SWiRL方法:创新地提出了Step-Wise Reinforcement Learning(SWiRL),这是一种针对多步优化场景的合成数据生成和离线RL方法,有效提升模型在多步推理和工具使用任务中的能力。

2. 实现跨数据集泛化:SWiRL展现出强大的泛化能力,在不同的多跳问答和数学推理数据集上都取得了优异成绩。例如,在HotPotQA数据集上训练的SWiRL模型,在GSM8K数据集上的零样本性能相对提升了16.9% 。

3. 分析数据过滤策略:深入分析了多步推理和工具使用场景中合成数据过滤策略的影响,发现基于过程过滤的数据能让模型学习效果最佳,且模型能从包含错误最终答案的轨迹中学习,这与传统监督微调(SFT)方法不同。

4. 探索模型和数据集规模影响:研究了训练数据集大小和模型大小对SWiRL性能的影响,发现即使只有1000条轨迹也能显著提升模型性能,且较大模型在SWiRL训练下的泛化能力更强。

方法论精要

1. 核心算法/框架:SWiRL分为两个阶段。第一阶段是合成数据生成与过滤,通过迭代提示模型生成多步推理和工1具使用的轨迹,并对其进行不同策略的过滤;第二阶段是基于这些合成轨迹,使用逐步强化学习方法优化生成式基础模型。

2. 关键参数设计原理:在逐步强化学习阶段,目标函数是期望的逐步奖励之和 J ( θ ) = E s ∼ T , a ∼ π θ ( s ) [ R ( a ∣ s ) ] J(\theta)=E_{s \sim T, a \sim \pi_{\theta}(s)}[R(a | s)] J(θ)=EsT,aπθ(s)[R(as)] 。其中, π θ \pi_{\theta} πθ 是由 θ \theta θ 参数化的基础模型,通过SWiRL进行微调; T T T 表示合成多步轨迹中的所有状态集合;奖励信号 R ( a ∣ s ) R(a | s) R(as) 由生成式奖励模型(如Gemini 1.5 Pro)评估,根据给定上下文 s s s 下生成响应 a a a 的质量来确定。

3. 创新性技术组合:将合成数据生成、多步推理和工具使用相结合,通过迭代生成多步轨迹并转换为多个子轨迹,在子轨迹上进行合成数据过滤和RL优化。这种方法能够在每一步推理后给予模型直接反馈,使模型学习更具上下文感知能力。

4. 实验验证方式:选择了五个具有挑战性的多跳问答和数学推理数据集,包括HotPotQA、MuSiQue、CofCA、BeerQA和GSM8K。基线方法选取了当前一些先进的语言模型,如GPT-4、GPT-3.5、Gemini 1.0 Pro等。通过对比在这些数据集上的性能,评估SWiRL的有效性。

实验洞察

在实验环节,研究团队对SWiRL展开了多维度探究,获得了一系列关键发现。

1. 性能优势:SWiRL在多个复杂任务数据集上表现卓越。在GSM8K数学推理数据集上,相比基线方法,其相对准确率提升21.5%;HotPotQA多跳问答数据集提升12.3%;CofCA数据集提升14.8%;MuSiQue数据集提升11.1%;BeerQA数据集提升15.3%。这表明SWiRL能显著增强模型在多步推理和工具使用任务中的表现,远超传统方法。

2. 泛化能力验证:SWiRL展现出良好的跨任务泛化性。在HotPotQA数据集训练的模型,在GSM8K上零样本性能相对提升16.9%;反之,在GSM8K训练的模型,在HotPotQA上性能提升9.2%。这意味着SWiRL训练的模型能将在某一任务中学到的多步推理和工具使用能力,有效迁移到其他不同类型任务中。

3. 数据过滤策略影响:通过对不同数据过滤策略的研究发现,仅进行过程过滤的数据能让模型达到最佳性能。虽然传统观点认为基于结果正确性过滤数据能提升性能,但实验表明,SWiRL从包含正确和错误最终答案的过程过滤数据中学习效果更好,而基于结果过滤的数据(除MuSiQue数据集外)反而降低了模型性能。

4. 数据集和模型大小的影响:实验发现,增加训练数据集规模能持续提升SWiRL模型性能。即使只有1000条轨迹,模型在多个数据集上也能取得显著进步。此外,较大模型(如Gemma-2-27b)在SWiRL训练下的泛化能力更强,而较小模型(Gemma-2-2b和9b)虽在域内有一定提升,但泛化能力相对较弱。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/82075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Windows 常用工具系列 22 -- vscode markdown preview 字体大小设置】

文章目录 解决办法 解决办法 打开设置(快捷键 Ctrl , 。或者左下角图标齿轮 ⚙)搜索设置选项 Markdown › Preview: Font Size控制 Markdown 预览中使用的字号(以像素为单位)。 推荐阅读 https://blog.csdn.net/yanglsbb/article/details/127306685

【风控】模型监控和异常处理

在风控模型的全生命周期中,模型监控与异常处理是保障模型持续、稳定、可靠运行的关键环节。本指南旨在提供系统化、可落地的监控指标、预警策略及异常处置流程,帮助团队快速定位、响应并修复线上模型问题,最大限度降低风险。 1.模型监控与预…

第4章 递推法

4.1 递推法概述 设计思想: 递推法(Recurrence Method)通过已知的初始条件和递推关系,逐步推导出问题的最终结果,常用于序列计算和分阶段问题求解。 示例:猴子和桃子问题 题目描述: 猴子每天吃…

可视化魔法指南

🎨 ECharts数据可视化魔法指南 🌟 ECharts:数据的艺术画笔 #mermaid-svg-ARwFHUrXBJ03Gpo9 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-ARwFHUrXBJ03Gpo9 .error-icon{fill:#552222;}#mermaid-svg-ARwFHUr…

SpringBoot学生宿舍管理系统开发实现

概述 一款基于SpringBoot框架开发的学生宿舍管理系统完整项目,该系统包含管理员、学生、宿管员和维修员四大角色模块,功能完善,非常适合作为设计或二次开发的基础项目。 主要内容 5.1 管理员功能模块 管理员登录界面采用验证码验证机制&a…

同步 / 异步、阻塞 / 非阻塞

前言 同步异步,在计算机科学中是一个非常重要的概念。作为一位软件开发工程师,我们每天都在和同步和异步打交道。 同步 同步-阻塞,顾名思义,就是同步和阻塞。调用方法后,必须等到结果返回,才能继续执行别…

AOP封装进行批量的数据查询并填充

在我们日常的项目开发中,我们经常会遇到这样的问题。我们有一张用户表,用户表中有用户ID和用户名称。我们其他表中会记录我们当前操作人的ID,一般,我们会记录一个创建人ID和修改人ID。那么,这个时候问题来了&#xff0…

Java学习手册:数据库事务相关知识

一、事务的概念与特性 概念 :事务是数据库中一系列操作的集合,这些操作要么全部成功,要么全部失败,是一个不可分割的工作单位。例如,在银行转账系统中,从一个账户扣款和向另一个账户存款这两个操作必须作为…

java复杂度,包装类,泛型解析

如何衡量代码的好坏? 评价代码的好坏我们使用算法效率来判断,而算法效率分两种: 算法效率: 第一种是时间效率,第二种是空间效率,时间效率被称为时间复杂度,⽽空间效率被称作空间复杂度。 时间…

基于 SpringBoot + Vue 的校园管理系统设计与实现

一、项目简介 本系统以校园组织管理为主线,结合用户权限分离机制与模块化设计,实现对“单位类别、单位、通知推送、投票信息、用户回复”等内容的全流程管理,广泛适用于教育局、高校及下属组织的信息管理工作。 🎯 项目亮点&…

iOS蓝牙技术实现及优化

以下是针对2025年iOS蓝牙技术实现的核心技术要点的深度解析,结合当前iOS 18(推测版本)的最新特性与开发实践,分模块结构化呈现: 一、硬件与协议层适配 BLE 5.3 支持 iOS 18默认支持蓝牙5.3协议,需注意&…

Qt 中实现观察者模式(Observer Pattern)

在 Qt 中实现**观察者模式(Observer Pattern)通常利用其内置的信号与槽(Signals & Slots)**机制,这是最符合 Qt 设计哲学的方式。以下是详细实现方法和关键点: —### 1. 观察者模式的核心思想- Subject(被观察者):维护一个观察者列表,在状态变化时通知观察者。- …

写程序,统计两会政府工作报告热词频率,并生成词云

import jieba from collections import Counter from wordcloud import WordCloud import matplotlib.pyplot as pltdef generate_wordcloud():try:# 读取文本文件with open(E:\\桌面\\s.txt, r, encodingutf-8) as file:text file.read()# 中文分词words jieba.lcut(text)# …

【Science Advances】普林斯顿大学利用非相干光打造可重构纳米光子神经网络

(导读 ) 人工智能对计算性能需求剧增,电子微处理器发展受功耗限制。光学计算有望解决这些问题,光学神经网络(ONNs)成为研究热点,但现有 ONNs 因设计缺陷,在图像分类任务中精度远低于现代电子神经网络&#…

gin + es 实践 01

项目结构说明 目录结构概览 Go-ES 项目采用领域驱动设计(DDD)架构,目录结构清晰,各层次职责分明。以下是项目的主要目录结构: go-es/ ├── cmd/ # 应用程序入口 │ └── api/ …

如何构建直播美颜SDK?从美颜API调用逻辑到GPU优化实战

随着短视频和直播行业的爆发,美颜SDK已成为各大直播平台的“标配”。从基础的磨皮、美白,到如今的AI滤镜、虚拟形象,这些功能的背后都离不开高效的美颜SDK支持。那么,如何构建一款性能优越、体验流畅的直播美颜SDK呢?本…

高组装导轨的特点

高组装导轨通常是四列式单圆弧齿形接触直线导轨,具有整合化的结构设计,适用于重负荷和精密应用。与其它直线导轨高组装导轨提升了负荷与刚性能力,具备四方向等负载特色和自动调心功能,能够吸收安装面的装配误差,达到高…

2025-05-07-FFmpeg视频裁剪(尺寸调整,画面比例不变)

原比例如图 原比例如图裁剪后的比例 代码: 方法一:极速 ffmpeg -i input.mp4 -vf "crop1080:750:0:345" -c:v libx264 -preset ultrafast -c:a copy output.mp4关键参数说明: vf “crop宽:高❌y”:定义裁剪区域。 …

一个.Net开源的协作办公套件,包括文档、表格、演示文稿和表单

从零学习构建一个完整的系统 推荐一个开源的文档协作办公套件,可以很好的满足团队对方便、高效、安全的方式来处理文档工作,促进团队协作和信息共享。 项目简介 ONLYOFFICE 是一个开源的办公套件,包括文档、表格、演示文稿和表单等应用程序…

虚幻基础:硬件输入

文章目录 triggered:按下一直触发 等于tickcompleted:必须等到triggered结束后 才触发松下triggered结束 默认按键触发顺序按下:触发两个先 Started后 Triggered 松开Completed 触发器:用于修改triggered 触发和结束驱动阈值&…