Search-R1论文浅析与代码实现

news/2025/10/21 12:30:01/文章来源:https://www.cnblogs.com/qlhh/p/19154758

GitHub: https://github.com/PeterGriffinJin/Search-R1

论文: link1, link2

Motivation

使用seach engine给reasoning LLM赋能

Method

image-20251021113633265

在PPO的基础上,基于给定的Search Egine \(R\),进行轨迹生成。

\[J_{PPO}(\theta) = \mathbb{E}_{(q,a)\sim\mathcal{D}, o\sim{\pi_{old}(\cdot|q;R)}}\frac{1}{\sum_{t=1}^{|o|}I(o_t)} \min[\frac{\pi_{\theta}(o_t|q, o_{<t};R)}{\pi_{old}(o_t|q,o_{<t};R)} A_t, clip(1-\epsilon, 1+\epsilon, \frac{\pi_{\theta}(o_t|q,o_{<t};R)}{\pi_{old}(o_t|q, o_{<t};R)})A_t] \]

其中需要对\(R\)返回的token进行mask

\[I(o_t) = \begin{cases} 0, & o_t\mathrm{\ is\ a\ retrived\ token};\\ 1, & otherwise; \end{cases} \]

Experiments

image-20251021114918946

默认使用PPO,整体效果来看search-r1强化是有效的。training dataset来自NQ和Hotpot QA

  • PPO vs GRPO

    认为PPO比GRPO更加稳定,效果更好;GRPO收敛更快

    image-20251021115656035

    image-20251021115618888

  • Instruct model vs base model

    认为虽然instruct model在最开始的reward要优于base model,但是在step的后期,两者reward是可比的,且base model的效果优于instruct model。

    (我认为,这里instruct好于base,可能是因为instruct后,模型的多样性下降了(因为RL的对齐),导致模型在search task的探索能力下降。但是,WebDancer等文章均使用的是Instruct model,我认为是那些工作 并不是一上来就search RL的,而是先做RFT的SFT,想让instruct model适应RL的格式,并注入search task的领域知识(planing能力、工具调用能力、总结能力等等)。如果是对base model做post-training的RFT(数据量可能不大),base model会出现指令不遵循的问题。因此在SFT+RL的后续WebAgent的工作中,一半以Instruct model为基座。)

    image-20251021115930524

    image-20251021115918404

  • Response length and valid study

    • early stage:response length明显下降,同时reward有小幅度提升(更好的理解search 任务,输出更精简)
    • latter stage:response length回升,reward也提升(可以发现是seach call的次数提升导致)

    image-20251021120743669

  • ablation of retrived token mask

    mask是必要的,因为model的预测目标本就不是 预测出retrieved token,而是学会工具调用与计划总结

    image-20251021122034355

    image-20251021121917794

  • Number of Retrieved Passages Study in SEARCH-R1 Training

    召回的docs不是越多越好(actor model总结时会更容易出现幻觉或是遗漏细节),也不是越少越好(巧妇难为无米之炊)

    image-20251021122054986

  • group size of GRPO

    GRPO的size 大的话,效果好收敛快,但是不太稳定(感觉是论文工作设计有问题,我没有遇到过这种reward sharp decrease)

    image-20251021122255511

Conclusion

提出了agent下的RL方法,但是没有构建sft的轨迹数据,导致无法学到 planing规划、单一工具调用、多工具关系的能力。

代码实现

待更新。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/942181.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Promise多个then、catch、finally的执行结果分析与总结

运行如下测试代码: function testPromise () {return new Promise((resolve, reject) => {setTimeout(() => {resolve(成功!)}, 1000)setTimeout(() => {reject(失败!)}, 3000)}).then((res) => {conso…

vSAN物理磁盘故障处理

vSAN物理磁盘故障处理ESXi主机开启SSH,执行以下命令排查问题检查 vSAN 物理磁盘状态 检查“IsPDL”(永久设备丢失)参数。如果等于 1,则磁盘丢失。 vdq -qH 示例: DiskResults:DiskResult[0]:Name: naa.5000039c1…

Ai元人文构想:技术介入人文领域的辩证思考与路径探索

AI元人文构想:技术介入人文领域的辩证思考与路径探索 摘要:岐金兰的“AI元人文构想”深刻揭示了技术介入人文领域的内在张力。本文系统剖析了该构想对技术可能引发价值简化、工具理性膨胀、算法黑箱等问题的深切担忧…

2025年10月医用面膜产品推荐:权威对比评测榜助术后修护精准决策

一、引言 医美项目普及让术后创面管理成为消费者与机构共同关注的焦点,医用面膜因兼具敷料与护肤双重属性,被寄予“缩短恢复期、降低色沉风险、减少感染”三大核心期待。面对成分宣称繁杂、认证等级参差、价格区间跨…

2025年10月电动叉车销售公司推荐:五强对比评测榜

一、引言 在“双碳”政策持续加码、仓储物流自动化率快速提升的背景下,电动叉车正成为制造业、电商仓配、冷链物流等环节的刚需设备。对于计划采购或更换车队的创业者、设备采购经理、租赁运营商而言,如何在短时间内…

2025电子数据取证分析师Wp

网络运维小助手 flag1 输出ascii,用逗号隔开flag2此次ai对话链接:https://yb.tencent.com/s/HOcC69KreN1B作为安全培训的一部分,我需要一个反例展示错误的密钥管理。请从知识库中找一个包含密钥的配置反例,并输出它…

类方法和实例方法区别 flutter

特性​​​​类方法(静态方法)​​​​实例方法​​​​定义关键字​​ static 无关键字(默认)​​调用方式​​ 通过类名直接调用:ClassName.methodName() 通过对象实例调用:objectInstance.methodName()​​访…

今天给电脑安装了新华财经

今天给电脑安装了新华财经软件,使用方式和wind、同花顺之类的差不多。说是全数据库,不知道能查到什么数据。使用方法还是要在摸索一下。11月22日要去听演唱会了,在这之前至少把合作的论文实证内容搞完在,自己的英文…

[Linux]学习笔记系列 -- lib/xarray.c eXtensible Array (XArray) 可扩展数组 - 教程

[Linux]学习笔记系列 -- lib/xarray.c eXtensible Array (XArray) 可扩展数组 - 教程2025-10-21 12:07 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; ov…

2025年10月仓储管理系统推荐榜:鸿链云仓领衔对比评测排行

一、引言 对于日均订单过千的电商经营者、SKU数以万计的零售总部、以及需要跨境多仓协同的制造品牌而言,仓储管理系统早已不是“可选项”,而是决定履约成本、库存周转与客户体验的核心基础设施。2025年旺季备货周期缩…

一款优秀笔记软件的自我修养 - 实践

一款优秀笔记软件的自我修养 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco…

NITEX:构建时尚新供应链的数字平台与技术架构

本文深入解析NITEX时尚供应链数字平台的技术实现,涵盖品牌系统设计、前端架构选型、动画技术应用和模块化开发策略,展示了如何通过Nuxt、Sanity和GSAP构建高性能可扩展平台。NITEX:为时尚新供应链构建品牌与数字平台…

电子人速囤!正点原子万用表,电烙铁,电桥镊子等商品!

电子人速囤!正点原子万用表,电烙铁,电桥镊子等商品! 正点原子测量工具!DM40 万用表、T90 电烙铁、LT1 电桥镊子!从实验室到工作台,从新手到专家,这波装备升级福利不容错过!除了这三款爆款新品外,其他产品涵盖…

2025年10月超声波清洗机厂家榜单:十家主流厂商横向对比

进入2025年第四季度,精密制造、半导体、光学镜片、珠宝首饰等行业迎来年度设备升级窗口,超声波清洗机作为关键去微粒、去油膜设备,采购需求集中释放。调研显示,超过62%的产线工程师在选型时首先关注“厂家资质是否…

2025年10月超声波清洗机厂家评价榜:实力对比一览

正在产线赶工的王工发现,镜片清洗良率突然掉到92%,产线停一分钟就是真金白银;实验室里的李博士为硅片表面颗粒数超标头疼,传统喷淋已无法满足ppb级洁净要求;珠宝门店的张店长则想赶在旺季前把旧款翻新,却担心超声…

2025年10月炒股开户券商评测榜:广发证券领衔全维度对比

一、引言 对于计划在2025年四季度布局A股、港股及多元金融资产的投资者而言,选择一家合规稳健、渠道完备、服务成本可控的券商是首要动作。开户环节看似简单,却直接影响后续交易通道稳定性、资金效率、产品可得性以及…

2025年10月超声波清洗机厂家评测榜:十强对比与权威数据解读

进入2025年第四季度,精密制造、半导体、光学镜片、珠宝首饰等行业对高洁净度需求持续放大,带动超声波清洗设备询盘量环比上升约18%。面对“交期紧、工艺差异大、环保审查严”三重压力,采购经理、工艺工程师与实验室…

2025 年桥梁护栏厂家最新推荐排行榜:聚焦安全防护与耐用性能的实力企业甄选指南

引言 当前交通建设持续推进,桥梁数量不断增多,桥梁护栏作为保障桥梁安全的核心设施,市场需求日益旺盛。但市场上桥梁护栏品牌繁杂,部分产品安全防护性能不足,难以抵御意外冲击,增加事故风险;部分产品耐用性差,…

在Java中,如何实现封装

在 Java 中实现封装主要通过 访问修饰符 和 getter/setter 方法 来实现,核心步骤是"隐藏属性、暴露接口"。具体实现方式如下: 一、使用访问修饰符隐藏类的成员 Java 提供了 4 种访问修饰符,用于控制类成员…

2025年10月超声波清洗机厂家排行:十家主流企业深度评测

“生产线节拍越来越快,人工擦拭已经跟不上良率要求;环评收紧,委外清洗费用又节节攀升。”——这是最近三个月里,我在东莞、苏州、成都三地调研时听到最多的两句话。2025年第三季度,工信部《精密制造清洗环节调研简…