GSPO

news/2025/10/13 14:24:10/文章来源:https://www.cnblogs.com/qlhh/p/19138418

暂时无法在飞书文档外展示此内容

Toy实验现象

问题引出

  • Grpo的loss函数中token-level的重要性采样的ratio会导致较大的训练梯度noise

  • 在长序列的情况下,clip的机制会加一步累积noise的方差

token-level的IS ratio方差大,不稳定

方法设计

  1. Sequence-Level IS Ratio

仅计算一个sequence的IS ratio,这里使用的是seqeunce ratio在长度上的逆次方,主要是normalize的作用。

进而将sequence ratio的量级->token ratio的量级

  1. Token-Level GSPO

是sequence-level的一般式,针对token-advantage不同的场景(PPO)

token-level IS ratio:sequence IS ratio数值* token IS ratio的方向(反向的梯度)

前向传播:每个token的IS ratio的数值是一样的,都是sequence-level ratio

反向传播:当token的A都相同时,与sequence-level GSPO相同,

实验结果

GSPO裁剪token的数量更多(因为是一整个sequence的clip),但acc更高

节省flops计算资源,效果更好

得出结论

GSPO解决了GRPO中重要性采样粒度与Advantage粒度不对齐的问题

通过clip更多的token,减少反向传播的计算量,并提高了acc

疑问

Q:如何选取gspo的clip的上下界,sequence IS ratio 可以看作是token IS ratio的正则化,那么偏差确实会小一些,论文给出的是【3e-4,4e-4】,原始的grpo是【0.2,0.27】。

为什么一个right clip大,一个right clip小呢。。。

A: grpo中Right clip大是为了更好的探索小概率token的,但是gspo却抑制小概率sequence的探索。可能是因为sequence的normalize后稳定性很好,那么小概率的sequence大概率是不可取的,也就没有探索的必要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/936143.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025 年制袋机源头厂家最新推荐排行榜权威发布:30 项专利加持企业领衔,细分领域新锐品牌深度盘点

环保包装需求爆发与行业技术升级叠加下,制袋机市场呈现 “机遇与乱象并存” 的格局。一方面,垃圾分类政策落地与可降解材料普及推动设备需求激增,企业对产能、精度、环保适配性的要求持续升级;另一方面,市场品牌鱼…

详细介绍:权限校验是否应该在 Spring Cloud Gateway 中进行?

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

日记6

今天啃了循环嵌套,用for循环打印出三角形图案时超有成就感!但嵌套逻辑绕晕好几次,明天要再练3道题巩固。

2025年10月舒适轮胎厂家最新推荐排行榜,静音轮胎,耐磨轮胎,节能轮胎,高性能轮胎公司推荐!

2025年10月舒适轮胎厂家最新推荐排行榜:静音轮胎、耐磨轮胎、节能轮胎、高性能轮胎公司推荐随着汽车行业的快速发展,轮胎作为汽车的重要组成部分,其性能和质量直接影响着驾驶体验和安全性。为了帮助消费者和企业更好…

日记5

今天啃了循环嵌套,用for循环打印出三角形图案时超有成就感!但嵌套逻辑绕晕好几次,明天要再练3道题巩固。

日记7

今天啃了循环嵌套,用for循环打印出三角形图案时超有成就感!但嵌套逻辑绕晕好几次,明天要再练3道题巩固。

详细介绍:负载均衡式的在线OJ项目编写(五)

详细介绍:负载均衡式的在线OJ项目编写(五)2025-10-13 14:11 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: blo…

流量突然提升100倍QPS,怎么办?

一:流量暴增的挑战 随着互联网的不断发展,企业面对的流量压力越来越大。突发性的流量暴增可能来自促销活动、热门事件或者恶意攻击等情况。性能测试人员必须提前预见到这些场景,并在系统设计阶段做好应对措施。流量…

2025年10月冷却塔厂家最新推荐排行榜,闭式冷却塔,开式冷却塔,工业冷却塔,高效节能冷却塔公司推荐!

2025年10月冷却塔厂家最新推荐排行榜:闭式、开式、工业及高效节能冷却塔公司推荐随着工业和商业领域的快速发展,冷却塔作为重要的热交换设备,在各种应用场景中发挥着不可或缺的作用。无论是闭式冷却塔、开式冷却塔,…

完整教程:【Linux】Linux下的静态链接的底层逻辑

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年10月通风气楼厂家最新推荐排行榜,屋顶通风气楼,工业厂房通风气楼,节能环保通风气楼公司推荐!

2025年10月通风气楼厂家最新推荐排行榜:屋顶通风气楼,工业厂房通风气楼,节能环保通风气楼公司推荐!随着工业和建筑行业的快速发展,通风气楼在各类建筑中的应用越来越广泛。屋顶通风气楼、工业厂房通风气楼以及节能…

10/13

今天满课,全是专业课,好累

CF1882E1 Two Permutations (Easy Version)

题目大意: 有两个排列,长度分别为 \(n,m\),每次你可以选择两个整数 \(1 \le i \le n, 1 \le j \le m\),并交换 \(p_{1} \sim p_{i - 1}\) 和 \(p_{i + 1} \sim p_{n}\) 两个整体,\(q,j\) 同理。 请构造出一种不超…

2025年10月实验室净化订做厂家最新推荐排行榜,专业定制与高效服务口碑之选

2025年10月实验室净化订做厂家最新推荐排行榜,专业定制与高效服务口碑之选随着科技的不断进步和实验室环境要求的不断提高,实验室净化工程的需求日益增长。为了帮助筛选实验室净化品牌,特此发布权威推荐榜单,为采购…

20234320 2025-2026-1 《网络与系统攻防技术》实验一实验报告

20234320 2025-2026-1 《网络与系统攻防技术》实验一实验报告 1.实验内容 1.1 目标任务 a.对目标pwn文件,手工修改可执行文件从而改变执行过程,跳转到getShell得到可用Shell b.对目标pwn文件,利用foo函数的Bof漏洞,…

2025年10月清洗机厂家最新推荐排行榜,高压清洗机,超声波清洗机,工业清洗机,商用清洗机公司推荐!

2025年10月清洗机厂家最新推荐排行榜:高压清洗机、超声波清洗机、工业清洗机、商用清洗机公司推荐随着工业和商业领域的不断发展,清洗机的需求日益增加。无论是高压清洗机、超声波清洗机,还是工业清洗机和商用清洗机…

2025年10月上海殡葬服务一条龙最新权威推荐榜:专业贴心的全程陪伴与优质服务厂家选择指南

2025年10月上海殡葬服务一条龙最新权威推荐榜:专业贴心的全程陪伴与优质服务厂家选择指南引言随着社会的发展和人们生活水平的提高,对于殡葬服务的需求也日益增长。上海作为中国的一线城市,其殡葬服务行业更是备受关…

JavaScript链式调用(基础篇)

JavaScript链式调用(基础篇)Posted on 2025-10-13 14:00 lzhdim 阅读(0) 评论(0) 收藏 举报一、什么是链式调用?链式调用(Method Chaining) 是一种让多个方法通过连续的“点操作符”调用的编码风格 // 示例:…

【服务器知识】HTTP 请求头信息及其用途详细说明 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

[GenAI] 大模型微调

英文:Fine-tuning 中文:大模型微调 大模型的构建其实分为 2 个阶段:预训练(pre-training):此阶段模型会在 大规模、多样化的数据集 上进行训练,从而形成全面的语言理解能力。 微调(fine-tuning):在规模较小的…