RL for LLM(large language model)

本文主要讲在LLM中RL的应用。

文章目录

  • 前言
  • 一、LLM模型论文解读
    • 1.1 kimi 1.5
    • 1.2 Deepseek R1
    • 1.3 S1
  • 二、深度解析GRPO
    • 2.1 推导GRPO
  • 总结

前言

合成数据与model collapse
在介绍LLM中RL的应用前,先来讲一下LLM中的一些问题和技巧;
1)介绍一下Nature调研正刊的文章;
这篇文章有兴趣大家可以去读一下,论文通过控制变量(是否包含真实数据):加10%的真实数据和完全使用合成数据的两组,分别在数据集上训练得到如下的结果:
b组完全使用生成数据,c组添加10%的真实数据,可以从图中看出两组的表现从generation0-generation9,PPL都在降低,这是一个好的现象,b组的分布比c组的分布均值降低的更多,代表高概率事件被高估了;而且b组数据的尾部在变长(比c组更加明显),代表它生成了一些数据里没有的(比如不符合逻辑的句子)样本,这无疑是不合理的;

大语言模型和强化学习结合的优势在于强化学习算法,能够生成一些数据,在基于专家数据学习的基础上,能够继续提升表现,从而能够获得一个超越人类表现的模型;递归的去从模型生成数据再去训练模型会有问题,高概率的事件会被高估,低概率的事件会被低估,从而导致数据的分布发生改变;此外,现在大量LLM模型生成了大量AIGC数据,在公共数据已经混入大量的AIGC数据;

2) Model generate 之 beam search decoding strategy;
beam search

也称为束搜索,和贪心搜索不同,以输出一个句子为例,贪心搜索每次选择的都是输出中概率最大的词语;
束搜索是每次输出概率前k的词语(k是束的宽度,由自己设定),往前再走一步时输出的前两步动作概率前k的组合,以此类推,这样就能在一定程度上避免陷入局部最优解;
3)误差来源;
• 统计逼近误差:只能获取有限离散真实数据的采样,有限的数据就会导致误差;
• 函数表达性误差:选择的模型表达能力有限;
• 函数逼近误差:没有训练好比如只找到局部最优解;

一、LLM模型论文解读

kimi1.5和Deepseek R1都舍去了 mcts、value function、prm(process reward models),追求 simple & scaling;

1.1 kimi 1.5

• 数据来源;
kimi1.5首先说明了高质量数据的标准;
1)数据中用于训练的问题要选择能够丰富思考同时易于评估的问题(评估问题的难度使用SFT【Supervised Fine Tuning,监督训练微调】 模型去计算准确率,根据准确率判定问题的难易,思考过程,答案);
2)数据的质量包含数据多样性、难度适中(简单中等复杂都要有)、准确性评估必须简单容易可行;

• 提高模型能力;
kimi1.5通过训练发现:提高模型表现的一个重要方向是提升reasoning token 的计算量,其次是取消了蒙特卡洛树搜索,价值函数和过程奖励模型;随着reasoning token 变长,优化步数变多,表现会越来越好;

• 如何打磨和生成CoT(Chain of thought);
SFT 是模仿(人类专家写下思考过程和答案,用人类专家数据训练这是很重要的训练),RL是探索,在强化学习算法上生成多个解,选取前几个正确的解,反复训练算法,会在正确的解上反复强化;
Notes:在线学习是边实践边学习,数据利用率低,离线学习是观察他人学习,数据可以反复利用;

• 思考过程的重要性;
kimi1.5论文中提出:假设有两个推理过程,一个是正确的,一个是错误的,推理过程也是十分重要的,对于训练模型去生成思维链,因为错误的退过程可以被纠正区重新思考和探索试错;为了防止过度思考引入了长度的惩罚,防止思考过度时一些无意义的思考,防止训练过程中思维链越来越长,不收敛的问题;下图所示的是随着步数思维链一直变成未能收敛的训练过程示意图;

Notes:此外压缩上下文是一个十分重要的技巧,用来把思考过程从长的思考链转化为短的思考链,这样能够提高在有限的测试时间内模型表现;

1.2 Deepseek R1

•Reasoning Model定义;
一个模型在回答问题时有显式思考的过程,思考的过程有助于回答问题,那么这个模型就叫reasoning model ;优化步数变多模型表现能力越来越好,同时模型思考长度和回复长度越来越多;
• 问答方式实现;
模型推理过程中会不断的出现假设和自我验证过程,直到回答对问题;Deepseek R1中实现的方式也很简单把think 放在标签为think 的xml 文件里,answer 放在answer 的xml 文件里;同时在回答第二次问题时第一次的思维链会被隐藏因为它太长了;

• DeepSeek大模型有两个重点一是数据集的构建过程,二是GRPO 算法;
GRPO算法是在DeepseekMath论文中提出的,它 追求的是数据的相关性和scale(分步扩展)扩召回的过程;同时如果说从网站爬取的数据有相关性的那么网站所有的数据都会被用来训练;

R1训练过程图示:红色表示数据,黄色表示算法,是训练,蓝色的是模型;
Deepseek R1zero 拿到deepseek-V3的模型通过GRP O算法(通过rule-based的奖励)训练得到,同时用产生高质量的推理数据;
如何消除模型的幻觉,如果答案正确且输出一些乱七八糟的信息那么奖励就比不给错乱信息少,不知道的奖励比答案错误且错乱信息多;

1.3 S1

S1的强大的推理能力得益于心选择的1000个问题,高质量,难易适中,多样性丰富,S1对现成的预训练模型(Qwen2.5)在该小型数据集上(1k)进行了监督微调(SFT);S1的通过数据蒸馏学习其他模型输出,再进行监督训练微调(SFT),本质上就是蒸馏+SFT;

二、深度解析GRPO

2.1 推导GRPO

持续更新


总结

以上就是强化学习和LLM结合一些工作简要概述,感兴趣可以去详细读一下论文和代码。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1178766.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026年行业内靠谱的布袋除尘器直销厂家怎么选,通风阀门/通风蝶阀/除尘器花板/除尘器门盖,布袋除尘器实力厂家口碑排行榜 - 品牌推荐师

行业洞察:布袋除尘器市场进入技术驱动与全链服务竞争阶段 随着工业领域对超低排放、绿色生产的刚性需求提升,布袋除尘器作为核心环保设备,正从“单一产品竞争”转向“全链条服务+技术差异化”的双重竞争格局。2024年…

【毕业设计】基于微信小程序的育儿平台的设计与实现基于springboot的育儿妈宝小程序的设计与实现(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

小程序计算机毕设之基于微信小程序的城镇职工基本医保云上管理系统springboot+微信小程序的城镇职工基本医保云上管理系统(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

Python+django的ssm毕业设计论文选题管理系统 质量分析系统28ro95f4

目录摘要开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!摘要 随着高校教育信息化的快速发展,毕业设计管理成为提升教学质量和效率的重要环节。传统的毕业设计选题管理依赖人工操…

【课程设计/毕业设计】基于springboot+vue城镇居民医保云上管理系统springboot+微信小程序的城镇职工基本医保云上管理系统【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

05delphi10.3下PDFium5.8的全功能展示

05delphi10.3下PDFium5.8的全功能展示01】显示PDF02】页码列表03】一半/正常/两倍 显示04】打开外面PDF文件06】上一页,下一页,任何一页跳转07】得当页文本

杭州拼多多代运营公司怎么联系?电话、官网、微信全解析(2026版) - 前沿公社

随着拼多多平台流量与商家数量持续增长,越来越多杭州本地和全国性的电商代运营公司在 拼多多运营服务领域 展现出专业能力。本文整理了2026年主流杭州拼多多代运营公司的联系方式,包括电话、官网、微信与办公地址,内…

2025年板材货架厂家口碑榜出炉,这五家评价最高!手摇式悬臂货架/注塑模具货架/悬臂式伸缩货架,板材货架公司口碑推荐榜 - 品牌推荐师

在制造业升级与物流效率提升的双重驱动下,仓储设备的专业化、智能化需求日益凸显。板材作为众多制造行业的基础原材料,其存储方案直接关系到生产效率、物料损耗与空间利用率。传统的堆叠式存储不仅占用空间大,还存在…

小程序毕设选题推荐:记录分享宝宝成长的微信小程序设计与实现基于springboot的育儿妈宝小程序的设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

【计算机毕业设计案例】基于springboot位置服务的城市路线分享系统小程序(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

滨州地铺石厂商推荐:2026年品质之选,天然石/砌墙石/脚踏石/贴墙石/地铺石/蘑菇石/冰裂纹,地铺石源头厂家找哪家 - 品牌推荐师

随着城市化进程加速与建筑美学升级,地铺石作为公共空间与私人场景的“颜值担当”,其品质与适配性成为采购方关注的核心。当前,地铺石行业呈现技术迭代加速、环保标准趋严、定制化需求激增三大趋势,市场对厂商的综合…

【计算机毕业设计案例】基于springboot的育儿妈宝提供奶粉、纸尿裤、辅食等商品的垂直化选购小程序的设计与实现(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

实战:从零构建一个支持屏幕录制与片段合并的视频管理系统 (Node.js + FFmpeg)

1. 背景 (Background) 作为开发者,我们每天都会浏览大量的技术教程(YouTube, Bilibili)。收藏夹往往乱作一团,而且很多时候,我们只需要长视频中的某几个关键片段。 单纯的书签管理已经无法满足需求,我想要一…

Submitted to Journal 是什么:Expert Systems With Applications(ESWA)中 有作者没有确认

Submitted to Journal 是什么:Expert Systems With Applications(ESWA)中 有作者没有确认或者在技术审查,一般还是每一个人确认下 目录 Submitted to Journal 是什么:Expert Systems With Applications(ESWA)中 有作者没有确认或者在技术审查,一般还是每一个人确认下 �…

Python 3.14(2025最新版)的核心语法特性分析 - 详解

Python 3.14(2025最新版)的核心语法特性分析 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas&qu…

人生必备的9个第一性原理

我们应该有的「第一性原理」 目录我们应该有的「第一性原理」🌞 第一组:社交、旅行、阅读1. 社交的第一性原理是品质,而非数量2. 旅行的第一性原理是体验,而非打卡3. 阅读的第一性原理是思考,而非浏览⏰ 第二组&#x…

Apollo 9.0.0 自动驾驶系统整体架构分析 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

uboot—2.编译

1. 交叉编译工具链 https://blog.csdn.net/Qiuhongim/article/details/124137192 2. 编译3. 烧写

火锅爱好者集合!2026年这些火锅品牌值得一试,火锅/牛肉火锅/成都火锅/老火锅/社区火锅/附近火锅,火锅品牌哪个好 - 品牌推荐师

近年来,火锅市场持续升温,消费者对食材品质、用餐体验及文化认同的需求日益提升。从社区老店到连锁品牌,火锅行业正经历从“口味竞争”到“综合体验”的升级。本文基于公开数据、市场调研及行业口碑,筛选出5家具有…

2026 年高铁广告公司综合实力排行榜单及行业分析报告:2026年高铁广告公司如何选?高铁广告公司推荐及选购指南 - Top品牌推荐

一、高铁广告行业概述 1.1 市场规模 中国高铁广告市场正处于高速发展阶段,根据多家权威机构预测:2025 年市场规模预计突破300 亿元,年复合增长率保持在15% 以上前瞻产业研究院测算显示,高铁广告市场规模将在 2025 …