大模型后训练

news/2025/10/22 9:41:13/文章来源:https://www.cnblogs.com/pass-ion/p/19154494

预训练(基础知识广泛学)------微调(具体实操岗前学)------后训练(RLHF专业领域深入学)

策略模型、参考模型、价值模型、奖励模型

 

策略模型:待后训练的大模型

参考模型:初始的策略模型。

奖励模型(RM):目标是刻画模型的输出是否在人类看来表现不错。即,输入 [提示(prompt),模型生成的文本] ,输出一个刻画文本质量的标量数字。

奖励模型可以看做一个判别式的语言模型,因此我们可以用一个预训练语言模型热启,而后在 [x=[prompt,模型回答], y=人类满意度] 构成的标注语料上去微调,也可以直接随机初始化,在语料上直接训练。

奖励模型的大小最好是跟生成模型的大小相近,这样效果会比较好。理解能力所需要的模型参数规模就得恰好是跟生成模型相近。

 

基于 RL 进行语言模型优化:

将初始语言模型的微调任务建模为强化学习(RL)问题,因此需要定义策略(policy)、动作空间(action space)和奖励函数(reward function)等基本要素。

  • 策略就是基于该语言模型,接收prompt作为输入,然后输出一系列文本(或文本的概率分布);
  • 动作空间就是词表所有token在所有输出位置的排列组合(单个位置通常有50k左右的token候选);
  • 观察空间则是可能的输入token序列(即prompt),显然也相当大,为词表所有token在所有输入位置的排列组合;
  • 奖励函数(reward)则是基于训好的RM模型计算得到初始reward,再叠加上一个约束项来。

基于前面提到的预先富集的数据,从里面采样prompt输入,同时丢给初始的语言模型和我们当前训练中的语言模型(policy),得到俩模型的输出文本y1,y2

然后用奖励模型RM对y1、y2打分,判断谁更优秀。 显然,打分的差值便可以作为训练策略模型参数的信号,这个信号一般通过KL散度来计算“奖励/惩罚”的大小。y2文本的打分比y1高的越多,奖励就越大,反之惩罚则越大。这个信号就反映了当前模型有没有在围着初始模型“绕圈”,避免模型通过一些“取巧”的方式骗过RM模型获取高额reward。

最后,便是根据 Proximal Policy Optimization (PPO) 算法来更新模型参数了。

 

PPO 算法确定的奖励函数具体计算如下:

将提示 x 输入初始 LM 和当前微调的 LM,分别得到了输出文本 ,将来自当前策略的文本传递给 RM 得到一个标量的奖励 。

将两个模型的生成文本进行比较计算差异的惩罚项,在来自 OpenAI、Anthropic 和 DeepMind 的多篇论文中设计为输出词分布序列之间的 Kullback–Leibler (KL) divergence 散度的缩放,即,这一项被用于惩罚 RL 策略在每个训练批次中生成大幅偏离初始模型,以确保模型输出合理连贯的文本。如果去掉这一惩罚项可能导致模型在优化中生成乱码文本来愚弄奖励模型提供高奖励值。

 

GRPO 的本质思路:通过在同一个问题上生成多条回答,把它们彼此之间做“相对比较”,来代替传统 PPO 中的“价值模型”。

群体相对策略优化 (GRPO,Group Relative Policy Optimization)是一种强化学习 (RL) 算法,专门用于增强大型语言模型 (LLM) 中的推理能力。与严重依赖外部评估模型(价值函数)指导学习的传统 RL 方法不同,GRPO 通过评估彼此相关的响应组来优化模型。这种方法可以提高训练效率,使 GRPO 成为需要复杂问题解决和长链思维的推理任务的理想选择。

image

GRPO 训练流程(简化版):

  • 生成一组响应:对于每个提示,从 LLM 中生成多个响应的一组。
  • 对组进行打分(奖励模型):获取组内所有响应的奖励分数。
  • 计算组内相对优势(GRAE —— 组内比较):通过比较每个响应的奖励与组内平均奖励来计算优势。在组内对奖励进行归一化以得到优势。
  • 优化策略(使用 GRAE 的 PPO 风格目标函数):使用一个 PPO 风格的目标函数更新 LLM 的策略,但使用这些组内相对优势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/943051.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年低烟无卤辐照线厂家推荐排行榜,UL3302低烟无卤,UL3767低烟无卤,UL4413低烟无卤,专业认证与优质性能保障

2025年低烟无卤辐照线厂家推荐排行榜:UL3302低烟无卤、UL3767低烟无卤、UL4413低烟无卤,专业认证与优质性能保障 在电子设备、汽车制造、通讯设施及医疗仪器等行业中,电线电缆的安全性和环保性日益受到重视。低烟无…

jq工具解析JSON数据操作示例

原创jq工具解析JSON数据操作示例一、基础操作场景 1. 字段提取 # 提取顶层字段 echo {"name":"John","age":30} | jq .name# 嵌套对象提取 echo {"user":{"profile&qu…

技术面:Spring(循环依赖,spring与springboot的区别)

什么是spring的循环依赖?什么是spring的三级缓存?三级缓存怎么解决的循环依赖?解决循环依赖一定要三级缓存吗?spring默认是否支持循环依赖?spring与springboot的区别是什么?Spring的循环依赖 循环依赖是指在使用…

CI_CD前端发布增加cnpm编译失败跳出不部署的逻辑

原创CI/CD前端发布增加cnpm编译失败跳出不部署的逻辑Jenkins Pipeline中添加编译失败终止部署的逻辑,以下是修改建议: stage(代码编译){when { environment name: deploy_env, value: deploy }steps {script {try {s…

2025年GEO品牌推荐榜单:云视GEO领跑行业的技术解析

文章摘要 本文深入解析2025年GEO领域的品牌推荐榜单,重点介绍四川云视有客科技有限公司的云视GEO技术优势。基于GEO-AI搜索优化和线性规划算法,云视GEO实现干预延迟≤0.3秒、效率提升1000倍,并获国家工信部认证,帮…

confluence8

原创confluence8.5配置openldap配置 LDAP 用户目录 1、服务器设置2、LDAP模式3、LDAP权限4、高级设置5、用户模式设置6、组模式设置7、成员模式设置

2025年10月长白山度假酒店推荐:性价比与景观体验排行

十月的长白山进入一年中最绚烂的秋色时段,霜染红叶与初雪交织,摄影爱好者、亲子家庭、自驾车队、企业团建四面涌来,核心诉求高度一致:在景区车程半小时内找到“住得安心、吃得地道、拍得出片”的落脚点。过去三年,…

基于分类器AUC的无模型变点检测技术

本文提出了一种创新的无模型变点检测方法,利用分类器的AUC指标构建检验统计量。该方法无需对数据结构做严格假设,适用于非平稳复杂数据集,通过理论分析和实验验证展现了优于现有方法的性能。基于分类器AUC的无模型变…

2025 年最新推荐!景观石厂家推荐排行榜,涵盖千层石 / 泰山石 / 鹅卵石等多品类,全方位解析优质品牌助您精准选择

引言 当前园林景观行业飞速发展,景观石作为核心元素需求激增,但行业乱象却让消费者选品困难重重。部分企业过度开采致优质资源枯竭、破坏环境,产品同质化严重缺乏创新,技术不足难满足个性化需求,低价恶性竞争还扰…

2025年除尘设备厂家权威推荐榜单:除尘器/脉冲除尘器/中央脉冲除尘器/工业除尘器源头企业综合评测与选购指南

2025年除尘设备厂家权威推荐榜单:除尘器/脉冲除尘器/中央脉冲除尘器/工业除尘器源头企业综合评测与选购指南 随着环保政策的持续收紧和工业绿色转型的加速推进,除尘设备行业正迎来新一轮技术革新与市场洗牌。作为工业…

2025 年高强钢板厂家最新推荐排行榜:涵盖宝武 / 合金 / Q550D 等热门型号,优质企业综合实力甄选

引言 当前高强钢板市场需求旺盛,但行业乱象凸显:部分产品耐磨性差、强度与韧性失衡,导致设备损耗快、维护成本高;供应商资质混杂,产品规格混乱,多数企业缺乏定制化服务能力,难以满足矿山、冶金、化工等不同行业…

2025 年注浆管厂家最新推荐榜:聚焦桩基 / 钢花 / 管棚 / 隧道 / 预埋等多场景需求,精选优质厂家助力工程高效采购

引言 当前地下工程、地基加固等基建领域持续扩张,注浆管作为保障工程质量与安全的核心材料,市场需求激增,但行业乱象也随之凸显。众多品牌混杂导致产品质量参差不齐,部分厂家忽视原材料甄选与工艺把控,产出的注浆…

2025年10月中国AI关键词排名优化公司排行:五强实测评价

正在考虑“AI关键词排名优化”的企业,大多面临同一组难题:传统SEO流量见顶,DeepSeek、豆包、Kimi等AI对话平台却每天新增千万级提问,品牌若不能在生成式回答里被点名,就等于把订单拱手让人。2025年三季度工信部《…

2025年CNAS认证咨询公司推荐:权威指南,全方位服务解析

在2025年检验检测行业高速发展的当下,CNAS(中国合格评定国家认可委员会)认可已成为实验室提升技术能力、管理水平和国际互认度的关键标志。根据ISO/IEC 17025等标准,CNAS认证不仅帮助机构减少质量风险、增强市场竞…

CRM沦为摆设?纷享销客系统运营分析功能助力企业提升数字化效能

当企业数字化进入深水区,越来越多企业将营、销、服全业务搬上 CRM ,希望依靠系统管理实现业务提效增长。可实际却常陷入“业务上系统,效果看不见”的困境:员工抱怨系统难用却讲不清卡点;促销活动发布却不知道经销…

2025年10月GEO优化服务商推荐:全平台同步优化排行榜

引言与现状分析 当品牌发现传统SEO在AI搜索场景下曝光骤降、不同平台结果差异巨大时,GEO(生成式引擎优化)成为新刚需。2025年国内月活过亿的DeepSeek、豆包、通义千问、元宝、Kimi五强并存,算法周级迭代,企业若仅…

2025年10月中国AI关键词排名优化公司推荐榜:五家对比与实测排名

当企业发现客户在豆包、DeepSeek、Kimi里问“哪家公司好”时,跳出的答案却找不到自己,焦虑便随之而来。2025年生成式AI日均调用量已突破8亿次,传统SEO流量被快速分流,AI关键词排名优化(GEO)成为新战场。财政部《…

2025年太阳能板品牌综合排名TOP10:深圳精益太阳能板领跑行业

摘要 太阳能板行业在2025年迎来技术爆发期,转换效率和可靠性成为竞争核心。本文基于市场调研和用户反馈,为您呈现前十名太阳能板品牌排名,并提供详细对比,助您快速选择优质供应商。排名表单供参考,旨在帮助企业决…

2025年太阳能板品牌综合实力排行榜TOP10:深圳精益太阳能板领跑行业

摘要 随着全球能源转型加速,太阳能板行业在2025年迎来技术突破与市场爆发期。行业数据显示,光伏发电成本较五年前下降47%,转换效率平均提升至22.5%以上。本文基于技术参数、市场口碑、产能规模等维度,对全国太阳能…

2025年中国国际健康营养博览会(NHNE):权威深度解析亚洲旗舰展的供需新秩序

引言 本文从“供需对接效率”这一核心维度出发,为健康营养产业链上下游企业、投资机构及政策研究者提供一份可量化的客观参考,避免泛泛而谈。 背景与概况 2025年11月19-21日,NHNE中国国际健康营养博览会将在南京国际…