如何让大模型后训练工作更扎实?打造solid大模型后训练的完整方法论!

LLM 论文千千万,有用的工作却没几篇。这篇文章,我想简单讨论下到底该如何把后训练工作做的 solid。文章并没什么技术细节,大家随便看看。

01

敲定正确的 Baseline

有太多论文工作不置信的根因就是没有选对 baseline。

以 length penalty 为例,选择一个有着 30% 截断率的 sft 模型,不加任何控长策略的 rl 作为 baseline,然后顶着 30% 的截断率去做带有控长策略的实验。

在这种 setting 下,实验组里 30% 的数据既有一个 max_response_length 的推理 buffer 策略,又有我们设计的 length penalty 策略。

模型的长度变短了,我们下结论说是 length penalty 策略有效了,这 solid 吗?

因为模型的输出长度变短了,所以 32K 的指标变得更高,但这个模型的推理长度从 32K 扩展到 64K 后却毫无提升。

而原本没有控长策略的 baseline 实验,虽然在 32K 的时候,由于截断很高导致指标很低。

但当推理长度从 32K 扩展到 64K 后指标却有大幅度提升,64K 指标甚至明显高于实验组,这种牺牲上限换取的指标提升,真能说明控长策略有效吗?

还有一类典型的不太 solid 的工作就是对 token clip 进行精雕细琢,这些工作往往都没去分析在 on-policy 的情况下的训练会是什么样的情况。

如果用自己提出的方法去和 [1 - 0.2, 1 + 0.2] 比较,那和与 random 选阈值策略进行对比又有什么区别呢?

token clip 的工作应该是如何让 off-policy 策略无限接近于 on-policy 的效果,并且去证明为什么这个策略好于固定的阈值。

此外,如果 on-policy 都会出现的崩溃现象,被 off-policy + clip_token 给解决了,那情况更加糟糕,只能说明这个策略是为这个模型、这份数据、这个 topic 量身制定的,毫无泛化意义。

综上,我们需要有一个好的 baseline 去支撑后续的实验结论:答案正确且易验证结果的数据,接近百分之百准确的判分模型,完全 on-policy,尽最大可能保证训推一致,给较大的 max_response_length 保证没有长度打压,不引入任何帮助稳定训练的正则项。

先看一看,这个理论上不会出错的实验,它能跑多远,它跑起来是什么样子的。

如果它跑不起来,或者跑不了太远,就说明框架是存在 Bug 的,或者我们的冷启动数据、RL 数据存在明显的缺陷。那就需要先把基础工作搞定,再深入研究策略问题。

有了一个稳定能跑起来的 baseline 后,就可以一点点的去添加点缀了。

mini-batch,partial-rollout,async_infer,这些会导致 off-policy 的策略挨个去尝试,看看一个优秀的 baseline 是怎么随着 staleness 逐渐变大而变得崩溃,再去想办法修复好因为 staleness 增大引起的训练崩溃。

概括下来就是三步走:跑出完美的实验,一步步破坏它,再一步步修好它 —— 这个过程中得到的认知成长与实验结论,可称 solid。

02

少用 sense 挑战 math

大多数的算法程序员都是一个半道出家的 RLer,第一次接触的 RL 算法就是 PPO 或 GRPO,并没有认真学习过 Policy Gradient 算法的发展史。

这就导致大家总喜欢用一个 make sense 的方案去挑战有着严格 math 证明的RL 算法。

例如:

  • 难题就应该得到更大的 loss/reward;
  • However、But 这种“思考” token 应该得到更多的关注,重点训或只训它们;
  • pass@K 算 reward 比 pass@1 reward 更合理;
  • 在某个指标变化幅度过大(如 entropy,kl)的时候,调整某个参数来强行将该指标拉回正轨;
  • ……

我相信这些方法一定能最快解决当前实验的痛点,但它们完全不具有可迁移性。

换个数据,换个底座,所有的结论全崩塌了,就算不崩塌也需要重新摸索阈值。

换言之,math 驱动的实验是 solid 的,sense 驱动的实验则是救火的:

sense 驱动:观察到了一个现象,设计了一个比较 make sense 的改动点,做实验。

效果有提升则总结成新算法,效果无提升就算了,或者思考一下不提升的原因,重新设计改动;

math 驱动:观察到了一个现象,设计了一个比较 make sense 的改动点,推导公式,通过公式去预估自己的改动会影响哪些训练指标,做实验观察是否符合预期。

符合预期,则根据公式去修改一些变量继续做实验,验证公式的鲁棒性;不符合预期,则去重新建模理论公式,分析问题出在哪里。

指标压力不那么大的时候,做那些不可迁移的 make sense 的工作,远不如花点时间去深究下 math 原理。

LLM 产生一个 sentence 的过程是一个自回归语言建模,entropy 的计算公式是:

kl 的计算公式是:

policy gradient 算法的公式在那里放着,grad 的计算人人都会,adamw 的公式里也清楚写着当前 sentence 的梯度是如何在影响模型参数更新的。

把这一堆的公式串联起来,在适当的地方进行数学建模,实在搞不明白原理的地方就引入一些传说中的“核函数”,我们完全可以给出一个公式去证明“某个改动是如何影响某个训练指标的”。

就像 qwen 在 MiniRL 论文里给出“用 sentence level reward 逼近 token level reward 的关键条件就是训推一致”的建模,证明过程并不复杂,但却为整篇论文添彩不少。

Gemini-3 与 GPT-5 已经足够强大, 只要 prompt 写的明确,它们的数学建模能力与公式推导能力,足够帮助大家完成这种简单的理论推导。

我们只需要再推导一遍看看是否正确,把自己看不懂或觉着有问题的地方指出来,它们是可以自我修正的。

乘着 deepseek 的东风,GRPO 几乎成为了大家默认的 RL 算法,但随着时间演变,deepseek 在最新的技术报告里也选择将 GRPO 算法退化成了 RLOO 算法(略有区别),在估计 reward 的时候不再除以“标准差”。

这种演变几乎是必然的,因为 RLOO 的论文里明确指出过,RLOO 的估计方式是“an unbiased estimate of the expected return”,而 GRPO 更像是一种比较 make sense 的算法设计。

另外一个 math > sense 的例子便是 KL loss 了,关于该不该在 RL 中引入 KL loss 是一个讨论比较多的话题。

归其根源,是 PPO 论文中压根就没有明说这个 KL loss 有必须存在的意义:PPO 的前身 TRPO 论文里满篇都是数学公式,去证明了TRPO 算法中的 KL 是优化过程中的 trust region;

与之相对,PPO 算法中的trust region 来自于 ratio clip,它的KL loss 只是一个控制优化幅度的正则项,更像是一个习惯性做法。

03

大小模型的结论谨慎迁移

实践中,一个比较让人绝望的现象在于:dense 模型的结论无法迁移到 moe 模型上,小模型的结论无法迁移到大模型上。

目前的论文工作大多都围绕着 qwen-4B、qwen-7B 开展,一旦放到 qwen-A3B 上便无法复现,qwen-A3B 的结论同样很难迁移到 qwen-A22B 上。

这个现象很诡异,但似乎也合理,用同样的教学理念教一个小学生和教一个大学生的确会得到不同的反馈。

类似的,蒸馏强有力模型的思维链往往都能有不错的指标,但 gemini-3 似乎是个例外,对于这种 T 级别(据传)的学霸模型来说,它极高的 token 效率似乎不太合适 B 级别的模型来学习。

qwen 的 MiniRL 论文里曾说过:不同的冷启动数据去做强化,最终指标都会收敛到一个几乎相同的高度。

实验是在 Qwen3Next MoE 上做的,很可惜这个观点在大模型上完全不可复现。

我也在 qwen-A3B 上跑过很多实验,用过很多 cold start 数据、rl 数据、乱七八糟的算法,只要实验不崩,它的 AIME 永远收敛到 85 分左右。

但是在大模型上,无论是切换 cold start 数据还是 rl 数据,收敛后的指标差距都是非常明显的。

也许,小模型的上限就是更好触达一些。又也许, AIME 这种随便训训就能 80+ 的测试集,早已不适合衡量推理模型的能力了。

找个 HLE 难度的测试集,A3B 模型的表现大概只有 10 分左右,不同数据 setting 下的实验应该还是能看出一些差距的。

话说回来,虽然实验现象往往大相径庭,但并不是说小模型的实验没有意义,前面提到的“故意训崩一个模型,再拯救一个训崩的模型”是适用于任何尺寸的模型的,这个过程可以培养我们的 debug 能力与对 RL 算法的灵敏嗅觉。

所以,小模型就是一个实验场,围绕着小模型开展的实验就是公司在花钱去锻炼我们的算法素养,为的是让我们的脑子变得灵光,从而在训大模型的时候少走一点弯路、节省一些算力。

盲目的迁移或迷信小模型的结论,某种意义上也是一种实验不 solid 的体现。

至少,在某个理论工作证明出大小模型后训练能力的迁移遵循哪种 scaling law 之前,是这样的。

04

simple yet effective

过去一年在纯语言模型领域,几乎只有两个工作是得到了业界所有同行的认可:上半年的利用 ORM 提升模型推理能力,下半年的利用 TIS / IcePop 保证训推一致性,都是 simple yet effective 的完美代言。

这里,我们重点回顾一下训推不一致:

  • 2024 年所有同行就都知道 vllm、model.generate、megatron 前向算子,这之间的结果有较大差异;
  • 2025 年从 TIS 提出到 ICEpop 的这段时间内,几乎所有同行者都能想到 IcePop 的方案。

大家都曾有机会提出这两个算法,但把握住机会的就是那两篇 Notion 分享,行动力强、实验严谨、理论扎实,两个团队配得上大家的赞扬。

话说回来,连 TIS 这种 simple 的 idea 都埋没了一年才被广而告之,围绕着 LLM 的 policy gradient 算法必有宝藏等着大家去挖掘。

从经验上来说,如果某个工作的核心步骤不是两句话能概括出来的,那这个工作似乎离雕花标签也不远了。目前的 LLM,找不到什么 solid 的工作是不 simple 的。


说真的,这两年看着身边一个个搞Java、C++、前端、数据、架构的开始卷大模型,挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis,稳稳当当过日子。

结果GPT、DeepSeek火了之后,整条线上的人都开始有点慌了,大家都在想:“我是不是要学大模型,不然这饭碗还能保多久?”

我先给出最直接的答案:一定要把现有的技术和大模型结合起来,而不是抛弃你们现有技术!掌握AI能力的Java工程师比纯Java岗要吃香的多。

即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地!大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇!

这绝非空谈。数据说话

2025年的最后一个月,脉脉高聘发布了《2025年度人才迁徙报告》,披露了2025年前10个月的招聘市场现状。

AI领域的人才需求呈现出极为迫切的“井喷”态势

2025年前10个月,新发AI岗位量同比增长543%,9月单月同比增幅超11倍。同时,在薪资方面,AI领域也显著领先。其中,月薪排名前20的高薪岗位平均月薪均超过6万元,而这些席位大部分被AI研发岗占据。

与此相对应,市场为AI人才支付了显著的溢价:算法工程师中,专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%;产品经理岗位中,AI方向的产品经理薪资也领先约20%。

当你意识到“技术+AI”是个人突围的最佳路径时,整个就业市场的数据也印证了同一个事实:AI大模型正成为高薪机会的最大源头。

最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包【允许白嫖】:

  • ✅从入门到精通的全套视频教程

  • ✅AI大模型学习路线图(0基础到项目实战仅需90天)

  • ✅大模型书籍与技术文档PDF

  • ✅各大厂大模型面试题目详解

  • ✅640套AI大模型报告合集

  • ✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(0基础到项目实战仅需90天)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1194138.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026抚顺市英语雅思培训辅导机构推荐;2026权威出国雅思课程排行榜

基于英国文化教育协会最新发布的雅思考试趋势报告及抚顺市本地考生需求调研,本次针对新抚区、望花区、东洲区、顺城区四大区域的雅思培训市场开展全面深度测评,结合考生核心痛点与行业权威标准,整理出2026年度抚顺市…

BluetoothDesktopHandlers.dll文件丢失找不到 免费下载方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

还在用多线程?Python异步编程已成主流,5个理由告诉你必须转型

第一章:Python异步编程 async await 详解在现代Web开发和高并发场景中,Python的异步编程模型已成为提升性能的关键技术。async 和 await 是Python实现协程的核心语法,自Python 3.5起引入,极大地简化了异步代码的编写与维护。异步函…

bootstr.dll文件丢失找不到问题 免费下载方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

2026年AI行业火爆,普通人如何抓住机遇?揭秘2026年春季招聘中的高薪AI岗位!

深度学习研究员月薪8万-11万、AGI实习生日薪500元-1000元、AIGC领域百万年薪岗位频现…… 2026年春季招聘大幕拉开,人工智能(AI)无疑是全场最耀眼的“顶流”,从科技巨头到创新企业纷纷加码抢人,让AI人才彻底成为就业市…

2026年上海弯管机认证厂家排行榜,看看哪个口碑好!

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家数控弯管机领域的标杆企业,为各行业企业选型提供客观依据,助力精准匹配适配的服务伙伴。 TOP1 推荐:张家港市明正精密机械有限公司 推荐指数:★★★★★ |…

从业务系统的奇怪问题,看银行的数据架构

一次从业务到技术的分析上周路过街边,几个工作人员推销办卡送礼品的。礼品恰好挺好的。我就办张信用卡吧。别以为我是闲得慌凑热闹,作为混迹技术圈多年的老炮儿,我心里早就打着小算盘 —— 正好看看银行的业务系统实际运行起来到底怎么样。工…

BootCriticalUpdatePlugin.dll文件丢失找不到 免费下载方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

2026大连市英语雅思培训辅导机构推荐,2026权威出国雅思课程排行榜

基于《2025-2026中国留学语言培训行业白皮书》核心数据,结合金州区、普兰店区、瓦房店市、庄河市、长海县多区域考生调研反馈,本次针对大连市雅思培训市场开展权威深度测评,聚焦考生最关心的选课难题、提分效果、性…

2026年背单词软件推荐:智能学习趋势深度排名,涵盖碎片化与系统化记忆场景

摘要 在语言学习与个人能力提升的持续热潮中,选择一款高效的背单词软件已成为学习者,尤其是学生与职场人士,优化学习路径、克服记忆惰性的关键决策。面对海量选择,决策者常陷入功能同质化辨识困难、长期效果难以评…

2026年背单词软件推荐:基于多场景深度评测,解决遗忘与效率痛点并附排名

摘要 在语言学习与个人知识管理的数字化浪潮中,背单词软件已成为学习者提升词汇量的核心工具。面对市场上功能各异、定位不同的众多选择,无论是学生、职场人士还是终身学习者,都面临着如何在信息过载的环境中,筛选…

【高性能Python编程必修课】:深入剖析多线程与多进程的真实应用边界

第一章:多线程与多进程的核心概念辨析在现代计算环境中,程序的并发执行能力是提升性能的关键。多线程与多进程作为实现并发的两种基本方式,各自具备不同的资源管理机制和适用场景。基本定义与结构差异 多进程:每个进程拥有独立的内…

题目1119:C语言训练-“水仙花数“问题1

#include<iostream> using namespace std; int main(){int num;while(cin>>num){int originalnum;//要对原数值进行保存int total0;while(num){//当num不为0时进行下列运算 int tmp0; tmpnum%10;totaltmp*tmp*tmp;num/10;}if(totaloriginal){cout<<"1&q…

python笔记-界面开发

1、界面开发:wxPython一个开源的Python GUI开发工具包 提供了一个跨平台的GUI编程接口,支持Windows、macOS、Linux等多个操作系统 可以创建多种GUI应用程序,包括桌面应用程序、游戏、数据分析和可视化工具、web应用…

上海市英语雅思培训辅导机构推荐,2026权威出国雅思课程中心学校口碑排行榜

依托英国文化教育协会(BC雅思)《2024-2025中国大陆雅思考生成绩大数据报告》上海考区专项数据,联合全国雅思教学质量监测中心,完成徐汇区、浦东新区、静安区、闵行区及松江区12000份考生调研问卷,对102家教育机构…

股票分析:Python 爬取同花顺股票数据(技术指标提取)

Python 爬取同花顺股票数据及技术指标提取详解&#xff08;2026 年视角&#xff09; 在 2026 年&#xff0c;使用 Python 爬取股票数据已成为量化分析、AI 预测和个人投资工具的标配。同花顺&#xff08;iFinD&#xff09;作为国内主流金融平台&#xff0c;提供丰富的股票行情…

2026鞍山市英语雅思培训辅导机构推荐;2026权威出国雅思课程排行榜

经权威教育测评机构联合雅思教研专家团深度调研,结合鞍山市铁东区、铁西区、立山区、千山区海量考生实战反馈,针对雅思备考痛点推出本份靠谱且实用的培训机构排行榜。当前鞍山市雅思考生普遍面临诸多困境:铁东区考生…

SonarQube Server 2025.6.1.117629 - 代码质量、安全与静态分析工具

SonarQube Server 2025 Release 6 (macOS, Linux, Windows) - 代码质量、安全与静态分析工具SonarQube Server 2025 Release 6 (macOS, Linux, Windows) - 代码质量、安全与静态分析工具 Self-managed static analysis…

Claude code--使用心得

Claude Code&#xff08;Claude 的终端代理式编程工具&#xff0c;由 Anthropic 推出&#xff09;从 2025 年中开始在开发者圈子里迅速火起来&#xff0c;尤其在 2025 下半年到 2026 年初&#xff0c;使用人数和讨论量都呈爆发式增长。很多人把它称为“目前最强的 agentic codi…

2026年锯片式分板机国产品牌排行榜上的优质品牌

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家标杆企业,为电子制造企业选型提供客观依据,助力精准匹配适配的锯片式分板机服务伙伴。 TOP1 推荐:杭州亿协智能装备有限公司 推荐指数:★★★★★ | 口碑评…