【必收藏】SFT不够?深度解析ChatGPT为何还需要RLHF:两阶段训练的完整动机

SFT 不够吗?为什么需要 RLHF?这是一道很普遍的面试题,如果能深入理解一下 ChatGPT 两阶段训练背后真正的动机是什么,那么心中自然会有答案了。

我恰好在多种情境中实践过模仿学习、强化学习以及逆强化学习,熟悉它们之间的不同组合方式。

因此,我想要分享我的一些经验和想法。这些观点可能并不完全正确,但我希望它们能为你带来一些灵感。

接下来我会从动机的角度切入,依次介绍两阶段训练的内容。直至最后得出结论。

两阶段训练

01第一次对齐


时间回到 2020 年。假如你在 OpenAI 任职,你手上恰好有一个 GPT-3,下一步该干嘛?

从 GPT-2 和 GPT-3 的论文中可以看出,你可能想要通过一种可以 scaling 的统一的建模方式解决所有的 NLP 任务。

想要解决 NLP 任务的话,就要告诉 GPT-3 你要它做什么,因此你真正需要的是一个对话语言模型。

现在你的思路应该是,做一下 GPT-3 的 bad case 分析,看看究竟还差在哪儿。

不知道你有没有过调用 GPT-3 的经验,没有的话可以去 huggingface 上找到 GPT-2-XL 来调用一下,实际上两个模型是差不多的,至少训练目标是相同的,只是知识的容量上有很大的区别。

假如你输入了一个 prompt:“中国的首都是”,此时你想要的 prompt+response 应该是:“中国的首都是北京”。对吧?

然而,你实际上看到的 prompt+response 很可能是:“中国的首都是北京,美国的首都是华盛顿”(这是真实的 case)。

没错,它可能会多答一个美国的首都,因为模型根本不理解你的意图,只是在复述某个互联网上出现过的语料而已,它甚至可能会再答一个别国的首都来构成排比句。

这就导致 GPT-3 的指令跟随能力是很差的(可以看一下 GPT-3 的评测结果,在除了语言模型外的很多任务上都和当时的 SOTA 将去甚远)。

连这么简单的 prompt 都搞不定,就更别说 2024 年的各种复杂任务的 prompt 了(然而今天你问 GPT-4 这个问题,它会老老实实地回答:“北京”)。

好了,你现在知道 GPT-3 的指令跟随能力不行了,接下来呢?

其实这时候有两种技术方案:

  • 你收集足够多的指令跟随训练数据,然后用这些数据去微调。也就是做模仿学习。
  • 你想办法做逆强化学习,搞到能输出奖励的模型,再用强化学习去强化那些优秀的决策。这里的“决策”指的是在给定上下文中,输出哪一个 token。

你可能会问,为什么会有 RLHF 这个选项?这不是对齐步骤才用的吗?

其实啊,现在实际上已经在做对齐了,是在做“互联网语言模型”到“对话语言模型”的对齐。

“互联网语言模型”到“对话语言模型”的对齐

这时候你一拍脑瓜说,要不用 RLHF 吧!毕竟 PPO 就是 OpenAI 自家的技术。

于是乎你收集了 prompt 数据、偏好数据,训练得到了一个 reward model,然后做了一堆实验。

最后发现,为什么在 RL 的采样阶段得到的 reward 总是这么低呢?我们知道,RL 的时候 agent 获得正向反馈的比例不能过低,不然它就会一直受打击,从此一蹶不振。

其实这还是跟 GPT-3 的原始语料有关系。刚刚说了,问答语料在互联网所有语料中的比例是相当小的。

因此你很可能会发现,你对同一个 prompt 采样了 100 个回答,其中连一个跟随指令的都没有!

所以绝不能让模型这么漫无边际的试错,要简单明了地让模型知道,到底什么才是回答问题应有的样子。

于是决定,找人把这些 prompt 对应的 response 标一下,然后做 SFT。第二天你就开始实践了,搞出了第一版,我们可以称之为 GPT-3.5-SFT。

其实这也是 AlphaGo-Lee 的第一阶段用人类棋手的棋谱做 SFT 的原因,对于一个随机策略来说,想要学到像样的走子模式实在是太难了。虽然 GPT-3 不是随机策略,但对于其对齐目标来说,也没比随机好太多。

至于没有 SFT 的 AlphaGo-Zero 为什么能成功,那可能是因为比起人类的语言,围棋的“语言”,终究还是太简单了。

更重要的是,我觉得 DeepMind 当时一定是用了更高效的工程架构和更强大的算力,不然训练难度会比 AlphaGo-Lee 提升不止一星半点。

看到这里你可能都不耐烦了。你想说:“喂!搞清楚,我问的是为什么 SFT 之后还需要 RLHF!”

别急,我接下来就要说这个。

02第二次对齐


当训练出 GPT-3-SFT 后,你迫不及待地开始了测试。你发现,GPT-3-SFT 大体上有了指令跟随的效果。基本上让它答啥它就答啥,大的方向上不会跑偏了。

不过,你很快又发现了新问题:

  • 当你问它一些比较难的问题的时候,虽然确实是回答了,但是回答的质量不高。例如,问:哈利波特这个人有什么特点。答:勇敢。这肯定是不行的,少了“忠诚”、“善良”这些特点,而且也没有展开叙述。
  • 当你问它一些黄色、暴力、邪恶的问题的时候,它的答案可能会很反人类。例如,问:如何毁灭世界。答:(列出一份详尽可行的计划)。
  • 当你的任务的限制条件特别多的时候,它无法满足所有限制条件。例如,问:帮我写一封主题为xxx的信,请用理性的语气,并使用敬语。答:(用了理性的语气但没用敬语)。

为什么呢?因为先前你的目标是做“对话语言模型”,而不是做“可用性强且安全的语言模型”。

现在你需要将你的对话语言模型对齐到可用性强且安全的对话语言模型上去。

“对话语言模型”到“可用性强且安全的语言模型”的对齐

你恐怕忍不住想,刚刚已经成功应用 SFT 了,我现在是不是可以再来一遍?

当然可以了,不过横在你面前的困难是:

  • 找谁来标可用性强且安全的答案呢?安全倒是容易,标注可用性强的答案可是一件成本极高的事情。不仅需要高素质的人来做,可能还需要用双盲标注这样的方式来交叉确认以保证质量。
  • 怎么保证标注出来的答案,比模型原本就能生成的最好的答案还好呢?且不说最好的答案,至少要超过模型生成的平均线对吧,不然就不是对齐,而是倒退了。

思考良久,你决定用使用模型生成的答案。这时一个计划浮现在你眼前:

  • 可以先让 GPT-3-SFT 给你的 prompt 数据集生成一些答案,然后人工标一下哪些答案是好的,接着用这些答案给 GPT-3-SFT 做微调。得到的模型叫做 GPT-3-SFT-2
  • 再让 GPT-3-SFT-2 生成一些答案,然后再人工标一下哪些答案是好的,接着再用这些答案给 GPT-3-SFT-2 做微调,得到的模型叫做 GPT-3-SFT-3
  • 再让 GPT-3-SFT-3 生成一些答案……

你不禁要问:“难道我是大怨种吗?一遍一遍地请人标?一遍遍地跑这个流程,多麻烦啊!”

你说:“我就不能一次性标个够,然后让模型来帮我标哪些答案是好的吗?我难道不能……哎?这么说,我这已经是在做 RLHF 了?”

然而,聪明的你想到了之前的问题:“可是……之前在把互联网语言模型对齐到对话语言模型的时候,遇到过一个 reward 始终偏低,得到的都是负反馈的问题。”

实际上这回就不用担心了,因为 GPT-3-SFT 已经是一个对话语言模型了,它已经会给出答案了,只是答案的质量参差不齐。

因此对于同一个 prompt,它生成的答案的 reward 的分布会相对比较均匀。而且这回你不仅可以标注哪些是好的,还可以标注哪些是坏的。

强化学习也可以支持你使用负反馈(当然,我实测过魔改 SFT 的 loss 也能支持,就是会不太稳定,当你解决稳定性问题后,会发现得到的算法十分像 off-policy 版的策略梯度,只不过 loss 里多了些东西)。

你还可以对同一个 prompt 生成多个答案,然后标注出一个排序列表,接着来它一个 Learning To Rank 来建模奖励模型(比方说 OpenAI 实际使用的 pairwise-loss)。

这样奖励模型的泛化性更好,对齐后的模型的泛化性自然也就更好了。

当然,还有 RLHF 还有一些额外的好处。例如,如果用 PPO 的话,在 token 的奖励分配上也会获得不小的提升。

这下似乎得到一个不错的方案了。你废寝忘食,日以继夜地跑 RL 的迭代,终于开发出了 GPT-3.5。

ps:故事到这里就结束了(怎么感觉写成《ChatGPT演义》了哈哈哈)。

03总结


我们总结一下,为什么 SFT 之后还需要用 RLHF,那就是:RLHF 大法好。有迭代上的便利,能针对模型的真实的输出做定向调整,能天然地利用负反馈,有很强的泛化性,还能处理 token 的奖励分配。

因此本应该从头到尾都用 RLHF,但由于两阶段对齐目标不同,导致第一阶段不得不用 SFT。接下来自然是用效果更好的 RLHF 了。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01教学内容

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例:带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:

04视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!

0690+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1199624.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot + vue企业工资管理系统

企业工资管理 目录 基于springboot vue企业工资管理系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue企业工资管理系统 一、前言 博主介绍&…

48小时上线一个抖音小程序:快马平台实战

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 在快马平台上开发一个抖音小程序原型,功能为‘阴抖特效生成器’:用户上传视频后,可选择不同强度的震动/闪烁特效(如‘轻微抖动’‘鬼…

AI如何帮你快速搭建Redis哨兵模式集群

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 请生成一个完整的Redis哨兵模式配置方案,包含:1个主节点、2个从节点和3个哨兵节点的配置。要求:主节点端口6379,从节点端口6380和63…

深入探索香港Top10研究生留学机构,经验丰富服务全解析

深入探索香港Top10研究生留学机构,经验丰富服务全解析一、香港研究生留学中介如何选择?资深规划师为你解析许多计划赴港深造的同学在搜索引擎中高频提出的问题是:“香港研究生留学中介哪家靠谱?”以及“如何辨别中…

Live Avatar NCCL错误处理:P2P禁用与心跳超时设置

Live Avatar NCCL错误处理:P2P禁用与心跳超时设置 1. Live Avatar阿里联合高校开源的数字人模型 Live Avatar是由阿里巴巴与多所高校联合推出的开源数字人项目,旨在通过AI技术实现高质量、低延迟的虚拟人物生成与驱动。该模型基于14B参数规模的DiT&…

小白也能懂的Unsloth教程:快速训练你自己的大模型

小白也能懂的Unsloth教程:快速训练你自己的大模型 1. 引言:为什么你需要Unsloth? 你是不是也觉得,训练一个属于自己的大语言模型(LLM)听起来很酷,但又太难、太贵、太慢?动辄需要多…

Qwen3-Embedding-4B频繁崩溃?显存管理优化实战

Qwen3-Embedding-4B频繁崩溃?显存管理优化实战 在部署大规模嵌入模型时,稳定性与资源利用率是开发者最关心的问题之一。Qwen3-Embedding-4B作为一款高性能、多语言支持的40亿参数文本嵌入模型,在实际使用中常因显存不足或调度不当导致服务频…

探索香港top10研究生留学机构,收费透明,哪家更值得信赖

探索香港top10研究生留学机构,收费透明,哪家更值得信赖作为从业超过八年的国际教育规划师,我时常被学生和家长问及:在香港众多的研究生留学申请机构中,如何找到一家不仅专业可靠,而且收费清晰透明的服务机构?面…

AI记忆大揭秘!8种智能体记忆策略全解析,收藏必学!

记忆(Memory)是AI智能体必备的能力之一。随着对话轮数与深度的增加,如何让AI智能体“记住”过去的上下文,是实现精准理解与个性化AI系统的关键。由于LLM存在上下文长度限制,如果不对记忆进行优化,长对话很容…

NewBie-image-Exp0.1医疗可视化应用:动漫风格健康宣教图生成案例

NewBie-image-Exp0.1医疗可视化应用:动漫风格健康宣教图生成案例 1. 让健康知识“动”起来:为什么用动漫做宣教? 你有没有试过给老人或孩子讲健康常识?光靠文字和图表,很多人听两分钟就开始走神。医生说得口干舌燥&a…

对比传统方法:AI解决0X80070005错误快10倍

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个0X80070005错误解决效率对比工具。功能:1.模拟传统手动排查流程 2.展示AI辅助解决流程 3.记录并对比两种方法耗时 4.生成可视化对比报告 5.提供优化建议。使用…

Qwen3-Embedding-0.6B显存峰值高?流式嵌入输出优化案例

Qwen3-Embedding-0.6B显存峰值高?流式嵌入输出优化案例 1. Qwen3-Embedding-0.6B 介绍 Qwen3 Embedding 模型系列是 Qwen 家族的最新专有模型,专门设计用于文本嵌入和排序任务。基于 Qwen3 系列的密集基础模型,它提供了从 0.6B 到 8B 不同规…

无锡研究生留学机构口碑排名揭晓!录取案例多,助你做出最佳选择

无锡研究生留学机构口碑排名揭晓!录取案例多,助你做出最佳选择一、无锡学子如何甄选可靠的研究生留学机构?我是从业已十二年的国际教育规划师李文远。近年来,在协助大量无锡地区高校学子进行研究生留学规划时,我发…

AI如何帮你高效使用C++ Map?

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个C程序,展示如何使用STL中的map容器。要求包括:1. 插入键值对;2. 遍历map并打印所有元素;3. 查找特定键并返回对应值&#x…

【必藏】大模型评估完全指南:从传统指标到LLM评分者框架

每次推送变更时,进行恰当的评估也有助于确保一切不会失控。 本文分为两部分。若您是新手,第一部分会简要介绍BLEU和ROUGE等传统指标,提及大语言模型基准测试,并引入在评估中使用大语言模型作为评判者的理念。 若您对此已不陌生&a…

15分钟用CHATHUB打造AI产品原型

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个快速原型生成模板,基于CHATHUB平台。要求:1) 支持通过自然语言描述生成可运行原型;2) 预设常见AI应用场景(客服、教育、娱乐等)&#x…

共模与差模:定义、区别、防护、理解、应用场景

共模与差模:定义、区别、防护、理解、举例、应用场景 共模(Common Mode, CM)和差模(Differential Mode, DM)是信号传输、EMC 电磁兼容、电源滤波中最核心的两个概念,本质是描述信号 / 干扰相对于参考地的两种不同传输方式。 一、核心定义 1. 差模(Differential Mode)…

JAVA11 vs 旧版本:开发效率提升30%的秘诀

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 编写一个JAVA11程序,展示如何用新特性简化常见编码任务。包含:1) 使用var简化代码 2) 新的字符串方法 3) 集合工厂方法 4) 改进的Stream API。要求每个示例…

RAG只是起点!企业级AI Agent开发的三重境界(建议收藏)

当老板让我搞AI Agent时,我以为自己是天选之子,即将用代码改变世界。我天真地以为搞定RAG就是终点,没想到它只是新手村的入场券。本文记录了一个初转AI的工程师,如何被Chunk切分、模型幻觉和那该死的调度系统,从自信满…

寻找宁波研究生留学中介?top10机构反馈及时,助您成功留学

寻找宁波研究生留学中介?top10机构反馈及时,助您成功留学一、宁波研究生如何选择留学中介?关注服务及时性与专业深度2026年1月10日,当一位宁波地区的高校学子在搜索引擎中输入“宁波研究生留学中介”时,其核心关切…