文章介绍了人类反馈强化学习(RLHF)作为大语言模型训练的第三阶段,通过引入人类反馈使模型更好地与人类价值观和偏好保持一致。RLHF训练过程包括三步:收集人类反馈、训练奖励模型和使用PPO算法微调语言模型。与传统监督微调不同,RLHF不依赖固定标准答案,而是通过人类评估者的偏好排序指导模型学习,使生成的回答更符合人类需求,同时保持多样性和避免偏离基础逻辑。
人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)是释放大语言模型(LLM)巨大潜力的关键,OpenAI在2020年发布的GPT-3模型无疑是最好的证明。时隔两年,OpenAI再次发布经过RLHF训练后的LLM——ChatGPT,一夜爆火、吸引大量用户关注,并树立了对话式人工智能新标杆的。
在RLHF之前,LLM训练过程通常包括预训练阶段和微调两个阶段,前者是学习语言的一般规律,后者可以让模型学会完成特定任务。如果你想解决各类NLP任务的话,直接让GPT-3帮你完成就行,但是OpenAI需要的是一个符合人类价值观、偏好和期望的对话式人工智能。OpenAI官方也有相应的声明,
“Our goal is to advance digital intelligence in the way that is most likely to benefit humanity as a whole.” - OpenAI Founding Statement (Dec. 2015)
于是,作为LLM训练的第三阶段RLHF,通过引入人类反馈实现最初的伟大目标。简单说,人类评估者会对模型的输出进行评分或排序反馈,根据反馈结果更新模型参数。
一、为什么RLHF对LLM这么重要?
下面从两个角度讨论RLHF对LLM的重要性
- 传统监督微调方法的局限性
- LLM微调新范式
1.1 传统监督微调方法的局限性
这种方法就像给LLM一本固定的习题集,让LLM按照标准答案学习,但这个习题集依赖于静态数据集,在范围、语境和多样性上较为有限,更为关键的是,无法在模型中融入人类价值观、伦理道德或社会规则等。
还有一点,在处理主观判断或模糊性的任务时——不同用户对答案会有不同的预期,比如问模式"周末去哪里玩合适?",有人可能喜欢热闹的地方,也有喜欢清静点的场所,但传统微调方法在这里会显得力不从心,只盯着习题集里的标准答案来回答,而RLHF可以有效解决这些问题。
1.2 LLM微调新范式
RLHF的核心原理将人类反馈直接融入训练中,使模型能更好地与人类的价值观、偏好保持一致。传统方法是对着固定的习题集"死学",现在是边学遍有人类导师指导,根据导师的指导方向调整模型参数。这样,模型在与人类对话时,更容易领会各种弯弯绕绕、言外之意。
看到这里可能有人会问,既然要符合人的偏好,那直接做一本人类偏好习题集,让AI照着学不就行了?为啥非要搞RLHF这么复杂?咱们举个例子说明下。
假设我们需要训练一个内容摘要模型,目标是把长文章浓缩成简短、有用的摘要。按照传统监督微调方法,需要准备大批<长文章,标准摘要>这样的配对材料作为训练数据,以监督学习的方式对LLM进行训练即可。
实际情况要复杂的多,对于同一篇文章,不同的人可能会给出同样优秀,但表达方式或语言风格差异较大的摘要。以一篇电影影评为例,有人关心剧情走向,摘要就会侧重故事线;有人在意演员表现,摘要就得突出演技评价。
到这里想必大家明白了,传统的训练方法确实能完成写摘要的任务,但没有把握语言的微妙平衡——怎么在不丢失关键信息的前提下,写出符合当前用户需求的摘要。
RLHF的精妙之处:不依赖习题集中的标准答案,而是先让LLM先写几个摘要,然后人类反馈哪个更符合当前需求,比如用户明确说要给老人看的新闻摘要, LLM写了两个版本,一个全是专业术语,一个口语化、通俗易懂,老人会反馈第二个更好。LLM在收到反馈后,就明白以后碰到类似需求该如何回答,这种能够精准遵从人类指令的能力,是RLHF的独特优势。
图1. 生成内容摘要样本示意图
上图中,每个示例都包含长文本输入、两个备选摘要、一个标签(用于指示人类更倾向于哪个摘要)。通过直接将人类偏好以标签形式传递给模型,确保其与人类判断保持一致。
二、RLHF训练过程
RLHF 流程包括三个步骤:
- 收集人类反馈。
- 训练奖励模型。
- 使用奖励模型对大语言模型进行微调。
其中,实现流程最后一步的算法是近端策略优化(PPO)。
图2. RLHF训练过程:(1). 利用包含输入、备选输出以及指示哪个输出更优的标签的偏好数据集,训练一个奖励模型。(2). 由PPO算法微调LLM。
2.1 收集人类反馈
RLHF的第一步是收集偏好数据集。通常情况下,数据集中的每个样本都包含一个提示词、LLM对该提示生成的两个不同回答、偏好标签,偏好标签用以标记两个回答中,哪一个是人类评估者认为更优的。
数据集的具体格式会有所差异,但不影响整体功能。图1数据集的每个样本包含四个字段:Input text, Summary 1, Summary 2, and Preference。而 Anthropic的hh-rlhf [https://huggingface.co/datasets/Anthropic/hh-rlhf?row=41]数据集则采用了另一种格式:两列分别记录了人类与LLM对话中被选中和被拒绝的版本,其中提示词内容在两种版本下是相同的。
图3. Anthropic hh-rlhf偏好数据集中的样本。左列包含提示词,以及LLM生成的更优答案;右列则展示了完全相同的提示词以及人类反馈的较差答案。
无论人类偏好数据采用何种格式,数据所要表达的信息都是一样的:不管两个答案是什么情况,都很完美、都比较差、或者一个好一个差,人们都只会倾向于其中一个,这完全取决于用户个人的偏好。
你可能会有疑问,为什么要让标注者只对两个选项进行排序,而不是直接给所有答案打个分数?让模型直接拟合对应的分数不就行了嘛?主要问题在人的主观性,不同的人好坏的标准不一样,比如A标准者认为3分已经是高分了,B标注者认为5分才能是好的回答, 甚至同一位标注者对同一问题在不同示例上打分,都难以比较。
那么,标注者究竟是如何决定哪个答案更好的呢?这一点可以说是RLHF方法中最关键的地方。标注者会收到明确的指示,详细说明评估的具体流程。
以图4为例,这是OpenAI的标记器[https://arxiv.org/pdf/2203.02155],用于为InstructGPT创建训练数据的UI屏幕截图,标注人员可以从中对模型结果给出从1到7的打分,标准者标签间一致性约为73%,就是说如果他们要求10个人对2个答案进行排名,其中7人会同样的结果。这个过程也正是RLHF所要对齐的人类价值观——这些价值观恰恰蕴含在具体的指令之中。
图4. (a) 标注人员需为每个输出给出1-7分的Likert评分,并标注各类元数据标签。(b) 单独评估完所有输出后,标注人员要对同一提示对应的全部输出进行排序。若两个输出质量相近,鼓励标注为并列排名。
从图4也能看出,实际训练过程中,需要标注人员对同一问题的多个回答进行排序。比如,面对A、B、C三种不同的回复,标注者需要从中选出最符合要求的那个。假设人类标注员的排名如下,其中1为最佳,3为最差:
A – 2
B – 1
C – 3
根据上述排序,我们可以组成三对<获胜响应、失败响应>数据,作为训练样本:
| 获胜响应 | 失败响应 |
|---|---|
| B | A |
| A | C |
| B | C |
2.2 训练奖励模型
现在偏好数据集已经准备好了,我们可以用它来训练奖励模型(reward model, RM)。
图5. 奖励模型训练过程
奖励模型一般也是大规模语言模型,在训练过程中,RM会从偏好数据集中接收三个输入:提示词、获胜回复和失败回复,并为每种回复生成两个称为奖励的输出。
RM模型的训练目标是最大化获胜响应与失败响应之间的奖励差异,可以采用两种奖励之间的交叉熵损失作为损失函数。
通过这种训练方式,RM模型能够区分更受青睐和不太受欢迎的响应,随着模型不断训练,它将越来越擅长预测人类评估者更偏好的响应。
完成RM训练后,奖励模型将作为一个简单的回归器,用于预测给定<提示词,响应>对的奖励值。
图6. 奖励模型预测过程
2.3 使用奖励模型对大语言模型进行微调
这部分是RLHF的第三阶段,即微调阶段,也是强化学习真正大显身手的地方。
和RM训练阶段的偏好数据不同,微调阶段的训练数据仅包含提示词,通过微调,模型学会针对这些提示生成一致且恰当的响应。
具体而言,微调的目标是训练大语言模型,使其能够生成最大化奖励模型所给出奖励的完成内容。
图7. 基础版RLHF微调阶段
上图展示了RLHF微调的全过程,首先,将训练集中的一个提示传递给待微调的模型,并生成响应内容。接着,该提示、模型响应内容被送入奖励模型,由奖励模型预测奖励值。随后,奖励值被输入到PPO优化算法中,PPO算法会调整模型的权重,使其朝着RM预测值更大的方向优化。
三、PPO算法
RLHF最受欢迎的优化器之一是近端策略优化算法,简称 PPO(Proximal Policy Optimization)。关于底层原理可以参考之前的文章小白也能看懂的RL-PPO。
这篇文章主要是从直觉的角度,介绍PPO是如何在RLHF中发挥作用的。我们知道,强化学习的目标是让智能体(agent)与环境(environment)不断交互,学习任意环境状态下的最优行为策略(policy),这里的策略指智能体的 “行为习惯” 或 “决策逻辑”。对应到 RLHF 领域,策略正是需要训练的大型语言模型,负责决定生成响应时应选择哪些tokens。因此,策略优化实际上就是对LLM的权重参数进行优化。
至于近端,它体现了 PPO 算法的核心思想:在训练过程中,只对策略做出小而可控的调整,这种方式可以有效避免传统策略梯度方法中常见的问题,即对模型参数的大幅更新有时会导致性能显著下降。
3.1 PPO的内部机制
一个算法最核心的部分在损失函数的定义,PPO损失函数由三部分组成:
- 策略损失:优化大语言模型参数时的主要目标,直接告诉模型怎么做才能得到更高的RM激励分。
- 价值损失:训练价值函数,估算从当前状态出发未来的奖励。通过价值函数,我们能够计算出优势项,用于更新策略。为策略损失提供了准确的优势评估依据,让策略调整不盲目。
- 熵损失:一个 平衡器”或 安全栓,确保模型在追求高分和精准预测的同时,不会过于死板或过于疯狂,生成出既高质量又富有多样性的回答,确保新旧模型响应的概率分布差异不要那么大。
PPO 的总损失可以表示为:
我们用通俗的语言解释一下这PPO算法中非常重要的三个损失函数。
你可以把模型想象成一个正在接受训练的厨师,它的目标是做出一道美味的菜(生成符合人类偏好的回答)。
策略损失
核心目标是学会做一道受客户喜爱的菜,就像每次吃完饭,厨师会问你对这次用餐的评价,你会给厨师一个明确的反馈:这道菜里,加点糖是个好主意,下次可以多加点;但盐放多了,下次要少放。这就是策略损失函数的作用。
怎么理解:
- 优势项:客户吃完菜后,给厨师每一步操作的明确反馈。比如厨师做菜时选择加糖这个行为(对应模型生成某个token),客户最终给这道菜打了高分,加糖这个动作带来的效果,比厨师平时做菜的更受客户认可,这个更受喜爱就是优势项。
- 损失函数:策略损失函数拿着这些优势反馈,去调整厨师下次做菜的行为。它会鼓励厨师多做那些优势值为正的动作(多加糖),少做甚至不做那些优势值为负的动作(少放盐)。
- 最终效果:让厨师(模型)在每一步选择时,都更倾向于选择能让最终菜品(模型的整个回答)获得更高评价的烹饪步骤(token),随着训练次数的增加,厨师做的菜(模型生成的内容)就会越来越符合客户(人类)的偏好。
价值损失
核心目标是训练厨师自己成为一个能准确预判菜品得分的内部评委(RLHF中会有一个单独的价值评估模型),这个评委需要在做菜的每一步都能估计出:按照我现在这个做法,这道菜最后大概能得多少分?
怎么理解
- 实际累计激励:客户用完餐之后,对厨师做菜品的最终真实打分,在实际训练过程中,会结合奖励模型和价值评估模型给出。
- 价值评估模型:这是厨师在做菜过程中,每一步在心里默默给这道菜打的预测分。
- 损失函数:价值损失函数会计算厨师的预测分和客户的真实分之间的差距。如果差距很大(比如厨师以为能90分,结果客户给了60分),损失就很大,价值评估模型训练的目标就是不断减小这个差距。
- 最终目的:让厨师(模型)在烹饪过程中的每一步,都能对最终结果有一个非常精准的预判能力。这个能力对于策略损失函数的有效学习至关重要。
熵损失
熵损失的作用就像是给厨师一个提醒:做菜可以尝试新花样,不要每天都做一模一样的番茄炒蛋,那样太无聊了(模型响应缺乏多样性)。但也别瞎创新,比如在甜品里放臭豆腐,那就太离谱了(偏离旧模型的轨道)。
怎么防止厨师瞎创新呢?先把厨师刚学手艺时的基础版本冻起来(初始冻结模型,旧模型),这个版本懂基本做菜逻辑,不会瞎来。
每次训练中的厨师做完菜,就让基础版厨师用同样食材(相同提示词)也做一道。然后对比两道菜(对应新旧模型)的差别——这个差别可以用KL 散度(Kullback-Leibler Divergence )。
如果训练中厨师做的菜和基础版差太远(对应新旧模型),KL 散度就大,我们就扣它分(奖励惩罚)。最后算总得分时,要把这个惩罚加上,原本靠瞎创新得到的分,扣完就没优势了。
这样厨师既想拿高分,又不敢偏离基础手艺乱创新,只能乖乖按客户真正的需求做菜,不会再瞎创新。
图8. 融合了KL散度的RLHF微调阶段
总下一下全文内容,RLHF的核心价值就是让模型更懂人类喜好、更符合人类价值观,主要分三步走:收集人类对模型回答的反馈、训练一个打分模型、微调原语言模型。微调时用到的核心算法是 PPO,结合了 KL 散度约束模型输出,避免模型为了拿高分瞎创新、偏离原本的基础逻辑,确保它既贴合人类偏好又不跑偏。
AI时代,未来的就业机会在哪里?
答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。
掌握大模型技能,就是把握高薪未来。
那么,普通人如何抓住大模型风口?
AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。
因此,这里给大家整理了一份《2026最新大模型全套学习资源》,包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等,带你从零基础入门到精通,快速掌握大模型技术!
由于篇幅有限,有需要的小伙伴可以扫码获取!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
为什么大家都在学AI大模型?
随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。
同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!
这些资料有用吗?
这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
大模型全套学习资料已整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】