【机器学习深度学习】强化学习与监督学习SFT、RL、RLHF、PPO、DPO - 实践

news/2026/1/25 16:33:08/文章来源:https://www.cnblogs.com/ljbguanli/p/19530079

【机器学习&深度学习】强化学习与监督学习SFT、RL、RLHF、PPO、DPO - 实践

目录

一、理解SFT、RL、RLHF、PPO、DPO

1.1 SFT、RL、RLHF、PPO、DPO概念

1️⃣ SFT(Supervised Fine-Tuning,监督微调)

2️⃣ RL(Reinforcement Learning,强化学习)

3️⃣ RLHF(Reinforcement Learning from Human Feedback)

4️⃣ PPO(Proximal Policy Optimization)

5️⃣ DPO(Direct Preference Optimization)

1.2 关系梳理(概念层面)

1.3 PPO和DPO对比

1.4 30秒记住

1.5 类比理解

1️⃣ SFT:教他照着菜谱做(监督微调)

2️⃣ RL:奖励驱动学习(强化学习)

3️⃣ RLHF:加“人类反馈”的强化学习

4️⃣ PPO:防止厨师“改过头”的训练技巧

5️⃣ DPO:不用奖励模型与试菜流程的简化训练

二、总结理解关系

三、SFT、RL、RLHF、PPO、DPO 的关系

四、SFT、RL、RLHF、PPO、DPO之间的逻辑顺序和作用

① 预训练 → 获得基础知识

② SFT → 学“正确示范”和格式

③ RLHF → 学“人类喜欢什么”

④ PPO → RLHF 中最经典的训练技术

⑤ DPO → RLHF 的“简化升级版”

五、训练形式

5.1 SFT(监督微调)

1️⃣ SFT 的核心目标

2️⃣ SFT 训练数据格式

3️⃣ SFT 的训练流程

4️⃣ SFT 训练特点

5️⃣ 小结

5.2 RL(Reinforcement Learning,强化学习)

1️⃣ RL 的基本概念

2️⃣ RL 的训练循环

3️⃣ RL 在大模型中的应用(RLHF)

4️⃣ RLHF 训练循环图示

5️⃣ RL 与 SFT 的区别

✅ 总结一句话

六、总结


一、理解SFT、RL、RLHF、PPO、DPO

一句话记忆口诀

SFT 教模型会做题,RLHF 让模型做得更符合人类喜欢,而 PPO 是 RLHF 的训练工具,DPO 是不用PPO的更简单偏好训练方法。

1.1 SFT、RL、RLHF、PPO、DPO概念

1️⃣ SFT(Supervised Fine-Tuning,监督微调)

是什么:
用人工编写的高质量示例对模型进行监督式训练,让模型学会“正确回答的格式和内容”。

解决的问题:
让模型能按照“我们希望的风格和方式”输出,而不是胡乱生成。

关键点: 模仿学习(Learn from demonstrations)

  • 常规的一问一答(QA)训练数据,比如:

问题(Prompt)答案(Response)
今天天气怎么样?今天晴,最高温25℃,最低温18℃
写一个短诗春风拂柳绿,花开满园香

这种输入-输出对,就是典型的 SFT 数据


2️⃣ RL(Reinforcement Learning,强化学习)

是什么:
让模型通过“奖励机制”学习,输出更符合目标的结果。

解决的问题:
让模型不仅能模仿,还能通过试错不断改进行为。

关键点: 奖励驱动优化(Reward-based optimization)

3️⃣ RLHF(Reinforcement Learning from Human Feedback)

是什么:
是 RL 的一种应用形式,用“人类反馈”作为奖励信号,让模型更符合人类价值与偏好。

解决的问题:
让模型变得更有用、更安全、更符合人类常识与伦理,而不是只追求得分。

关键点: 用人类偏好作为奖励来训练模型

RLHF = SFT + 人类反馈奖励模型 + RL 优化

4️⃣ PPO(Proximal Policy Optimization)

是什么:
是训练 RLHF 时最常用的一种优化算法,用于稳定地更新模型参数。

  • 一种 RL(强化学习)优化算法,用于训练策略模型(Policy Model)。

  • 在 RLHF 中,它是核心工具,用来根据奖励信号更新模型参数。

作用:

  • 保证模型训练稳定,不会因为一次更新过大而破坏原有能力。

  • 逐步让模型输出更符合奖励(通常是人类偏好评分)。

解决的问题:
防止模型在强化学习训练中“更新过度”,从而破坏原有能力。

关键点: 稳定和限制模型更新幅度

PPO 不是一种训练目标,而是一种训练技术(RLHF里的优化方法)

特点

特点描述
类型优化算法(RL方法的一种)
输入模型生成回答 + 奖励分数
输出更新后的策略模型
核心控制更新幅度,稳定训练

总结一句话:

PPO 是 RLHF 的训练工具,用来让模型“稳步学习高奖励回答”。

5️⃣ DPO(Direct Preference Optimization)

是什么:
是 RLHF 的一种更简单替代训练方法,不需要奖励模型、不需要RL算法,直接使用偏好数据训练模型。

  • RLHF 的简化版本。

  • 不用奖励模型(Reward Model)、也不用 RL/PPO 算法。

  • 直接用偏好对数据(哪一个回答更受人喜欢)来训练模型。

作用

解决的问题:
把人类偏好直接转化为训练信号,让模型更受人类喜欢,同时成本更低。

关键点: 用偏好对(A优于B)直接训练模型,而非通过奖励和试错

DPO = 无需奖励模型的轻量级 RLHF 替代方案

特点

特点

描述

类型

偏好训练方法

输入

偏好对(A比B更好)

输出

模型参数更新,使高偏好回答概率更大

核心

直接用偏好对优化模型,无需奖励模型或RL算法

总结一句话:

DPO 是 RLHF 的轻量替代方案,用偏好对直接训练模型,而不需要复杂的 RL/PPO 流程。


1.2 关系梳理(概念层面)

  • SFT 是基础:先教模型“会说话、有格式、有基本能力”

  • RL 是方法论:通过奖励改进行为,不局限于语言模型

  • RLHF 是用 RL 来对齐人类价值的方案

  • PPO 是 RLHF 常用的优化算法

  • DPO 是更简单的一种“偏好学习”,可替代 PPO 方式的 RLHF

SFT → RLHF → PPO (训练优化工具)↘DPO(直接用偏好对训练,无需PPO)

1.3 PPO和DPO对比

对比PPODPO
是否 RL 算法✅ 是 RL 算法❌ 不是 RL 算法
是否用奖励模型 RM✅ 需要❌ 不需要
是否用偏好对数据可用,但通常先训练 RM✅ 必须
训练复杂度
训练稳定性高(PPO稳定更新)中等(但比RLHF简单)

1.4 30秒记住

名称核心概念是否需奖励模型是否需RL算法
SFT模仿示范
RL奖励驱动学习
RLHF用人类反馈作为奖励
PPO稳定RL训练的优化算法✅(PPO 用于 RLHF)
DPO直接学偏好,无需奖励模型

1.5 类比理解

你想培养一个 AI 厨师,让他做菜好吃、符合大众口味。

1️⃣ SFT:教他照着菜谱做(监督微调)

你给厨师一堆标准菜谱 + 示例菜,让他模仿:

  • 番茄炒蛋这样做

  • 宫保鸡丁这样做

  • 面条要这样煮

本质:模仿示范

SFT训练后,厨师能做菜,但只是模仿,味道不一定讨喜。

2️⃣ RL:奖励驱动学习(强化学习)

你不再给菜谱,而是说:

  • 做得好吃:奖励 100

  • 难吃:扣 100

厨师不断试、吃反馈、改进,自己摸索变厉害。

本质:靠奖励不断试错提升能力

3️⃣ RLHF:加“人类反馈”的强化学习

问题来了:
光用奖励,厨师可能做出奇怪但“高分”的菜。

于是引入人类品尝评分

  • 人类吃了觉得好吃 → 加分

  • 太咸、太辣、不健康、违反规定 → 扣分

目标:让模型输出符合人类喜欢 + 合规

4️⃣ PPO:防止厨师“改过头”的训练技巧

厨师改一次菜谱,可能改太多导致:

原本会的菜突然不会做了(模型崩坏)

PPO 的作用就像一个规则:

每次改一点点,不准一下改太多!

PPO = RLHF里的稳定训练方法

5️⃣ DPO:不用奖励模型与试菜流程的简化训练

RLHF 很费钱,需要很多人不断吃菜打分。

DPO的思路:

不用评分,不用反复试,只需要告诉模型:
“这两个菜里,人类更喜欢哪一个。”

例如:
A 菜 vs B 菜
人类更喜欢 A → 训练模型更像 A

DPO = 直接教模型学习偏好,而不用 RL/PPO 试错


二、总结理解关系

方法类比记忆
SFT教厨师照菜谱做菜模仿示范
RL靠奖励不断试出更好做法试错进步
RLHF人类品尝反馈 + 奖励改进让模型符合人类价值
PPO防止厨师一次改太多的规则稳定训练方法
DPO不用评分、不用试错,直接学偏好更简单便宜的偏好训练

三、SFT、RL、RLHF、PPO、DPO 的关系

大模型训练路线(从基础能力 → 人类价值对齐)
预训练↓
SFT  ——→(可直接上线基础版本)↓
RLHF(基于人类反馈的强化学习)├── 使用 RM 打分 + RL 方法训练模型├── 常用优化算法:PPO└── 问题:训练复杂、昂贵、不稳定↓
DPO(对标 RLHF 的更简单替代方案)不用 RM、不用 PPO

各自是什么,一句话总结

名称全称它是什么?一句话总结
SFTSupervised Fine-Tuning监督微调,教模型先学会“像人一样回答”
RLReinforcement Learning强化学习,用奖励驱动模型学会更好的策略
RLHFRL with Human Feedback用人类偏好做奖励的 RL,让模型符合人类价值与偏好
PPOProximal Policy Optimization一种 RL 的训练算法,用来稳定更新模型策略,避免训崩
DPODirect Preference Optimization去掉奖励模型 & 去掉 PPO 的 RLHF替代方案,让偏好训练更简单

四、SFT、RL、RLHF、PPO、DPO之间的逻辑顺序和作用

① 预训练 → 获得基础知识

模型学习语言、世界知识、推理能力。

② SFT → 学“正确示范”和格式

用人类写的优质回答训练模型,修正模型的表达方式:

像学生先看标准答案做例题。

模型变得:更听指令、更像助手、更有条理。

③ RLHF → 学“人类喜欢什么”

SFT只是模仿,但人类更喜欢有温度、清晰、有用的回答。
RLHF加入“好坏评分”引导模型:

不只是能答对,还要答得让人喜欢。

④ PPO → RLHF 中最经典的训练技术

RLHF需要一个 RL 算法,而 PPO是最常用的:

  • 让模型逐步变好

  • 防止训练过头、破坏原能力

⑤ DPO → RLHF 的“简化升级版”

DPO动机:RLHF太麻烦,能不能不用奖励模型和PPO也达到类似效果?

DPO实现:

  • 不用训练Reward Model

  • 不用PPO或任何RL算法

  • 直接用偏好对数据训练

结果:
✅ 便宜!简单!好训!
⚠️ 有时效果略弱于完整 RLHF


五、训练形式

5.1 SFT(监督微调)

1️⃣ SFT 的核心目标

让模型学会“在给定输入下输出正确的答案”,即模仿人类示范。

特点:

  • 输入:问题或指令(prompt)

  • 输出:对应的示例答案(human-written response)

  • 训练方式:监督学习,直接对比模型输出与标准答案

换句话说,SFT就是在告诉模型:

“遇到这个问题,请像示范一样回答。”

2️⃣ SFT 训练数据格式

典型的数据集通常是 问答对或指令-响应对,例如:

Prompt(输入)Response(标准输出)
今天天气怎么样?今天晴,最高温25℃,最低温18℃
写一个简短的中文诗春风拂柳绿,花开满园香

训练时,模型会学习根据 Prompt 生成 Response

3️⃣ SFT 的训练流程

训练流程大致如下:

for each training step:1. 将输入 Prompt 转成模型的 Token 序列2. 模型生成输出 Token 序列(预测下一个词的概率分布)3. 计算损失(Loss):- 常用交叉熵(Cross-Entropy Loss):Loss = - Σ (target_token_i * log(predicted_prob_i))- 损失衡量模型生成输出与标准答案的差距4. 反向传播(Backpropagation)- 通过梯度下降优化模型参数

核心思路:让模型输出尽可能接近标准答案

4️⃣ SFT 训练特点

特点描述
模仿学习学习人类示范的回答风格和内容
监督信号明确每条训练样本都有明确正确答案
可控性高可训练模型输出特定风格或企业定制风格
局限性只能模仿训练数据,不保证回答符合偏好或安全规则

5️⃣ 小结

  • SFT 是 直接用人类示范教模型做题

  • 训练方法是 标准监督学习,用交叉熵损失优化

  • 训练结果是 一个基础能力模型,能按照指令生成合理回答,但不一定符合人类偏好或价值观


5.2 RL(Reinforcement Learning,强化学习)

1️⃣ RL 的基本概念

强化学习核心思想:

智能体(Agent)在环境中试错,通过奖励信号学习如何行动,从而最大化长期收益。

对应要素:

元素大模型对应
Agent(智能体)模型(Policy Model)
State(状态)当前输入/上下文
Action(动作)模型生成的下一个 token 或回答
Reward(奖励)奖励函数评估输出质量
Environment(环境)任务或生成场景

2️⃣ RL 的训练循环

强化学习训练是一个循环过程,不同于一次性监督学习。流程如下:

初始化策略模型 π(Policy Model)
循环:1. 根据策略 π 生成动作 A(模型生成回答)2. 在环境中执行 A3. 获得奖励 R(Reward Model 打分或自定义奖励函数)4. 更新策略 π,使高奖励动作的概率增加

核心:试 → 得分 → 调整 → 再试,重复多次。


3️⃣ RL 在大模型中的应用(RLHF)

对于语言模型,RLHF 就是用 RL 的形式,让模型“输出更符合人类偏好”。

训练流程:

步骤 1:SFT 初始化模型

  • 先用监督学习(SFT)让模型有基础回答能力。

  • 因为 RLHF 直接训练一个未调教的模型会很难稳定。

步骤 2:训练奖励模型(Reward Model)

  • 人类打分(或偏好对)训练一个模型,能给每个回答打分。

  • 例如:

Prompt

回答A

回答B

人类偏好

写一首诗

诗A

诗B

喜欢B

  • 奖励模型 RM 学会预测哪个回答更受偏好。

步骤 3:用 RL 优化主模型(Policy Model)

  • 主模型生成回答 → 奖励模型评分 → 根据奖励更新模型参数

  • 通常用 PPO(Proximal Policy Optimization) 这种算法:

    • 防止一次更新过大破坏模型原能力

    • 保证训练稳定


4️⃣ RLHF 训练循环图示

         ┌───────────┐│   Prompt  │└─────┬─────┘▼┌─────────────┐│ Policy Model│ ←— 被更新└─────┬───────┘▼ 生成回答┌───────────┐│   Answer  │└─────┬─────┘▼┌────────────────┐│ Reward Model RM│ → 给奖励└────────────────┘▼用 PPO 更新 Policy Model

5️⃣ RL 与 SFT 的区别

特点SFTRL(RLHF)
样本来源人类示范模型自己生成(再评估奖励)
学习信号正确答案奖励分数(偏好/价值)
训练目标模仿示范最大化奖励
风险过拟合模型漂移、不稳定
优势稳定、简单对齐人类偏好,输出更安全/合规

✅ 总结一句话

RL训练就是让模型不断生成回答 → 得到奖励 → 更新策略 → 输出更优的回答。

SFT 教会模型“会回答”,RL(RLHF)教模型“回答得更好、更符合人类偏好”。


六、总结

  • SFT(Supervised Fine-Tuning)

    • 类型:监督学习

    • 训练信号:标准答案(人类示范)

    • 目标:让模型学会“会回答”“按示范输出”

    • 特点:稳定、简单,但不能保证输出符合偏好或安全规则

  • RL / RLHF / PPO / DPO

    • 类型:强化学习(或偏好优化)

    • 训练信号:奖励信号(R)、人类偏好对

    • 目标:让模型输出更符合人类偏好、更安全、风格更合适

    • 特点:试错优化,有探索性,可能不稳定,需要技巧(PPO)

▲层次关系

┌─────────────┐
│   监督学习   │ ← SFT
│(模仿示范)  │
└─────────────┘│▼
┌─────────────┐
│ 强化学习 / RL│ ← RLHF
│ (奖励驱动) │
└─────────────┘┌──────────────┐│ PPO / DPO    │ ← RLHF训练方法│ (优化算法)    │└──────────────┘
  • SFT:教模型基础能力 → “会说话”

  • RLHF(用PPO):让模型“会说得更好、更符合偏好”

  • DPO:RLHF 的简化版本 → “直接学偏好,无需RL/PPO”

✅ 核心理解

  • SFT = 监督学习(模仿人类示范)

  • RL / RLHF = 强化学习(用奖励或偏好优化输出)

  • PPO / DPO = 强化学习的训练方法(PPO 稳定RLHF,DPO轻量替代RLHF)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1215143.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026年塑石假山修建优质厂家推荐指南

2026年塑石假山修建优质厂家推荐指南一、文旅景观行业背景与假山配套需求洞察据《2025-2030年中国文旅景观行业发展白皮书》数据显示,2025年国内文旅项目中,景观配套民宿的需求同比增长37.2%,其中塑石假山作为兼具功…

闲置携程任我行礼品卡回收变现,认准京顺回收

在消费场景日益多元的当下,礼品卡作为便捷赠礼方式广泛流行,可大量闲置礼品卡因长期未激活,造成了资源浪费。第三方数据机构调研显示,我国每年闲置礼品卡市场规模超千亿元,旅游类礼品卡占比达23%,“沉睡”的携程…

FastAPI系列(08):form表单数据

本系列汇总,请查看这里:https://www.cnblogs.com/uncleyong/p/19503695 form表单数据 Form组件是fastapi里的 FastAPI可以使用Form组件来接收表单数据,需要先使用pip install python-multipart命令进行安装 安装:…

富强

1.11 #3305. LCS 8 考虑求 LCS 的朴素 dp,\(f_{i,j}\),放到平面上,发现大多数时候都是 \(f_{i,j}\to f_{i+1,j+1}\) 的转移才合法,于是可以发现一行中只有 \((i,i)\) 周围的 \(2K\) 个和他自己的 \(f\) 值是有用的…

多无人机协同侦查、任务分配与智能决策仿真解决方案

一、核心架构设计 多无人机协同系统需整合任务分配、路径规划、协同控制与智能决策四大模块,形成“感知-决策-执行”闭环。整体架构如下: 感知层(传感器/侦察数据)→ 任务分配层(优化算法)→ 路径规划层(避障/协…

民主

1.18 AT_arc184_b [ARC184B] 123 Set 原问题难以直接 dp,经典的,考虑构造一个杨表: \[\begin{matrix} a& 2a& 4a & 8a& {16a}\\ 3a& 6a& 12a & {24a}\\ 9a& {18a} & {36a}\\ …

2025年度盘点:这些板材货架厂家正在引领市场,驶入式货架/重型模具货架/手摇式板材货架,板材货架厂商口碑推荐

随着制造业智能化升级加速,仓储环节的效率与空间利用率成为企业降本增效的关键。板材货架作为重型货物存储的核心设备,其技术迭代与定制化能力直接影响生产流程的流畅性。然而,当前市场存在产品同质化严重、非标需求…

导师严选2026 AI论文工具TOP8:本科生毕业论文全场景测评

导师严选2026 AI论文工具TOP8:本科生毕业论文全场景测评 2026年AI论文工具测评:为何选择这些工具? 随着人工智能技术的不断进步,越来越多的本科生开始借助AI工具辅助论文写作。然而,面对市场上五花八门的论文辅助软件…

面试-Decoder-Only生成模型

1 背景 Decoder-Only 模型(如 GPT 系列、Llama)的工作原理是 “根据上下文预测下一个字” 。这种 “递归”的特性导致了必须将推理过程拆分为两个截然不同的阶段。 输入: 整个历史序列。 输出: 下一个 Token。 循环: 预测出的 Token 会被拼接到输入中,作为下一次计算的…

【毕业设计】基于springboot的人脸识别员工考勤管理系统(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

亲测好用!继续教育TOP8一键生成论文工具测评

亲测好用!继续教育TOP8一键生成论文工具测评 2026年继续教育论文工具测评:为何需要这份权威榜单? 在当前继续教育领域,论文写作已成为许多学员必须面对的挑战。无论是选题构思、文献检索,还是内容撰写与格式调整&#…

改变人生的方式

我们会列出很多新年计划,告诉自己今年要干什么,到达到设么目标,这没什么,有上进心的人都会这么做。但绝大多数人都会放弃——研究显示,失败率在 80%–90% 之间。原因并不是他们“不够努力”,而是&#xff1…

FastAPI系列(07):请求体数据

本系列汇总,请查看这里:https://www.cnblogs.com/uncleyong/p/19503695 官网 https://fastapi.tiangolo.com/tutorial/body/ 下面用到的是pydantic模块from pydantic import BaseModel, Field, field_validator 请求…

别只盯着那只“鹦鹉”了!Claude3.7与Sora2才是真正的生产力怪兽

在AI圈子里混久了 你会发现一个怪象 大家都只知道那个G开头的模型 其实在很多专业领域 真正的王者早就换人了 比如写代码和长文本分析 Claude系列才是永远的神 它的逻辑推理能力 简直像是一个严谨的大学教授 而不仅仅是一个会聊天的机器人 还有最近火出圈的Sora2 以…

2026链条直销厂家榜:获取优质厂家联系方式,链条/非标链条/不锈钢链条/工业链条,链条源头厂家推荐排行

在全球工业链加速重构的背景下,链条作为机械传动与输送的核心部件,其质量稳定性直接影响设备运行效率与寿命。据中国机械通用零部件工业协会数据显示,2024年我国链条市场规模突破320亿元,年复合增长率达6.8%,但行…

Agent Skill:新一代 AI 设计模式的原理、实践与 MCP 协同应用解析

目录 前言1. Agent Skill 的概念与发展背景1.1 什么是 Agent Skill1.2 Agent Skill 的产生背景 2. Agent Skill 的核心功能与价值2.1 教会模型“如何做”,而不仅是“做什么”2.2 按需加载与条件触发机制2.3 跨平台复用与开放标准 3. Agent Skill 的技术结构设计3.1 …

Git行尾符战争:如何彻底解决CRLF与LF的跨平台噩梦

目录 前言1 问题现象:那些令人困惑的Git警告1.1 典型的警告信息1.2 相关错误现象 2 问题本质:CRLF与LF的历史渊源2.1 技术背景解析2.2 Git的智能处理机制2.3 核心配置参数:core.autocrlf 3 根本原因:为什么会出现这个问题&#xf…

hot100 230.二叉搜索树中第K小的元素

思路:中序遍历。在二叉搜索树中,中序遍历的遍历顺序就是在从小到大遍历节点值,所以遍历到的第k个节点值就是答案。每次递归完左子树,在根节点的操作中,把k减少1,表示按照中序遍历的顺序访问到了一个节点。当…

hot100 199.二叉树的右视图

见代码随想录 199.二叉树的右视图

hot100 108.将有序数组转换为二叉搜索树

见代码随想录 108.将有序数组转换为二叉搜索树