DeepSeek基础:PPO、DPO、GRPO概念详解

DeepSeek-R1 的强化学习方案中,其亮点之一在于通过 GRPO 算法取代RLHF 常用的 PPO,通过尽可能减少人类标注数据,设计纯 RL 的环境,用精心设计的奖励机制来训练模型自己学会推理。那么什么是PPO、GRPO,其产生的背景、核心思想和应用场景又有哪些?本文将从以下方面介绍:

\1. 强化学习基础

\2. PPO、DPO、GRPO深度解析

\3. 总结与应用建议

*一、强化学习基础*

1. 什么是强化学习?

定义:强化学习(Reinforcement Learning, RL)是机器学习的一个分支,其核心是通过与环境(Environment)的交互学习最优决策策略。通过试错获得反馈(奖励或惩罚),最终目标是最大化累积奖励。

类比:类似于训练小狗完成动作——做对了给零食(正奖励),做错了不鼓励(负奖励),最终小狗学会“坐下”或“握手”。

最近两年,大家都可以看到AI的发展有多快,我国超10亿参数的大模型,在短短一年之内,已经超过了100个,现在还在不断的发掘中,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?

与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,整体AI领域2025年预计缺口1000万人,其中算法、工程应用类人才需求最为紧迫!

学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】

【2025最新】AI大模型全套学习籽料(可白嫖):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!

2. 强化学习的产生背景

起源:1950年代控制论与心理学研究的结合,早期应用于机器人路径规划、游戏AI等。

核心需求解决序列决策问题(Sequential Decision Making),即在多步决策中平衡短期与长期收益。

爆发点:2016年AlphaGo击败李世石,强化学习成为AI领域的热点技术。

3. 强化学习核心要素

在这里插入图片描述

5. RLHF(基于人类反馈的强化学习)

类比:AI的“家教辅导班”

想象你在教一个孩子学画画,但无法直接用分数评价每幅画的好坏(传统奖励函数设计困难)。于是你请了一位美术老师(人类),对孩子的画作进行点评(反馈),告诉TA哪些线条更优美、哪些配色需要改进。

RLHF的核心思想**:**通过人类的主观反馈替代或修正环境奖励,让AI更符合人类价值观。
在这里插入图片描述

通过RLHF,AI不仅能完成目标任务,还能理解人类的主观意图和价值观。这是DPO、PPO、GRPO等技术的重要应用场景之一。

*二、PPO、DPO、GRPO深度解析*

1. PPO(近端策略优化)

类比:健身教练的“安全训练计划”

想象你是一名健身教练,学员要通过不断调整训练动作来增强肌肉(最大化奖励)。但直接让学员每天大幅增加训练量(策略突变),可能会导致受伤(训练崩溃)。

PPO的核心思想**:**制定一个“安全范围”,让学员每次训练量只能小幅调整,确保稳定进步。

核心原理详解
*(1)* 策略梯度(Policy Gradient)
**基础思想:**根据动作的“好坏”(优势函数)调整策略。比如,某个动作让学员举得更重(高奖励),就多鼓励这个动作。
问题:如果学员突然尝试过重的动作(策略突变),可能导致肌肉拉伤(训练崩溃)。
*(2)* *PPO的改进——Clip机制**:*
“安全阈值”:规定每次训练量变化不超过±20%(类比Clip阈值ε=0.2)。
(3) 价值网络(Critic)的作用
类似于“体能评估师”,预测某个训练动作的长期效果(状态价值)。
帮助计算优势函数At:当前动作比平均动作好多少(例如举12kg比举10kg多带来20%的效果增益)。
优缺点总结
优点**:**稳定可控,适合复杂任务(如机器人学走路、游戏AI打Boss)。
缺点**:**需依赖“体能评估师”(Critic网络)和大量训练数据,计算成本高。
实际应用
ChatGPT的微调:用PPO结合人类反馈的奖励模型,让模型生成更自然的回答。

2. DPO(直接偏好优化)

类比:学生通过“老师批改”直接改进答案

假设学生写作文,老师不会直接给分数(奖励模型),而是标注“这段写得好,那段需要删掉”(偏好数据对)。学生通过对比好答案和差答案,直接改进写作策略。

DPO的核心思想**:**跳过“评分标准”(奖励模型),直接用老师的批注优化作文。

核心原理详解
(1) 传统RLHF的缺陷
传统方法:先让老师制定评分标准(训练奖励模型),再让学生按标准优化(PPO)。流程复杂,容易出错。
DPO的简化:直接告诉学生“答案A比答案B好”,无需解释为什么。
(2) 损失函数解析
LDPO=−logσ(β(logπ**θ(y**wx)−logπ**θ(y**lx)))
(3) 工作原理
输入数据:标注的偏好对(如“答案A逻辑清晰,答案B跑题”)。
优化目标:让模型对好答案y**w的概率显著高于差答案y**l
优缺点总结
优点**:**无需训练奖励模型,显存占用低,适合快速微调(如让ChatGPT生成更友善的回答)。
缺点**:**依赖高质量偏好数据(若老师批改不准确,学生可能学偏)。
实际应用
对话模型对齐**:让AI拒绝回答有害问题(如“如何制造炸弹?”)。 **
*文本摘要优化***:**根据用户点击数据(偏好信号),生成更吸引人的摘要。

3. GRPO(组相对策略优化)

类比:“选秀比赛”中的组内PK

假设综艺节目选拔歌手,导演让同一组选手唱同一首歌(生成多候选),根据组内表现(奖励)决定晋级和淘汰。

GRPO的核心思想**:**通过组内比较(而非绝对评分)优化策略,节省评委(Critic网络)的成本。

核心原理详解
(1) 组内相对奖励
多候选生成:同一问题生成多个答案(如5种解题思路)。
奖励归一化:将组内答案的奖励转换为标准分(例如:某答案比组内平均分高1个标准差,则优势显著)。
公式示例:
img

(2) 省略Critic网络

传统PPO需要评委(Critic)预测每个答案的得分,GRPO直接通过组内PK动态计算优势,节省显存。

(3) 稳定性控制

KL散度惩罚**:**防止新策略与旧策略差异过大(如选手突然改变唱法,导致观众不适应)。

剪切机制**:**限制策略更新幅度(类似PPO的Clip)。

优缺点总结
优点**:**显存占用降低50%,适合资源受限场景(如手机端模型训练);多候选生成增强多样性(如探索不同解题思路)。
缺点**:**推理时需生成多个候选答案,耗时增加。
实际应用
数学推理**:**DeepSeek-R1模型在GSM8K数学题上,通过多答案PK提升准确率至51.7%。
代码生成**:**生成多种代码实现,选择最简洁高效的版本。

三、总结与应用建议

1. 核心对比
在这里插入图片描述

2. 应用建议

PPO:需与环境交互或依赖奖励模型的复杂任务(如机器人控制)。

DPO:拥有高质量偏好数据且需快速微调语言模型的任务(如对话生成)。

GRPO:显存受限或需增强多样性的任务(如数学推理、代码生成)。

最近两年,大家都可以看到AI的发展有多快,我国超10亿参数的大模型,在短短一年之内,已经超过了100个,现在还在不断的发掘中,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?

与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,整体AI领域2025年预计缺口1000万人,其中算法、工程应用类人才需求最为紧迫!

学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】

【2025最新】AI大模型全套学习籽料(可白嫖):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/905848.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一分钟了解机器学习

一分钟了解机器学习 A Minute to Know About Machine Learning By JacksonML 1. 什么是机器学习? 机器学习(Machine Learning,ML) 是人工智能的分支,通过从数据中自动学习规律,使计算机无需显式编程即可完成任务。…

mvc-service引入

什么是业务层 1)Model1(JSP)和Model2(模糊的mvc): MVC:Model(模型),View(视图),Controller(控制器) 视图层:用于数据展示以及用户交互的界…

第一次做逆向

题目来源:ctf.show 1、下载附件,发现一个exe和一个txt文件 看看病毒加没加壳,发现没加那就直接放IDA 放到IDA找到main主函数,按F5反编译工具就把他还原成类似C语言的代码 然后我们看逻辑,将flag.txt文件的内容进行加…

docker(四)使用篇二:docker 镜像

在上一章中,我们介绍了 docker 镜像仓库,本文就来介绍 docker 镜像。 一、什么是镜像 docker 镜像本质上是一个 read-only 只读文件, 这个文件包含了文件系统、源码、库文件、依赖、工具等一些运行 application 所必须的文件。 我们可以把…

k8s 1.10.26 一次containerd失败引发kubectl不可用问题

k8s 1.10.26 一次containerd失败引发kubectl不可用问题 开机k8s 1.10.26时,报以下错误 [rootmaster ~]# kubectl get no E0515 08:03:00.914894 7993 memcache.go:265] couldnt get current server API group list: Get "https://192.168.80.50:6443/api?…

今日积累:若依框架配置QQ邮箱,来发邮件,注册账号使用

QQ邮箱SMTP服务器设置 首先,我们需要了解QQ邮箱的SMTP服务器地址。对于QQ邮箱,SMTP服务器地址通常是smtp.qq.com。这个地址适用于所有使用QQ邮箱发送邮件的客户端。 QQ邮箱SMTP端口设置 QQ邮箱提供了两种加密方式:SSL和STARTTLS。根据您选…

无缝部署您的应用程序:将 Jenkins Pipelines 与 ArgoCD 集成

在 DevOps 领域,自动化是主要目标之一。这包括自动化软件部署方式。与其依赖某人在部署软件的机器上进行 rsync/FTP/编写软件,不如使用 CI/CD 的概念。 CI,即持续集成,是通过代码提交创建工件的步骤。这可以是 Docker 镜像&#…

4.2.3 Thymeleaf标准表达式 - 5. 片段表达式

在本次实战中,我们通过 Thymeleaf 的片段表达式实现了模板的模块化和复用。首先,我们定义了一个导航栏片段 navbar,并通过参数 activeTab 动态高亮当前激活的标签。然后,我们在多个页面(如主页、关于页和联系页&#x…

网安面试经(1)

1.说说IPsec VPN 答:IPsec VPN是利用IPsec协议构建的安全虚拟网络。它通过加密技术,在公共网络中创建加密隧道,确保数据传输的保密性、完整性和真实性。常用于企业分支互联和远程办公,能有效防范数据泄露与篡改,但部署…

【C++/Qt shared_ptr 与 线程池】合作使用案例

以下是一个结合 std::shared_ptr 和 Qt 线程池(QThreadPool)的完整案例,展示了如何在多线程任务中安全管理资源,避免内存泄漏。 案例场景 任务目标:在后台线程中处理一个耗时的图像检测任务,任务对象通过 …

【Unity】 HTFramework框架(六十五)ScrollList滚动数据列表

更新日期:2025年5月16日。 Github 仓库:https://github.com/SaiTingHu/HTFramework Gitee 仓库:https://gitee.com/SaiTingHu/HTFramework 索引 一、ScrollList滚动数据列表二、使用ScrollList1.快捷创建ScrollList2.ScrollList的属性3.自定义…

经典案例 | 筑基与跃升:解码制造企业产供销协同难题

引言 制造企业如何在投产初期突破管理瓶颈,实现高效运营?G公司作为某大型集团的新建子公司,面对产供销流程缺失、跨部门协同低效等难题,选择与AMT企源合作开展流程优化。 项目通过端到端流程体系搭建、标准化操作规范制定及长效管…

【Python 操作 MySQL 数据库】

在 Python 中操作 MySQL 数据库主要通过 pymysql 或 mysql-connector-python 库实现。以下是完整的技术指南,包含连接管理、CRUD 操作和最佳实践: 一、环境准备 1. 安装驱动库 pip install pymysql # 推荐(纯Python实现&#xff0…

记录vsCode连接gitee并实现项目拉取和上传

标题 在 VSCode 中上传代码到 Gitee 仓库 要在 VSCode 中将代码上传到 Gitee (码云) 仓库,你可以按照以下步骤操作: 准备工作 确保已安装 Git确保已安装 VSCode拥有 Gitee 账号并创建了仓库 可以参考该文章的部分:idea实现与gitee连接 操…

【信息系统项目管理师】第6章:项目管理概论 - 31个经典题目及详解

更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 第一节 PMBOK的发展【第1题】【第2题】【第3题】【第4题】【第5题】【第6题】第二节 项目基本要素【第1题】【第2题】【第3题】【第4题】【第5题】【第6题】【第7题】【第8题】【第9题】【第10题】第三节 项目经…

简单介绍C++中线性代数运算库Eigen

Eigen 是一个高性能的 C 模板库,专注于线性代数、矩阵和向量运算,广泛应用于科学计算、机器学习和计算机视觉等领域。以下是对 Eigen 库的详细介绍: 1. 概述 核心功能:支持矩阵、向量运算,包括基本算术、矩阵分解&…

生产级编排AI工作流套件:Flyte全面使用指南 — Core concepts Launch plans

生产级编排AI工作流套件:Flyte全面使用指南 — Core concepts Launch plans Flyte 是一个开源编排器,用于构建生产级数据和机器学习流水线。它以 Kubernetes 作为底层平台,注重可扩展性和可重复性。借助 Flyte,用户团队可以使用 P…

Python 之类型注解

类型注解允许开发者显式地声明变量、函数参数和返回值的类型。但是加不加注解对于程序的运行没任何影响(是非强制的,且类型注解不影响运行时行为),属于 有了挺好,没有也行。但是大型项目按照规范添加注解的话&#xff…

rocketmq并发消费

netty的handler 在netty的网络模型中,在想bootstrap设置handler时, 都是在等待 事件 的到来,才会被调用的方法,都是被动的, 服务端等待 request 的到来,进行read, 然后主动调用writeAndFlush写出去。 客户…

React 播客专栏 Vol.9|React + TypeScript 项目该怎么起步?从 CRA 到配置全流程

👋 欢迎回到《前端达人 React 播客书单》第 9 期(正文内容为学习笔记摘要,音频内容是详细的解读,方便你理解),请点击下方收听 你是不是常在网上看到 .tsx 项目、Babel、Webpack、tsconfig、Vite、CRA、ESL…