原文链接:https://mp.weixin.qq.com/s/cx3qY42Lp0L3RaSOgsH77A
1. 强化学习基本概念
强化学习(Reinforcement Learning, RL)作为机器学习的重要分支,目标是让智能体(agent)与环境(environment)不断交互,学习任意环境状态下的最优行为策略(policy),最终实现期望累积回报(cumulative reward)的最大化。形式上,可通过价值函数(Value Function)或动作价值函数(Q 函数)迭代优化达成最大化累积回报。
为了更好的说明什么是强化学习,以训练小狗学会坐下举例,当小狗听到主人"坐下" 的命令后坐下,小狗可以执行的动作是"坐下"、"地上打滚"、"奔跑"。如果小狗做对了,主任就给小狗骨头作为奖励,若小狗不执行"坐下",没有奖励。 这个过程中,智能体(小狗)通过与环境(人和骨头)进行动作(小狗的动作"坐下"、"地上打滚"、"奔跑")交互,不断尝试得到反馈(有骨头或没有骨头),最终完成强化学习过程,即听到主人"坐下"口令时执行坐下动作。

1.1 强化学习中的关键要素
-
智能体(agent):行动的 "主角"
完成某个特定任务的 "学习者" 或 "执行者",可主动完成特定动作、接受环境反馈,核心任务是 "学会做对的事",比如想学会走迷宫的机器人、玩游戏的 AI 角色。
-
环境(environment):智能体所处的 "世界"
智能体活动的场景,比如迷宫的布局、游戏的地图、城市的交通网络;环境会对智能体的执行动作作出回应,比如机器人碰到墙壁(环境反馈 "撞墙了")、AI 角色打赢敌人(环境反馈 "过关了")。
-
状态 (State)\(s \in S\) : 决策的 "依据来源"
智能体在某一时刻对所处环境的 "快照",是它做决策的核心依据,智能体不会凭空做动作,全靠 “状态” 判断局势。比如小狗学坐下过程,状态是 "听到主人命令 / 没听到命令"、"当前站立 / 已坐下"。
-
动作 (Action) \(a \in A\):决策的 "执行输出"
智能体可以采取的操作,如走一步棋或机器人移动一个关节角度,在小狗学坐下过程中,动作为"坐下"、"地上打滚"、"奔跑"。
-
行为策略(policy)\(\pi_\theta\) :智能体的 "行动准则"
智能体的 "行为习惯" 或 "决策逻辑",比如 "遇到岔路就走左边"、 "敌人靠近就反击"。策略会随着学习不断优化,从 "瞎蒙乱猜" 慢慢变成 "精准决策"。策略分成两种:确定性策略和随机性策略。我们用 \(\theta\) 表示策略的参数。
- 确定性策略: \(a_t = \mu_\theta(s_t)\),智能体在状态 \(s_t\)下,确定地执行 \(a_t\)。
- 随机性策略: \(a_t \sim \pi_\theta(.|s_t)\),智能体在 \(s_t\)下,其可能执行的动作服从概率分布 \(\pi_\theta(.|s_t)\) 。也就是此时智能体是以一定概率执行某个动作 \(a_t\)。
-
折扣因子(Discount Factor)\(\gamma\):用于平衡当前奖励和未来奖励的重要性,数值通常在 (0, 1] 之间。
-
奖励(Reward): 环境的 "反馈信号"
奖励由当前状态、已经执行的行动和下一步的状态共同决定。
- 单步奖励: \(r_t = R(s_t, a_t, s_{t+1})\),奖励和策略 \(\pi_\theta\)无关,用于评估当前动作的好坏,指导智能体的动作选择。
- T步累积奖励: \(R(\tau)= \sum_{t=0}^{t=T-1} r_t\)。T步累积奖励等于一条运动轨迹的单步奖励的累加。
- 折扣奖励: \(R(\tau)= \sum_{t=0}^{\infty} r_t\),这里 \(\gamma \in (0, 1)\),衡量短期与长期奖励的重要性, 越接近 1,越重视未来奖励。
这里的单步激励 \(r_t\) 属于即时激励,T步累积奖励和折扣奖励属于累积回报。
-
累积回报(cumulative reward)\(R(\tau)\):智能体的 "得分目标"
环境给智能体的 "奖惩信号",比如游戏里的分数、完成任务的奖金。"累积" 意味着关注长期收益最大化 ,如通关获得的所有金币或奖金。
-
轨迹(Trajectory)\(\tau\) :智能体与环境交互的 "历程记录"
在强化学习中,智能体从环境的初始状态 \(s_0\) 开始,与环境交互直至到达终止状态得到的state、action和reward序列,构成了一条完整的运行轨迹,也被称为episodes或者rollouts。数学表达式为\(\tau = (s_0, a_0, r_0, ..., s_{T-1}, a_{T-1}, r_{T-1})\) 其中, T 表示回合(Episode)结束的时间步。在某些不定长的任务中,可能是一个随机值。
-
状态转移 \(s_{t+1} \sim P(.|s_t, a_t)\): 智能体与环境互动的 "动态轨迹"
从当前状态 \(s_t\) 采取动作 \(a_t\) 后,会以一定的概率转移到下一个状态 \(s_{t+1}\),即 \(s_{t+1} \sim P(.|s_t, a_t)\)。
-
价值函数(Value Function)与动作价值函数(Q 函数):智能体的 "决策参考表 "
作为智能体判断 “是否执行某个动作” 的参考依据,以量化的形式给出"某个状态或动作好不好",详细内容见下文。
- 价值函数:评估"当前状态有多好",比如 "在迷宫的这个位置,距离出口还有多近"。
- 动作价值函数(Q 函数):评估 "在当前状态下,做某个动作有多划算",比如 "现在走左边能拿到 10 分,走右边只能拿 2 分"。
1.2 强化学习的优化目标
智能体的目标是最大化初始状态的期望累计奖励:
各个字符定义如下:
-
\(R(\tau)\)、\(\pi_\theta\) ****、\(\tau\) 的含义已在 【强化学习中的关键要素】小节介绍
-
\(P(\tau | {\pi_\theta})\): 在 \(\pi_\theta\) 策略下,产出轨迹 \(\tau\) 的概率,似然表示为
![image]()
-
\(\tau \sim \pi_\theta\): 表示轨迹 \(\tau\) 是在策略 \(\pi_\theta\) ****策略下产生的,具体的含义如下
- 随机性策略: \(a_t \sim \pi_\theta(.|s_t)\)
- 智能体的环境状态所服从的分布: \(s_0 \sim \rho_0(.)\)
- 状态转移服从的分布: \(s_{t+1} \sim P(.|s_t, a_t)\)
- 单步奖励: \(r_t = R(s_t, a_t, s_{t+1})\)
\(J({\pi_\theta})\)表示累积回报期望,并非某个具体的回报值。这是因为策略 \(\pi_\theta(.|s_t)\)和状态转移 \(s_{t+1} \sim P(.|s_t, a_t)\) 具有随机性,即对于某个固定策略,让其与环境多次交互,每次获得的轨迹序列会不同,所以 \(R(\tau)\) 也会是个随机变量,因此采用期望的形式表示。简言之,在足够采集样本下,对某个策略的评测结果才更加真实、可靠,参见公式下文中的(10)。
对于 \(argmax_{\pi_\theta} J({\pi_\theta})\) 的梯度计算如下
其中,公式(2)~(3)行,由于 \(\nabla log(f(x)) = \frac {df(x)} {f(x)}\)
将 \(P(\tau | {\pi_\theta})\) 的似然表示带入 \(\nabla J({\pi_\theta}\) 公式中, 如下
被删除的两项与所求的策略梯度无关,最终的策略梯度为
对公式(8)的直观理解,当某条轨迹的累积期望 \(R(\tau)\) 越高,动作 \(a_t\) 贡献的梯度应该越多,即 \(a_t\) 被认为是一个好动作,应该提升 \(\pi_\theta(a_t|s_t)\) 执行的概率。
如本小节开头所说,实际应用中我们会采样多条轨迹保证累积回报期望的真实可靠,假设采样了N条轨迹,每条轨迹的时间步数为 \(T_n\),对应的优化目标函数为
对应的梯度函数为
1.3 价值函数
公式(11)和(12)是用整条轨迹的累积回报 \(R(\tau)\) 去衡量单步动作 \(\pi_\theta(a_|s_t)\) 的贡献,其合理性值得进一步探讨,比如
- 一条轨迹累积回报很高,并不能代表轨迹中的每一个动作都是最优的。
- 不能完全忽视轨迹的最终回报,因为最终的优化目标是让轨迹回报最优。
- 需要的是一种能够平衡【单步回报】和【轨迹整体回报】的价值函数形式,
因此,各种其他形式的价值衡量函数便产生了,如下

本文主要讨论PPO算法,重点关注动作价值函数 \(Q^\pi(s_t, a_t)\)、优势函数 \(A^\pi(s_t, a_t)\)、状态价值的TD error \(r_t + V^\pi(s_{t+1}) - V^\pi(s_t)\),我们先对其中 \(Q^\pi(s_t, a_t)\)、\(V^\pi(s_t)\)做介绍。注意,这里 \(G_t\) 采用【累积折扣奖励】来定义单步(也就是某个t时刻)的回报,而非 \(R(\tau)\),两者的区别在于计算累积回报的起始时刻不同, \(G_t\) 是从t时刻开始, \(R(\tau)\) 从0时刻开始。 定义为\(G_t = r_t + \gamma r_{t+1} + ... + \gamma^{T-t-1} r_t\)
(1)状态值函数 (Value Function)
表示从状态 \(s_t\) 开始,按策略 \(\pi\) 执行后,期望能够获得的累计奖励。以训练小狗学会坐下举例,公式(13)的意思为小狗光是听到"坐下"这个指令,平均能拿到多少骨头。假设小狗一共练过 100 次坐下命令,不管它做什么动作("坐下"、"地上打滚"、"奔跑"),最终平均可以得到 0.6 个骨头(有时给 1 个,有时不给),用状态价值函数表示即 \(V("坐下")=0.6\)。这就像一个躺平狗生小狗的命运,完全不遵从主人的指令,能够得到多少骨头。
对公式(13)展开,以便更好理解 \(V^\pi(s_t)\) 的计算过程
(2)动作价值函数 (Q Function)
表示对于策略 \(\pi\),在状态 \(s_t\) 选择动作 \(a_t\) 后,期望获得的累计奖励。小狗可以会各种动作,例如"坐下"、"地上打滚"、"奔跑"。动作价值函数的含义就是,在接收到"坐下"这个指令后,如果小狗选了"坐下"、"地上打滚"、"奔跑"中的某个动作,平均能拿到多少骨头。举例说明如下,
- \(a_1 = 坐下,Q("坐下","坐下")=0.9\),小狗在听到这个指令后,主人会给它最爱吃的骨头,随着训练次数的增加,小狗会逐渐学会这个动作
- \(a_2 = 地上打滚,Q("坐下","地上打滚")=0.1\),主人看到小狗地上打滚,可能会置之不理。
- \(a_3 = 奔跑,Q("坐下","奔跑")=0.05\),可能最近对主人有所不满,听到主人的声音就想逃离。
同样的,对公式(22)进行展开
(3)动作价值函数和状态价值函数的关系
由状态价值函数的公式
及动作价值函数的公式
可得两者得关系
从公式(30)和(31)可得出一个直观的结论:状态价值函数 \(V^\pi(s_t)\) 是动作价值函数的期望。
(4)优势函数 (Advantage)
本小节,我们将按照为什么会有优势函数、优势函数的定义与理解、优势函数与 TD error的关系这个思路来介绍。
-
为什么会有优势函数
假设在某次采样中,通过\(Q^\pi(s_t, a_t)\)、\(V^\pi(s_t)\)这类价值函数所估计的t时刻累积奖励很高,并非意味着策略 \(\pi_\theta(a_t|s_t)\) 所选择的动作 \(a_t\) 一定是最优的,并没有体现比其他动作价值大多少,一种合适的方式,采用当前动作 \(a_t\) 比其他动作好多少这样的相对概念。我们可以计算【执行动作\(a_t\) 的价值 - 执行其他工作的价值】,作为衡量在状态 \(s_t\)下,执行动作\(a_t\) 比其他动作好多少。这个差值即为"优势"(advantage),"优势"越大时,说明动作\(a_t\) 比其他动作更好,需要提升这个动作的概率 \(\pi_\theta(a_t|s_t)\)。
-
优势函数的定义与理解
公式(32)衡量在状态 \(s_t\)下执行动作 \(a_t\) 比当前策略平均水平 \(V^\pi(s)\) 好多少。它衡量"在当前状态下,做这个动作比随便玩玩(按策略平均)多赚多少骨头"。
我们仍以训练小狗坐下为例,\(V("坐下")=0.6\)表示在"坐下"这个场景下,执行所有动作的平均累积激励,对于"坐下"这个动作,价值为 \(Q("坐下","坐下")=0.9\),优势值为\(A("坐下","坐下")=Q("坐下","坐下") - V("坐下") = 0.9 -0.6 = 0.3\),比平均水平多0.3个骨头,对于"地上打滚",\(A("坐下","地上打滚")=Q("坐下","地上打滚") - V("坐下") = 0.1 -0.6 = -0.5\),对于"奔跑",\(A("坐下","奔跑")=Q("坐下","奔跑") - V("坐下") = 0.05 -0.6 = -0.55\)。因此,小狗为了获取更多的骨头,自然会选择优势更大的动作去执行。
- 优势函数与TD error的关系
在前面的推导中有
对于\(V^\pi(s_t)\) ,可以重新改写成:
\(V^\pi(s_t) = E_{s_{t+1} \sim P(.|s_t, a_t)}[ V_{\pi}(s_{t})]\)
之所以这样改写,是因为\(V^\pi(s_t)\)只依赖于这个确定的 \(s_t\) ,而与 \(s_{t+1}\) 无关。
根据上面两个式子,优势函数的表达式可以写成:
在开始PPO之前,先简单PPO算法的基础——Actor-Critic算法,
2. Actor-Critic
2.1 定义
Actor-Critic 算法是一种结合了策略梯度(Actor)和价值函数(Critic)的混合算法,核心是用 Critic 评估 Actor 的行为,指导其优化策略。
- Actor(执行者):负责输出动作策略,比如给定状态时选择哪个动作。
- Critic(评论家):负责评估 Actor 动作的好坏,可以是图1中任意 \(\Psi_t\),比如计算动作价值函数 \(Q^\pi(s_t, a_t)\)、优势函数 \(A^\pi(s_t, a_t)\)、状态价值函数 \(V^\pi(s_t)\)反馈。
- 两者协同:Critic 用价值函数减少策略梯度的方差,Actor 依据 Critic 的评估更新策略,提升学习效率
2.2 优势
- 策略梯度的方差问题:纯策略梯度算法方差大、收敛慢,Critic 的价值评估能提供更稳定的梯度信号。
- 时序差分(TD)误差:Critic 通常用 TD 误差(实际回报与预期价值的差值)作为评估依据,直接指导 Actor 更新。
- 双网络优势:Actor 专注 "怎么选动作",Critic 专注 "选得好不好",分工明确且互补,兼顾探索与利用。
2.3 Actor和Critic目标函数
(1)符号定义
- \(s_t\):t 时刻的状态
- \(a_t\):t 时刻选择的动作
- \(r_t\):动作 \(a_t\) 带来的即时奖励
- \(\pi_\theta(a_t|s_t)\):Actor 策略(网络参数为 θ),表示状态 \(s_t\)下选择动作 \(a_t\) 的概率
- \(V_\phi(s_t)\):Critic 价值函数(网络参数为 \(\phi\)),表示状态 \(s_t\) 的预期累积奖励,注意这里的 \(V_\phi(s_t)\) 和前文的 \(V^\pi(s_t)\) 只是形式上的差异,为了保持惯用写法。
(2)Actor优化目标
适用于任意Critic函数的目标函数
将其中的 \(\Psi_t\) 换成优势评价函数,
在后面的PPO讨论中我们将采用这种形式
(3)Critic优化目标
(4)Actor-Critic算法典型变种
- A2C(Advantage Actor-Critic):用优势函数(动作价值 - 状态价值)进一步降低方差,是基础且常用的变种。
- DDPG(深度确定性策略梯度):针对连续动作空间,用深度网络分别建模 Actor 和 Critic,加入目标网络提升稳定性。
- PPO(近端策略优化):虽不算纯 Actor-Critic,但引入价值网络(Critic)辅助策略更新,平衡探索与更新幅度。
3. PPO算法
对于公式(42)需要考虑以下问题:
- 问题1:每次执行梯度更新时,需要对 \(\pi_\theta\) 进行若干次回合采样,由于采样过程具有随机性,可能会采样到了一些方差特别大的样本,进而使得更新方向发生错误。
- 问题2:在训练过程中,用critic网络拟合的 \(V^\pi\) 不一定能准确衡量动作 \(a_t\) 价值,所以这里的优势估计函数 \(A_{\phi}(s_t, a_t)\) 是有偏的。GAE为平衡价值函数的方差和偏差提供了解决方法。
3.1 on-policy和off-policy
在强化学习中,会有on-policy 和 off-policy 的概念,判断标准在于【数据采样的策略(Policy)与学习/更新的策略是否相同】。
(1) on-policy
数据采样策略与当前正在学习/更新的策略相同。智能体执行的行为策略(Behavior Policy)就是要学习或评估的目标策略(Target Policy)。换言之,智能体在环境中如何行动,就和我们要学的那条策略完全一致。
(2) off-policy
数据采样策略与学习/评估的目标策略不必相同。用一种行为策略与环境交互,收集到的数据用来学习/更新另一种目标策略。常见做法是保留一个经验回放池(Replay Buffer),历史数据可以不断被重用(不一定是按照当前策略采样得到的)。
| 关键点 | on-policy | off-policy |
|---|---|---|
| 数据采样策略 | 与目标策略相同 | 与目标策略不同,可自行选择或混用 |
| 数据利用率 | 只能使用最近采样数据,效率较低 | 可以反复使用历史数据,效率较高 |
| 学习稳定性 | 分布一致性更好,算法分析更直接 | 数据分布差异大时,学习可能会不稳定 |
| 示例算法 | A2C/A3C、PPO 等 | Q-Learning、DQN、SAC、TD3 等 |
| 适用场景 | 中小型或交互稳定场景 | 大规模、需要高数据效率或可以使用离线数据场景 |
3.2 重要性采样
本文要介绍的PPO 本质是 on-policy(同策略) 算法,但其核心设计兼顾了部分 off-policy 数据复用的优势。既然如此,就需要考虑数据采样的策略(Policy)与学习/更新的策略不一致的问题,这就是用到重要性采样,其核心为了解决数据分布不匹配问题,让不同策略下的经验能复用。
重要性采样通过引入重要性权重,衡量旧策略(采样策略)\(\pi_{old}(a_t|s_t)\) 与新策略(目标策略)\(\pi_\theta(a_t|s_t)\) 在相同状态下选择同一行动的概率比值。用该权重对旧数据的回报进行加权,就能得到无偏的目标策略价值估计。
采用重要性采样的原因可以归结如下:
- 策略更新导致数据失效:强化学习中策略会不断迭代优化,新策略与旧策略的行动分布不同。直接用旧策略收集的数据评估新策略,会产生偏差。
- 降低采样成本:重新为每个新策略收集数据会耗费大量计算资源,重要性采样可通过权重修正,让旧数据适配新策略,提升训练效率。
- 支持离线强化学习:离线场景中无法实时与环境交互生成数据,需依赖历史数据集,重要性采样能修正数据集与目标策略的分布差异。
重要性采样是一种统计方法,用来在目标分布 \(p(x)\) 与采样分布 \(q(x)\) 不一致的情况下,调整采样结果的权重,使得从 \(q(x)\) 中采样的数据可以用于估计 \(p(x)\) 的期望。
假设我们希望计算目标分布 \(p(x)\) 下某个函数 \(f(x)\) 的期望:
如果 \(p(x)\) 很难直接采样,但可以从一个容易采样的分布 \(q(x)\) 中采样,则可以通过以下公式重写:
其中,\(\frac {p(x)}{q(x)}\) 被称为【重要性权重,Importance Weight】,上述的转换过程叫【重要性采样】。

3.3 优化目标重写
重要性采样前,策略的梯度是:
重要性采样后,策略的梯度是:
公式 (44)中的 \(\tau \sim {\pi_{old}}\) 意味着当前的训练数据是由 \({\pi_{old}}\) 策略采集来的。
但是到这步为止,我们还要在心里铭记一个问题,如何解决 和 分布差异过大的情况。我们先来看对优势函数的改进方法,然后再回来讲这个问题的解决办法。
3.4 GAE
在上一节中,我们介绍了如何解决采样偏差问题,这节来探讨GAE是如何改善优势估计函数 \(A_{\phi}(s_t, a_t)\) 中有偏问题的。
GAE(Generalized Advantage Estimation,广义优势估计) 是一种用于估计强化学习中优势函数(Advantage Function)的方法,它通过结合时间差分(TD)误差的加权和来平衡偏差和方差。GAE 的核心思想是通过加权短期和长期回报来估计优势函数。它通过引入超参数 λ 来控制短期和长期回报的权重,实现低方差和高偏差间的平衡。
GAE的计算可以通过 TD 残差的加权和表示,
其中:
-
\(\delta_t\) 是时间差分(TD)残差,定义为:
\(\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)\)
-
\(\gamma\) 是折扣因子,用于控制未来回报的权重。
-
\(\lambda\) 是 GAE 的衰减系数,用于控制方差-偏差的平衡
(1)各类优势计算方法中的方差和偏差对比
- MC方法:高方差,无偏差的。因其依赖于整个轨迹的回报,估计时可能会带来较大波动,但它是无偏的,在长时间运行时可以获得精确的估计。
- TD方法:低方差,高偏差。通过引入当前估计来更新状态值或动作值,减少了方差。但其依赖于已有的估计,会引入偏差。
- GAE:折中,可通过 \(\lambda\) 灵活调控,实现偏差和方差平衡。当 \(\lambda = 0\) 时,GAE等价于TD,当 \(\lambda = 1\) 时,GAE等价于MC方法。
在下文的表述中,我们将 \(A_\phi^{GAE(\lambda,\gamma)}\) 引入了优化目标中。
3.5 TRPO:PPO的前身
TRPO(Trust Region Policy Optimization,置信域策略优化),可以说是PPO的前身。
在引入置信域、重要性采样(Importance Sampling)和GAE优势函数这些概念后,显著提升了算法的效果,对应的优化目标如下
公式(45)根据之前的策略采样,用优势函数筛选贡献大的动作;公式(46)是新旧策略的平均 KL 散度(动作分布距离)不能超过常数 \(\delta\)。TRPO就像一个教官,指导小狗不要一下子把"坐下"这个动作的概率从 0.7 提到 0.99,要保证新旧策略相似度高,学习更"稳"。
由于这种限制不直接加在 \(J(\theta)\) 中,使得优化过程变得较为复杂。
3.6 PPO-Clip
PPO(Proximal Policy Optimization,近端策略优化),有多种变体,例如PPO-Penalty和PPO-Clip,这些算法继承了部分TRPO算法的思想。PPO-Clip因其更优的效果而获得了更多关注和应用,因此通常所说的PPO即指PPO-Clip。
PPO-Clip的目标是最大化累积回报的期望,即通过最大化目标函数 \(J(\theta)\) 来优化策略,目标函数如下。
其中,\(r_t(\theta) = \frac{\pi_\theta(a_t | s_t)}{\pi_{old}(a_t | s_t)}\),下图给出了PPO-Clip运行机制示意图,注意图4中的 \(\eta_t^{clip}\) 对应式(47)中的 \(clip(r_t(\theta), 1-\varepsilon,1+\varepsilon)\), \(\eta_t^{r}\) 对应式(47)中的 \(r_t(\theta)\)。

公式(47)解读
- 当 \(A_{\phi}^{GAE}(s_t, a_t) > 0\) 时,说明策略执行的动作 \(a_t\) 相较于别的动作更好,要提升 \(\pi_{\theta}(a_t | s_t)\) 的概率。但是考虑到在采样不足的情况下,新旧策略的分布差异不能太大,因此 \(r_t(\theta) = \frac{\pi_\theta(a_t | s_t)}{\pi_{old}(a_t | s_t)}\) 是有上限的,需要保证在的信任阈 \(1+\varepsilon\) 内,超过这个阈值,直接采用 \(1+\varepsilon\) 。
- 当 \(A_{\phi}^{GAE}(s_t, a_t) < 0\) 时,说明策略执行的动作 \(a_t\) 相较于别的动作更差,要降低 \(\pi_{\theta}(a_t | s_t)\) 的概率。考虑到新旧策略的分布差异不能太大, \(r_t(\theta) = \frac{\pi_\theta(a_t | s_t)}{\pi_{old}(a_t | s_t)}\) 是有上限的,需要保证在的信任阈 \(1-\varepsilon\) 内,低于这个阈值,直接采用 \(1-\varepsilon\) 。
本文是RL系列内容的第一篇,该系列主要介绍RL的理论、实战及与大模型结合的内容,下一篇我们将介绍大模型中的RL算法,敬请期待。
参考资料
【1】High-Dimensional Continuous Control Using Generalized Advantage Estimation
【2】人人都能看懂的RL-PPO理论知识
【3】大模型中的强化学习,PPO,DPO,GRPO
【4】大模型中的强化学习
【5】Reinforcement Learning: An Introduction
【6】蘑菇书EasyRL
【7】大模型算法
