强化学习基础概括

news/2025/11/4 14:59:16/文章来源:https://www.cnblogs.com/kaoyujiang/p/19190325

强化学习基础知识（含公式与详细解释）

强化学习（Reinforcement Learning, RL）的核心是“智能体（Agent）在与环境（Environment）的交互中，通过试错学习最优策略（Policy），以最大化长期累积奖励（Reward）”。以下从核心概念、价值函数、贝尔曼方程、三大类核心算法四个维度，结合公式展开讲解。

一、强化学习的核心概念与交互框架

首先明确RL的基本元素，这些是理解后续公式的基础：

元素	定义	符号/示例
智能体（Agent）	执行动作的主体（如机器人、游戏AI）	-
环境（Environment）	智能体交互的外部场景（如迷宫、游戏世界）	-
状态（State）	环境的当前情况（如迷宫中的位置、游戏画面像素）	s ∈ S（S 为状态空间）
动作（Action）	智能体可执行的操作（如“向左走”“出拳”）	a ∈ A（A 为动作空间）
奖励（Reward）	环境对动作的即时反馈（如“吃到食物得+10分”“撞到墙得-5分”）	r ∈ R
策略（Policy）	智能体从状态到动作的映射（即“决策规则”）	π(a
轨迹（Trajectory）	智能体与环境交互的序列：s₀ →(a₀) s₁ →(a₁) ... →(a_T) s_	τ = (s₀,a₀,r₀,s₁,a₁,r₁,...,s_T)

二、核心价值函数：量化“状态/动作的长期价值”

价值函数是RL的核心工具，用于量化“某个状态/动作能带来的长期累积奖励”，分为状态价值函数和行动价值函数。

1. 状态价值函数 V^π(s)

定义：在状态 s 下，遵循策略 π 直到任务结束，能获得的长期累积奖励的期望。
公式：
V^π(s) = E_π[ Σ（从t=0到∞）γ^t * r_t | s₀ = s ]
公式解释：
- E_π[·]：对策略 π 选择的动作和环境的状态转移取期望（因动作和转移可能有随机性）；
- Σ（从t=0到∞）γ^t * r_t：长期累积奖励（称为“回报，Return”），t=0 对应当前时刻；
- γ：折现因子（0 ≤ γ ≤ 1），控制未来奖励的权重——γ=0 只关注即时奖励，γ=1 同等重视未来奖励；
- s₀ = s：表示从当前状态 s 开始计算。
示例：若 γ=0.5，当前状态 s 下，策略 π 带来的奖励序列为 r₀=2, r₁=4, r₂=8，则累积奖励为 2 + 0.5×4 + 0.5²×8 = 2 + 2 + 2 = 6，V^π(s) 是该值的期望（若有多个可能的奖励序列）。

2. 行动价值函数 Q^π(s,a)

定义：在状态 s 下先选择动作 a，之后遵循策略 π，能获得的长期累积奖励的期望（比 V^π(s) 多了“具体动作 a”的信息）。
公式：
Q^π(s,a) = E_π[ Σ（从t=0到∞）γ^t * r_t | s₀ = s, a₀ = a ]
公式解释：
与 V^π(s) 唯一区别是多了“a₀ = a”——明确当前时刻选择的动作是 a，其余符号含义完全相同。
与 V^π(s) 的关系：状态价值是行动价值的“加权平均”（权重为策略 π 选择动作的概率）：
V^π(s) = Σ（从a∈A）π(a|s) · Q^π(s,a)
例：若状态 s 下，策略 π 选 a₁ 的概率0.6（Q=10），选 a₂ 的概率0.4（Q=5），则 V^π(s) = 0.6×10 + 0.4×5 = 8。

三、贝尔曼方程：价值函数的递归分解（RL的数学核心）

贝尔曼方程（Bellman Equation）是RL的“第一性原理”，它将“长期价值”分解为“即时奖励 + 折现后的未来价值”，为价值函数的迭代优化提供了数学基础。

1. 状态价值函数的贝尔曼方程

公式：
V^π(s) = E_π[ r + γ * V^π(s') | s ]
公式解释：
- 左边：当前状态 s 的价值 V^π(s)；
- 右边：
  - r：从 s 执行策略 π 选择的动作后，获得的即时奖励；
  - s'：执行动作后转移到的新状态（由环境决定）；
  - γ * V^π(s')：新状态 s' 的价值乘以折现因子，即“未来价值的现值”；
  - E_π[·]：对“策略选动作”和“环境转状态”的随机性取期望。
离散状态/动作+已知模型的简化版：若环境模型已知（即知道状态转移概率 P(s'|s,a) 和奖励 r(s,a)），期望可展开为求和：
V^π(s) = Σ（从a）π(a|s) * Σ（从s'）P(s'|s,a) * [ r(s,a,s') + γ * V^π(s') ]
含义：遍历所有可能的动作 a 和新状态 s'，按概率加权计算“即时奖励 + 未来价值”。

2. 行动价值函数的贝尔曼方程

公式：
Q^π(s,a) = E_π[ r + γ * Q^π(s',a') | s, a ]
公式解释：
- 左边：状态 s 下选动作 a 的价值 Q^π(s,a)；
- 右边：
  - r：执行动作 a 后的即时奖励；
  - a'：新状态 s' 下，策略 π 选择的下一个动作；
  - γ * Q^π(s',a')：下一个“状态-动作对”的价值折现后的值；
  - 期望是对“环境转状态 s'”和“策略选下一个动作 a'”取期望。

3. 最优贝尔曼方程（目标：找到最优策略）

当策略 π 是最优策略（即能最大化长期奖励的策略，记为 π）时，价值函数称为“最优价值函数”（V(s) 或 Q*(s,a)），贝尔曼方程升级为“最优贝尔曼方程”：

（1）最优状态价值 V*(s)

V(s) = max（从a∈A）E[ r + γ * V(s') | s, a ]

关键变化：用 max_a 替代策略的概率加权——最优策略会选择“能最大化后续价值的动作 a”，无需考虑其他动作。

（2）最优行动价值 Q*(s,a)

Q(s,a) = E[ r + γ * max（从a'∈A）Q(s',a') | s, a ]

关键变化：对下一个动作 a' 取 max——执行 a 后，后续会选择最优动作 a'，因此用最优行动价值的最大值计算未来价值。

四、RL的三大类核心算法（基于价值/策略/Actor-Critic）

根据“是否通过价值函数优化策略”，RL算法分为三大类，核心公式和逻辑如下：

1. 基于值函数的方法（Value-based）：通过价值函数间接找最优策略

核心是学习最优行动价值 Q(s,a)，再通过“贪婪策略”（a = argmax_a Q(s,a)）选动作。

（1）Q-Learning（无模型，异策略）

更新公式：
Q(s,a) ← Q(s,a) + α * [ r + γ * max（从a'）Q(s',a') - Q(s,a) ]
公式解释：
- α：学习率（0 < α < 1），控制每次更新的幅度；
- r + γ * max（从a'）Q(s',a')：TD目标（即时奖励 + 下一个状态的最优Q值）；
- r + γ * max（从a'）Q(s',a') - Q(s,a)：TD误差（当前Q值与目标值的差距）；
- 逻辑：用TD误差修正当前Q值，逐步逼近 Q*。

（2）深度Q网络（DQN，处理高维状态）

核心改进：用神经网络 Q̂(s,a;θ) 近似 Q(s,a)，结合“经验回放”和“目标网络”稳定训练。
损失函数（最小化预测Q值与目标Q值的均方误差）：
L(θ) = E[ (Q(s,a;θ) - ( r + γ * max（从a'）Q(s',a';θ⁻) ))² ] ，其中样本来自经验回放池 D
- D：经验回放池（存储历史样本 (s,a,r,s')）；
- θ⁻：目标网络的参数（固定一段时间更新，避免训练震荡）。

2. 基于策略梯度的方法（Policy Gradient）：直接优化策略

核心是参数化策略 π_θ(a|s)，通过梯度上升最大化期望回报 J(θ) = E[ Σ（从t=0到∞）γ^t * r_t ]（期望基于 π_θ）。

（1）REINFORCE算法（基础策略梯度）

策略梯度公式：
∇θ J(θ) ≈ (1/N) * Σ（从i=1到N）Σ（从t=0到T-1）∇θ log π_θ(a_{i,t}|s_{i,t}) * G_
公式解释：
- N：采样的轨迹数量，T：单条轨迹的步数；
- ∇θ log π_θ(a|s)：策略的对数梯度（反映“调整参数 θ 对选动作 a 概率的影响”）；
- G_{i,t}：第 i 条轨迹第 t 步的累积奖励（回报）；
- 逻辑：若 G_{i,t} 为正（该动作带来好结果），则沿梯度方向更新 θ，增大选该动作的概率；反之则减小。

（2）PPO（近端策略优化，主流算法）

核心改进：限制策略更新步长，避免策略突变，目标函数为：
L(θ) = E[ min( (π_θ(a|s)/π_θ_old(a|s)) * A(s,a), clip(π_θ(a|s)/π_θ_old(a|s), 1-ε, 1+ε) * A(s,a) ) ]
- π_θ_old：更新前的旧策略；
- A(s,a) = Q(s,a) - V(s)：优势函数（量化“动作 a 比平均动作好多少”）；
- clip(·)：剪辑操作（ε≈0.1），限制新旧策略的比率，保证训练稳定。

3. Actor-Critic方法：结合价值与策略的优势

同时训练“策略网络（Actor）”和“价值网络（Critic）”——Actor选动作，Critic用价值函数评估动作的优势，指导Actor更新。

（1）A2C（优势Actor-Critic）

Actor更新（策略梯度）：
∇θ J(θ) ≈ E[ ∇θ log π_θ(a|s) * A(s,a) ]
Critic更新（价值函数）：
L(φ) = E[ (V_φ(s) - ( r + γ * V_φ(s') ))² ]
逻辑：Critic计算的优势函数 A(s,a) 替代REINFORCE中的 G_t，降低梯度方差；Actor用优势函数指导更新，Critic通过TD误差优化价值估计。

五、总结：RL基础知识框架

核心目标：最大化长期累积奖励的期望，即优化策略 π 使 J(π) 最大；
核心工具：价值函数（V^π, Q^π）量化状态/动作的长期价值；
数学基础：贝尔曼方程将长期价值递归分解，支持迭代优化；
算法分类：
- 基于值函数：通过 Q* 间接找最优策略（Q-Learning、DQN）；
- 基于策略梯度：直接优化 π_θ（REINFORCE、PPO）；
- Actor-Critic：结合两者优势（A2C、DDPG）。

所有RL算法的本质，都是通过不同方式逼近贝尔曼方程的解，最终找到能最大化长期奖励的策略。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/955711.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！