强化学习基础知识(含公式与详细解释)
强化学习(Reinforcement Learning, RL)的核心是“智能体(Agent)在与环境(Environment)的交互中,通过试错学习最优策略(Policy),以最大化长期累积奖励(Reward)”。以下从核心概念、价值函数、贝尔曼方程、三大类核心算法四个维度,结合公式展开讲解。
一、强化学习的核心概念与交互框架
首先明确RL的基本元素,这些是理解后续公式的基础:
| 元素 | 定义 | 符号/示例 | 
|---|---|---|
| 智能体(Agent) | 执行动作的主体(如机器人、游戏AI) | - | 
| 环境(Environment) | 智能体交互的外部场景(如迷宫、游戏世界) | - | 
| 状态(State) | 环境的当前情况(如迷宫中的位置、游戏画面像素) | s ∈ S(S 为状态空间) | 
| 动作(Action) | 智能体可执行的操作(如“向左走”“出拳”) | a ∈ A(A 为动作空间) | 
| 奖励(Reward) | 环境对动作的即时反馈(如“吃到食物得+10分”“撞到墙得-5分”) | r ∈ R | 
| 策略(Policy) | 智能体从状态到动作的映射(即“决策规则”) | π(a | 
| 轨迹(Trajectory) | 智能体与环境交互的序列:s₀ →(a₀) s₁ →(a₁) ... →(a_T) s_ | τ = (s₀,a₀,r₀,s₁,a₁,r₁,...,s_T) | 
二、核心价值函数:量化“状态/动作的长期价值”
价值函数是RL的核心工具,用于量化“某个状态/动作能带来的长期累积奖励”,分为状态价值函数和行动价值函数。
1. 状态价值函数 V^π(s)
- 
定义:在状态 s 下,遵循策略 π 直到任务结束,能获得的长期累积奖励的期望。
 - 
公式:
V^π(s) = E_π[ Σ(从t=0到∞)γ^t * r_t | s₀ = s ] - 
公式解释:
- E_π[·]:对策略 π 选择的动作和环境的状态转移取期望(因动作和转移可能有随机性);
 - Σ(从t=0到∞)γ^t * r_t:长期累积奖励(称为“回报,Return”),t=0 对应当前时刻;
 - γ:折现因子(0 ≤ γ ≤ 1),控制未来奖励的权重——γ=0 只关注即时奖励,γ=1 同等重视未来奖励;
 - s₀ = s:表示从当前状态 s 开始计算。
 
 - 
示例:若 γ=0.5,当前状态 s 下,策略 π 带来的奖励序列为 r₀=2, r₁=4, r₂=8,则累积奖励为 2 + 0.5×4 + 0.5²×8 = 2 + 2 + 2 = 6,V^π(s) 是该值的期望(若有多个可能的奖励序列)。
 
2. 行动价值函数 Q^π(s,a)
- 
定义:在状态 s 下先选择动作 a,之后遵循策略 π,能获得的长期累积奖励的期望(比 V^π(s) 多了“具体动作 a”的信息)。
 - 
公式:
Q^π(s,a) = E_π[ Σ(从t=0到∞)γ^t * r_t | s₀ = s, a₀ = a ] - 
公式解释:
与 V^π(s) 唯一区别是多了“a₀ = a”——明确当前时刻选择的动作是 a,其余符号含义完全相同。 - 
与 V^π(s) 的关系:状态价值是行动价值的“加权平均”(权重为策略 π 选择动作的概率):
V^π(s) = Σ(从a∈A)π(a|s) · Q^π(s,a)
例:若状态 s 下,策略 π 选 a₁ 的概率0.6(Q=10),选 a₂ 的概率0.4(Q=5),则 V^π(s) = 0.6×10 + 0.4×5 = 8。 
三、贝尔曼方程:价值函数的递归分解(RL的数学核心)
贝尔曼方程(Bellman Equation)是RL的“第一性原理”,它将“长期价值”分解为“即时奖励 + 折现后的未来价值”,为价值函数的迭代优化提供了数学基础。
1. 状态价值函数的贝尔曼方程
- 
公式:
V^π(s) = E_π[ r + γ * V^π(s') | s ] - 
公式解释:
- 左边:当前状态 s 的价值 V^π(s);
 - 右边:
- r:从 s 执行策略 π 选择的动作后,获得的即时奖励;
 - s':执行动作后转移到的新状态(由环境决定);
 - γ * V^π(s'):新状态 s' 的价值乘以折现因子,即“未来价值的现值”;
 - E_π[·]:对“策略选动作”和“环境转状态”的随机性取期望。
 
 
 - 
离散状态/动作+已知模型的简化版:若环境模型已知(即知道状态转移概率 P(s'|s,a) 和奖励 r(s,a)),期望可展开为求和:
V^π(s) = Σ(从a)π(a|s) * Σ(从s')P(s'|s,a) * [ r(s,a,s') + γ * V^π(s') ]
含义:遍历所有可能的动作 a 和新状态 s',按概率加权计算“即时奖励 + 未来价值”。 
2. 行动价值函数的贝尔曼方程
- 公式:
Q^π(s,a) = E_π[ r + γ * Q^π(s',a') | s, a ] - 公式解释:
- 左边:状态 s 下选动作 a 的价值 Q^π(s,a);
 - 右边:
- r:执行动作 a 后的即时奖励;
 - a':新状态 s' 下,策略 π 选择的下一个动作;
 - γ * Q^π(s',a'):下一个“状态-动作对”的价值折现后的值;
 - 期望是对“环境转状态 s'”和“策略选下一个动作 a'”取期望。
 
 
 
3. 最优贝尔曼方程(目标:找到最优策略)
当策略 π 是最优策略(即能最大化长期奖励的策略,记为 π)时,价值函数称为“最优价值函数”(V(s) 或 Q*(s,a)),贝尔曼方程升级为“最优贝尔曼方程”:
(1)最优状态价值 V*(s)
V(s) = max(从a∈A)E[ r + γ * V(s') | s, a ]
- 关键变化:用 max_a 替代策略的概率加权——最优策略会选择“能最大化后续价值的动作 a”,无需考虑其他动作。
 
(2)最优行动价值 Q*(s,a)
Q(s,a) = E[ r + γ * max(从a'∈A)Q(s',a') | s, a ]
- 关键变化:对下一个动作 a' 取 max——执行 a 后,后续会选择最优动作 a',因此用最优行动价值的最大值计算未来价值。
 
四、RL的三大类核心算法(基于价值/策略/Actor-Critic)
根据“是否通过价值函数优化策略”,RL算法分为三大类,核心公式和逻辑如下:
1. 基于值函数的方法(Value-based):通过价值函数间接找最优策略
核心是学习最优行动价值 Q(s,a),再通过“贪婪策略”(a = argmax_a Q(s,a))选动作。
(1)Q-Learning(无模型,异策略)
- 更新公式:
Q(s,a) ← Q(s,a) + α * [ r + γ * max(从a')Q(s',a') - Q(s,a) ] - 公式解释:
- α:学习率(0 < α < 1),控制每次更新的幅度;
 - r + γ * max(从a')Q(s',a'):TD目标(即时奖励 + 下一个状态的最优Q值);
 - r + γ * max(从a')Q(s',a') - Q(s,a):TD误差(当前Q值与目标值的差距);
 - 逻辑:用TD误差修正当前Q值,逐步逼近 Q*。
 
 
(2)深度Q网络(DQN,处理高维状态)
- 核心改进:用神经网络 Q̂(s,a;θ) 近似 Q(s,a),结合“经验回放”和“目标网络”稳定训练。
 - 损失函数(最小化预测Q值与目标Q值的均方误差):
L(θ) = E[ (Q(s,a;θ) - ( r + γ * max(从a')Q(s',a';θ⁻) ))² ] ,其中样本来自经验回放池 D- D:经验回放池(存储历史样本 (s,a,r,s'));
 - θ⁻:目标网络的参数(固定一段时间更新,避免训练震荡)。
 
 
2. 基于策略梯度的方法(Policy Gradient):直接优化策略
核心是参数化策略 π_θ(a|s),通过梯度上升最大化期望回报 J(θ) = E[ Σ(从t=0到∞)γ^t * r_t ](期望基于 π_θ)。
(1)REINFORCE算法(基础策略梯度)
- 策略梯度公式:
∇θ J(θ) ≈ (1/N) * Σ(从i=1到N)Σ(从t=0到T-1)∇θ log π_θ(a_{i,t}|s_{i,t}) * G_ - 公式解释:
- N:采样的轨迹数量,T:单条轨迹的步数;
 - ∇θ log π_θ(a|s):策略的对数梯度(反映“调整参数 θ 对选动作 a 概率的影响”);
 - G_{i,t}:第 i 条轨迹第 t 步的累积奖励(回报);
 - 逻辑:若 G_{i,t} 为正(该动作带来好结果),则沿梯度方向更新 θ,增大选该动作的概率;反之则减小。
 
 
(2)PPO(近端策略优化,主流算法)
- 核心改进:限制策略更新步长,避免策略突变,目标函数为:
L(θ) = E[ min( (π_θ(a|s)/π_θ_old(a|s)) * A(s,a), clip(π_θ(a|s)/π_θ_old(a|s), 1-ε, 1+ε) * A(s,a) ) ]- π_θ_old:更新前的旧策略;
 - A(s,a) = Q(s,a) - V(s):优势函数(量化“动作 a 比平均动作好多少”);
 - clip(·):剪辑操作(ε≈0.1),限制新旧策略的比率,保证训练稳定。
 
 
3. Actor-Critic方法:结合价值与策略的优势
同时训练“策略网络(Actor)”和“价值网络(Critic)”——Actor选动作,Critic用价值函数评估动作的优势,指导Actor更新。
(1)A2C(优势Actor-Critic)
- Actor更新(策略梯度):
∇θ J(θ) ≈ E[ ∇θ log π_θ(a|s) * A(s,a) ] - Critic更新(价值函数):
L(φ) = E[ (V_φ(s) - ( r + γ * V_φ(s') ))² ] - 逻辑:Critic计算的优势函数 A(s,a) 替代REINFORCE中的 G_t,降低梯度方差;Actor用优势函数指导更新,Critic通过TD误差优化价值估计。
 
五、总结:RL基础知识框架
- 核心目标:最大化长期累积奖励的期望,即优化策略 π 使 J(π) 最大;
 - 核心工具:价值函数(V^π, Q^π)量化状态/动作的长期价值;
 - 数学基础:贝尔曼方程将长期价值递归分解,支持迭代优化;
 - 算法分类:
- 基于值函数:通过 Q* 间接找最优策略(Q-Learning、DQN);
 - 基于策略梯度:直接优化 π_θ(REINFORCE、PPO);
 - Actor-Critic:结合两者优势(A2C、DDPG)。
 
 
所有RL算法的本质,都是通过不同方式逼近贝尔曼方程的解,最终找到能最大化长期奖励的策略。