【强化学习】强化学习算法 - 马尔可夫决策过程

文章目录

马尔可夫决策过程 (Markov Decision Process, MDP)
- 1. MDP 原理介绍
- 2. MDP 建模/实现步骤
- 3. MDP 示例：简单网格世界 (Grid World)

马尔可夫决策过程 (Markov Decision Process, MDP)

1. MDP 原理介绍

马尔可夫决策过程 (MDP) 是强化学习 (Reinforcement Learning, RL) 中用于对序贯决策 (Sequential Decision Making) 问题进行数学建模的标准框架。它描述了一个智能体 (Agent) 与环境 (Environment) 交互的过程，其中智能体的目标是最大化其在一段时间内获得的总奖励。

MDP 假设环境具有马尔可夫性质 (Markov Property)，即未来的状态和奖励只依赖于当前的状态和智能体采取的动作，而与过去的状态或动作历史无关。

一个 MDP 通常由以下五个核心要素组成，表示为一个五元组 $\gamma)$ ：

状态集合 (State Space, $S$ ):
- 表示智能体可能处于的所有不同情况或配置的集合。状态可以是离散的（例如棋盘格的位置）或连续的（例如机器人的关节角度）。这里我们主要关注离散状态空间。
- $S_t$ 表示智能体在时间步 $t$ 所处的状态。
动作集合 (Action Space, $A$ ):
- 表示智能体在每个状态下可以采取的所有可能行为的集合。动作也可以是离散的（例如游戏中按键）或连续的（例如控制油门）。有时动作集合依赖于状态，记为 $A (s)$ 。
- $A_t$ 表示智能体在时间步 $t$ 选择的动作。
状态转移概率 (Transition Probability Function, $P$ ):
- $P(s' | s, a) = Pr(S_{t+1}=s' | S_t=s, A_t=a)$ 。
- 它定义了在状态 $s$ 下采取动作 $a$ 后，转移到下一个状态 $s^{'}$ 的概率。这体现了环境的动态性，可能包含随机性。
- 对于所有 $\in S, a \in A(s)$ ，必须满足 $\sum_{s' \in S} P(s' | s, a) = 1$ 。
奖励函数 (Reward Function, $R$ ):
- 定义了智能体在特定状态下采取特定动作后获得的即时奖励。有几种常见的定义方式：
  - $R (s, a, s^{'})$ ：在状态 $s$ 采取动作 $a$ 并转移到状态 $s^{'}$ 时获得的奖励。
  - $E[R_{t+1} | S_t=s, A_t=a] = \sum_{s'} P(s' | s, a) R(s, a, s')$ ：在状态 $s$ 采取动作 $a$ 后期望获得的即时奖励。这是更常用的形式。
  - $R (s)$ ：仅与进入状态 $s$ 相关联的奖励。
- 奖励函数 $R$ 定义了问题的目标。智能体的目的是最大化累积奖励。 $R_{t+1}$ 是在时间步 $t + 1$ 获得的奖励。
折扣因子 (Discount Factor, $\gamma$ ):
- $\gamma \in [0, 1]$ 。它是一个用于衡量未来奖励相对于当前奖励重要性的参数。
- $\gamma$ 接近 0 时，智能体更关注即时奖励（短视）。
- $\gamma$ 接近 1 时，智能体更关注长期累积奖励（远视）。
- $\gamma < 1$ 通常也确保了无限时间范围内的累积奖励（回报）是有限的。

马尔可夫性质 (Markov Property)
这是 MDP 的核心假设： $P(S_{t+1}, R_{t+1} | S_t, A_t, S_{t-1}, A_{t-1}, ..., S_0, A_0) = P(S_{t+1}, R_{t+1} | S_t, A_t)$ 。这意味着，系统下一时刻的状态和获得的奖励，仅取决于当前的状态 $S_t$ 和当前采取的动作 $A_t$ ，与之前的历史状态和动作无关。

目标
智能体的目标是找到一个策略 (Policy) $\pi$ ，该策略定义了在每个状态 $s$ 下选择动作 $a$ 的方式（通常是概率分布 $\pi(a|s) = Pr(A_t=a | S_t=s)$ ），以最大化期望累积折扣奖励 (Expected Cumulative Discounted Reward)，也称为回报 (Return) 或 价值 (Value)。
从时间步 $t$ 开始的回报定义为：
$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}$

价值函数 (Value Functions)
为了评估策略的好坏，引入了价值函数：

状态价值函数 (State-Value Function) $V^\pi(s)$ : 从状态 $s$ 开始，遵循策略 $\pi$ 所能获得的期望回报。
$V^\pi(s) = E_\pi[G_t | S_t=s] = E_\pi\left[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t=s\right]$
动作价值函数 (Action-Value Function) $Q^\pi(s, a)$ : 在状态 $s$ 采取动作 $a$ ，然后遵循策略 $\pi$ 所能获得的期望回报。
$Q^\pi(s, a) = E_\pi[G_t | S_t=s, A_t=a] = E_\pi\left[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t=s, A_t=a\right]$

贝尔曼方程 (Bellman Equations)
价值函数满足递归关系，称为贝尔曼方程，它们是大多数 RL 算法的基础。

贝尔曼期望方程 (Bellman Expectation Equation for $V^\pi$ ):
$V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma V^\pi(s')]$
(若使用 $R (s, a)$ ，则为: $V^\pi(s) = \sum_{a} \pi(a|s) (R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^\pi(s'))$ )
贝尔曼期望方程 (Bellman Expectation Equation for $Q^\pi$ ):
$Q^\pi(s, a) = \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a')]$
(若使用 $R (s, a)$ ，则为: $Q^\pi(s, a) = R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^\pi(s') = R(s,a) + \gamma \sum_{s'} P(s'|s,a) \sum_{a'} \pi(a'|s') Q^\pi(s', a'))$ )

强化学习的目标是找到最优策略 $\pi_*$ ，使得所有状态的价值 $V^{\pi_*}(s)$ 或所有状态动作对的价值 $Q^{\pi_*}(s, a)$ 最大化。对应的价值函数称为最优价值函数 $V_*(s)$ 和 $Q_*(s, a)$ ，它们满足贝尔曼最优方程 (Bellman Optimality Equations)。

2. MDP 建模/实现步骤

将一个实际问题建模为 MDP，通常涉及以下步骤。这并不是一个具体的编程实现，而是定义问题的数学框架：

定义状态空间 $S$ : 确定能够充分描述问题状态的所有变量和它们的可能取值。状态需要满足马尔可夫性质。选择合适的状态表示至关重要。
定义动作空间 $A$ : 确定智能体在每个状态下可以采取的所有动作。
定义状态转移概率 $P (s^{'} ∣ s, a)$ : 描述环境的动态。对于每个状态 $s$ 和动作 $a$ ，确定转移到下一个状态 $s^{'}$ 的概率。这通常是建模中最困难的部分，可能基于物理定律、规则或数据估计。
定义奖励函数 $R (s, a)$ 或 $R (s, a, s^{'})$ : 设计奖励信号以引导智能体实现目标。奖励应该反映任务的即时成功或失败。例如，目标达成给予正奖励，危险状态给予负奖励，普通移动给予小的负奖励（鼓励效率）。
选择折扣因子 $\gamma$ : 根据任务是有限期还是无限期，以及对未来奖励的重视程度来选择 $\gamma$ 。

完成建模后:

如果 MDP 的模型（ $P$ 和 $R$ ）已知，可以使用动态规划 (Dynamic Programming) 方法（如价值迭代 Value Iteration 或策略迭代 Policy Iteration）来精确计算最优价值函数和最优策略。
如果 MDP 的模型未知（这是更常见的情况），则需要使用强化学习算法（如 Q-Learning, SARSA, DQN, Actor-Critic 等），通过智能体与环境的交互（采样）来学习最优策略。

3. MDP 示例：简单网格世界 (Grid World)

假设有一个 3x3 的网格世界。

+---+---+---+
|   |   | G |  (0,0) (0,1) (0,2)
+---+---+---+
|   | W |   |  (1,0) (1,1) (1,2)
+---+---+---+
| S |   |   |  (2,0) (2,1) (2,2)
+---+---+---+

S (Start): 智能体的起始位置 (2,0)。
G (Goal): 目标位置 (0,2)，到达后获得奖励。
W (Wall): 墙壁 (1,1)，无法进入。
空格: 可以移动的普通格子。

MDP 组件定义:

状态空间 $S$ : 每个格子的坐标 $(r, c)$ ，其中 $\in \{0, 1, 2\}, c \in \{0, 1, 2\}$ 。共 9 个状态。状态 (1,1) 是障碍物。状态 (0,2) 是目标状态（可以设为终止状态）。
动作空间 $A$ : 在每个非终止状态，智能体可以尝试向四个方向移动：{上 (Up), 下 (Down), 左 (Left), 右 (Right)}。
状态转移概率 $P (s^{'} ∣ s, a)$ :
- 确定性环境: 假设移动是确定的。
  - 如果从状态 $s = (r, c)$ 尝试动作 $a$ ，目标格子 $s^{'} = (r^{'}, c^{'})$ 在网格内且不是墙壁 (1,1)，则 $P (s^{'} ∣ s, a) = 1$ ，其他 $P (s^{''} ∣ s, a) = 0$ 。
  - 如果目标格子 $s^{'}$ 超出边界或撞墙 (1,1)，则智能体停留在原地，即 $P (s ∣ s, a) = 1$ 。
  - 如果当前状态 $s$ 是目标状态 G (0,2)，可以设定 G 为终止状态，任何动作都停留在 G (或转移到一个特殊的终止状态)。
- 随机性环境 (可选): 假设有 80% 的概率按预期方向移动，各有 10% 的概率向预定方向的左侧或右侧移动（撞墙或边界则停留在原地）。例如，在 (1,0) 选择 ‘Up’：
  - 80% 概率到达 (0,0)。
  - 10% 概率向左滑，撞边界，停留在 (1,0)。
  - 10% 概率向右滑，撞墙 (1,1)，停留在 (1,0)。
  - 因此 $\text{'Up'}) = 0.8$ , $\text{'Up'}) = 0.2$ 。
奖励函数 $R (s, a)$ 或 $R (s, a, s^{'})$ :
- 到达目标状态 G (0,2)： $R = + 10$ 。
- 每次移动（到达非目标状态）： $R = - 0.1$ （鼓励尽快到达目标）。
- 撞墙或边界（停留在原地）： $R = - 1$ （轻微惩罚）。
- (另一种设计：只有到达目标状态 G 时获得 $R = + 1$ ，其他所有转移奖励为 0)。
折扣因子 $\gamma$ : 例如， $\gamma = 0.9$ 。

目标: 找到一个策略 $\pi(a|s)$ ，使得从状态 S (2,0) 出发，到达 G (0,2) 的期望累积折扣奖励最大化。这通常意味着找到一条避开墙壁、最快到达目标的路径。

通过动态规划（如果 $P, R$ 已知）或强化学习算法（如果未知或需要通过交互学习），可以计算出每个状态的最佳动作，形成最优策略。例如，在 (2,0) 最优动作可能是 ‘Up’，在 (1,0) 最优动作可能是 ‘Up’ 或 ‘Right’ (取决于随机性和奖励设计)，最终引导智能体走向 (0,2)。