强化学习入门：马尔科夫奖励过程二

文章目录

前言
1、动作
2、策略
总结

前言

最近想开一个关于强化学习专栏，因为DeepSeek-R1很火，但本人对于LLM连门都没入。因此，只是记录一些类似的读书笔记，内容不深，大多数只是一些概念的东西，数学公式也不会太多，还望读者多多指教。本次阅读书籍为：马克西姆的《深度强化学习实践》。
限于篇幅原因，请读者首先看下历史文章：马尔科夫奖励过程

1、动作

在上篇博客中，介绍了强化学习中的价值和回报概念。其中，回报就是当前t时刻，在将来所获得所有奖励和；而状态的价值则是回报的期望。
但我们希望智能体能够自主的选择动作，从而决定怎样得到最大的奖励和回报。因此，需要在马尔科夫奖励过程中，新引入一个N*N的动作矩阵，其中第i行第j列表示智能体选择从状态i到状态j所采取的动作。

如上图所示：此时MDP可以用一个三维矩阵表示：其中每个元素表示在给定动作k情况下，i->j的转移概率。

2、策略

现在你的马尔科夫奖励已经包含了：转移概率、奖励、动作。但要想得到一个聪明的智能体，需要找到一个模型，让其能够聪明的选择什么样的动作，进而得到最大回报。比如：训狗，最终希望狗子能够听话不护食。
其实抽象出来就是一个优化问题，交给智能体一种什么样策略，才能够训练好这个智能体。因为策略好多，如何才能教给智能体选择合适策略才是至关重要的。
策略定义就是每个可能状态下的动作概率分布：
$\pi(a|s) = P(A_t=a|S_t=s)$
解释下上述公式含义：左边表示状态s条件下，采取动作a的概率分布。注意这里是概率分布，因此公式右边用的大写的P。之所以是概率分布，而不是具体动作，是希望给智能体行为引入随机性。