强化学习入门：马尔科夫奖励过程

文章目录

前言
1、组成部分
2、应用例子
3、马尔科夫奖励过程
总结

前言

最近想开一个关于强化学习专栏，因为DeepSeek-R1很火，但本人对于LLM连门都没入。因此，只是记录一些类似的读书笔记，内容不深，大多数只是一些概念的东西，数学公式也不会太多，还望读者多多指教。本次阅读书籍为：马克西姆的《深度强化学习实践》。

1、组成部分

强化学习其实主要包含下面五个部分：我将通过一个训练狗护食的例子来说明各部分含义。
在这里插入图片描述
智能体是狗，环境就是周围一切，狗当然能够观察环境，而且还能采取吃与不吃的动作。而我作为训狗师会给予其奖励揍他或者给肉。
1）当我去拿狗饭盆时，狗观察到我的手，采取了龇牙咧嘴的动作，结果奖励就是一巴掌；
2）当我去拿狗饭盆时，狗观察到我的手，采取了眼睁睁看着我拿走饭盆的动作，结果奖励它继续吃；

2、应用例子

其实上述范式在生活中到处都有应用，如下图所示：强化学习基本是很多学科的交集。
在这里插入图片描述
实际应用领域：国际象棋ALphaGo，DeepSeek-R1，学习成绩，大脑多巴胺系统，等等，不一而足。

3、马尔科夫奖励过程

在上一篇介绍了马尔科夫过程，核心包括有限状态空间和概率转移矩阵。而马尔科夫奖励过程则是在状态转移之间，引入了一个奖励矩阵，形状也是N*N：比如第i行第j列就表示从状态i到状态j所得到的奖励。
在引入奖励矩阵后，引入一个核心概念：回报！其数学定义为：
$G_t = R_{t+1} + {\gamma}R_{t+2} + ... = \sum_{i=1}^{\infty}R_{t+k+1}$

表达的意思是：在t时刻状态下，在接下来所有时刻所取得的回报和。其中 $\gamma$ 就是折扣因子，取值范围[0~1]，越接近1，则考虑越多的未来。
由于采取的可能性很多，因此， $G_t$ 的变化范围很大，很难优化。但回报的期望却是能拿到的，即状态的价值
$V(s) = E[G|S_t=s]$
表达含义是：在t时刻，对于每一个状态s条件下，所得到回报G的平均值。