文章目录
- 前言
- 1、组成部分
- 2、应用例子
- 3、马尔科夫奖励过程
- 总结
前言
最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》。
1、组成部分
强化学习其实主要包含下面五个部分:我将通过一个训练狗护食的例子来说明各部分含义。
智能体是狗,环境就是周围一切,狗当然能够观察环境,而且还能采取吃与不吃的动作。而我作为训狗师会给予其奖励揍他或者给肉。
1)当我去拿狗饭盆时,狗观察到我的手,采取了龇牙咧嘴的动作,结果奖励就是一巴掌;
2)当我去拿狗饭盆时,狗观察到我的手,采取了眼睁睁看着我拿走饭盆的动作,结果奖励它继续吃;
2、应用例子
其实上述范式在生活中到处都有应用,如下图所示:强化学习基本是很多学科的交集。
实际应用领域:国际象棋ALphaGo,DeepSeek-R1,学习成绩,大脑多巴胺系统,等等,不一而足。
3、马尔科夫奖励过程
在上一篇介绍了马尔科夫过程,核心包括有限状态空间和概率转移矩阵。而马尔科夫奖励过程则是在状态转移之间,引入了一个奖励矩阵,形状也是N*N:比如第i行第j列就表示从状态i到状态j所得到的奖励。
在引入奖励矩阵后,引入一个核心概念:回报!其数学定义为:
G t = R t + 1 + γ R t + 2 + . . . = ∑ i = 1 ∞ R t + k + 1 G_t = R_{t+1} + {\gamma}R_{t+2} + ... = \sum_{i=1}^{\infty}R_{t+k+1} Gt=Rt+1+γRt+2+...=i=1∑∞Rt+k+1
表达的意思是:在t时刻状态下,在接下来所有时刻所取得的回报和。其中 γ \gamma γ就是折扣因子,取值范围[0~1],越接近1,则考虑越多的未来。
由于采取的可能性很多,因此, G t G_t Gt的变化范围很大,很难优化。但回报的期望却是能拿到的,即状态的价值
V ( s ) = E [ G ∣ S t = s ] V(s) = E[G|S_t=s] V(s)=E[G∣St=s]
表达含义是:在t时刻,对于每一个状态s条件下,所得到回报G的平均值。
总结
本篇只是介绍下强化学习的回报和状态价值定义,让读者能从感性角度对其有个理解,下篇介绍在马尔科夫奖励过程中引入动作和策略。