搭建电商网站网站开发和数据库的关系
news/
2025/9/23 22:41:46/
文章来源:
搭建电商网站,网站开发和数据库的关系,官方网站投诉平台,哈尔滨做平台网站平台公司吗强化学习笔记 主要基于b站西湖大学赵世钰老师的【强化学习的数学原理】课程#xff0c;个人觉得赵老师的课件深入浅出#xff0c;很适合入门.
第一章 强化学习基本概念 第二章 贝尔曼方程 文章目录 强化学习笔记一、状态值函数贝尔曼方程二、贝尔曼方程的向量形式三、动作值…强化学习笔记 主要基于b站西湖大学赵世钰老师的【强化学习的数学原理】课程个人觉得赵老师的课件深入浅出很适合入门.
第一章 强化学习基本概念 第二章 贝尔曼方程 文章目录 强化学习笔记一、状态值函数贝尔曼方程二、贝尔曼方程的向量形式三、动作值函数参考资料 第一章我们介绍了强化学习的基本概念本章介绍强化学习中一个重要的概念——贝尔曼方程.
一、状态值函数贝尔曼方程
贝尔曼方程Bellman Equation也称为贝尔曼期望方程用于计算给定策略 π \pi π时价值函数在策略指引下所采轨迹上的期望。考虑如下一个随机轨迹 S t → A t R t 1 , S t 1 → A t 1 R t 2 , S t 2 → A t 2 R t 3 , … \begin{aligned} S_t\xrightarrow{A_t}R_{t1},S_{t1}\xrightarrow{A_{t1}}R_{t2},S_{t2}\xrightarrow{A_{t2}}R_{t3},\ldots \\ \end{aligned} StAt Rt1,St1At1 Rt2,St2At2 Rt3,… 那么累积回报 G t G_t Gt可以写成如下形式 G t R t 1 γ R t 2 γ 2 R t 3 … , R t 1 γ ( R t 2 γ R t 3 … ) , R t 1 γ G t 1 . \begin{aligned} G_t R_{t1}\gamma R_{t2}\gamma^2R_{t3}\ldots, \\ R_{t1}\gamma(R_{t2}\gamma R_{t3}\ldots), \\ R_{t1}\gamma G_{t1}. \end{aligned} GtRt1γRt2γ2Rt3…,Rt1γ(Rt2γRt3…),Rt1γGt1. 状态值函数的贝尔曼方程为 v π ( s ) ≐ E π [ G t ∣ S t s ] E π [ R t 1 γ G t 1 ∣ S t s ] ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ v π ( s ′ ) ] , ∀ s ∈ S . \begin{aligned} v_{\pi}(s) \doteq\mathbb{E}_{\pi}[G_{t}\mid S_{t}s] \\ \mathbb{E}_{\pi}[R_{t1}\gamma G_{t1}\mid S_{t}s] \\ \sum_a\pi(a|s)\sum_{s,r}p(s,r|s,a)\Big[r\gamma v_\pi(s)\Big],\quad\forall s\in\mathcal{S}. \end{aligned} vπ(s)≐Eπ[Gt∣Sts]Eπ[Rt1γGt1∣Sts]a∑π(a∣s)s′,r∑p(s′,r∣s,a)[rγvπ(s′)],∀s∈S. 由值函数的定义出发得到了一个关于 v v v的递推关系 下面再来详细的推导一下贝尔曼方程由回报的定义可以将 G t G_t Gt拆成两部分 v π ( s ) E [ G t ∣ S t s ] E [ R t 1 γ G t 1 ∣ S t s ] E [ R t 1 ∣ S t s ] γ E [ G t 1 ∣ S t s ] . \begin{aligned} v_{\pi}\left(s\right) \mathbb{E}[G_{t}|S_{t}s] \\ \mathbb{E}[R_{t1}\gamma G_{t1}|S_{t}s] \\ \mathbb{E}[R_{t1}|S_{t}s]\gamma\mathbb{E}[G_{t1}|S_{t}s]. \end{aligned} vπ(s)E[Gt∣Sts]E[Rt1γGt1∣Sts]E[Rt1∣Sts]γE[Gt1∣Sts]. 首先考虑第一部分 E [ R t 1 ∣ S t s ] \mathbb{E}[R_{t1}|S_ts] E[Rt1∣Sts]全概率公式的应用 E [ R t 1 ∣ S t s ] ∑ a π ( a ∣ s ) E [ R t 1 ∣ S t s , A t a ] ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r . \begin{aligned}\mathbb{E}[R_{t1}|S_ts]\sum_a\pi(a|s)\mathbb{E}[R_{t1}|S_ts,A_ta]\\\sum_a\pi(a|s)\sum_rp(r|s,a)r. \end{aligned} E[Rt1∣Sts]a∑π(a∣s)E[Rt1∣Sts,Ata]a∑π(a∣s)r∑p(r∣s,a)r. 再来考虑第二部分 E [ G t 1 ∣ S t s ] \mathbb{E}[G_{t1}|S_ts] E[Gt1∣Sts]第二个等式用到马尔可夫性质和全概率公式 E [ G t 1 ∣ S t s ] ∑ s ′ E [ G t 1 ∣ S t s , S t 1 s ′ ] p ( s ′ ∣ s ) ∑ s ′ E [ G t 1 ∣ S t 1 s ′ ] p ( s ′ ∣ s ) ∑ s ′ v π ( s ′ ) p ( s ′ ∣ s ) ∑ v π ( s ′ ) ∑ p ( s ′ ∣ s , a ) π ( a ∣ s ) . \begin{aligned} \mathbb{E}\left[G_{t1}|S_{t}s\right] \sum_{s^{\prime}}\mathbb{E}[G_{t1}|S_{t}s,S_{t1}s^{\prime}]p(s^{\prime}|s) \\ \sum_{s}\mathbb{E}[G_{t1}|S_{t1}s]p(s|s) \\ \sum_{s^{\prime}}v_{\pi}(s^{\prime})p(s^{\prime}|s) \\ \sum v_{\pi}(s^{\prime})\sum p(s^{\prime}|s,a)\pi(a|s). \end{aligned} E[Gt1∣Sts]s′∑E[Gt1∣Sts,St1s′]p(s′∣s)s′∑E[Gt1∣St1s′]p(s′∣s)s′∑vπ(s′)p(s′∣s)∑vπ(s′)∑p(s′∣s,a)π(a∣s). 以上两部分合起来 v π ( s ) E [ R t 1 ∣ S t s ] γ E [ G t 1 ∣ S t s ] , ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r ⏟ mean of immediate rewards γ ∑ a π ( a ∣ s ) ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) , ⏟ mean of future rewards ∑ a π ( a ∣ s ) [ ∑ r p ( r ∣ s , a ) r γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ] , ∀ s ∈ S ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ v π ( s ′ ) ] , ∀ s ∈ S . \begin{aligned} v_{\pi}\left(s\right) \mathbb{E}[R_{t1}|S_{t}s]\gamma\mathbb{E}[G_{t1}|S_{t}s], \\ \begin{aligned}\underbrace{\sum_a\pi(a|s)\sum_rp(r|s,a)r}_{\text{mean of immediate rewards}}\underbrace{\gamma\sum_a\pi(a|s)\sum_{s}p(s|s,a)v_\pi(s),}_{\text{mean of future rewards}}\end{aligned} \\ \sum_a\pi(a|s)\left[\sum_rp(r|s,a)r\gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})\right],\forall s\in\mathcal{S}\\ \sum_a\pi(a|s)\sum_{s,r}p(s,r|s,a)\Big[r\gamma v_\pi(s)\Big],\quad \forall s\in\mathcal{S}. \end{aligned} vπ(s)E[Rt1∣Sts]γE[Gt1∣Sts],mean of immediate rewards a∑π(a∣s)r∑p(r∣s,a)rmean of future rewards γa∑π(a∣s)s′∑p(s′∣s,a)vπ(s′),a∑π(a∣s)[r∑p(r∣s,a)rγs′∑p(s′∣s,a)vπ(s′)],∀s∈Sa∑π(a∣s)s′,r∑p(s′,r∣s,a)[rγvπ(s′)],∀s∈S.
Note:
贝尔曼公式给出了值函数的一个递推关系式当前状态的值函数可以由下一状态的值函数完全确定
下面的树状图形象的刻画了贝尔曼方程中几个求和符合各变量之间的关系 实例 仍然是agent-网格问题绿色箭头表示当前策略 二、贝尔曼方程的向量形式
我们将贝尔曼公式拆成两项之和的形式 v π ( s ) r π ( s ) γ ∑ s ′ p π ( s ′ ∣ s ) v π ( s ′ ) , v_\pi(s)r_\pi(s)\gamma\sum_{s^{\prime}}p_\pi(s^{\prime}|s)v_\pi(s^{\prime}), vπ(s)rπ(s)γs′∑pπ(s′∣s)vπ(s′),其中 r π ( s ) ≜ ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r , p π ( s ′ ∣ s ) ≜ ∑ a π ( a ∣ s ) p ( s ′ ∣ s , a ) . \begin{aligned}r_\pi(s)\triangleq\sum_a\pi(a|s)\sum_rp(r|s,a)r,\quad p_\pi(s|s)\triangleq\sum_a\pi(a|s)p(s|s,a)\end{aligned}. rπ(s)≜a∑π(a∣s)r∑p(r∣s,a)r,pπ(s′∣s)≜a∑π(a∣s)p(s′∣s,a).
假设状态为 s i ( i 1 , … , n ) s_i(i1, \ldots, n) si(i1,…,n)对于状态 s i s_i si, Bellman方程为 v π ( s i ) r π ( s i ) γ ∑ s j p π ( s j ∣ s i ) v π ( s j ) ∀ i 1 , … , n v_\pi\left(s_i\right)r_\pi\left(s_i\right)\gamma \sum_{s_j} p_\pi\left(s_j \mid s_i\right) v_\pi\left(s_j\right) \quad\forall i1,\ldots ,n vπ(si)rπ(si)γsj∑pπ(sj∣si)vπ(sj)∀i1,…,n
把所有状态的方程放在一起重写成矩阵-向量的形式 v π r π γ P π v π v_\pir_\pi\gamma P_\pi v_\pi vπrπγPπvπ 其中 v π [ v π ( s 1 ) , … , v π ( s n ) ] T ∈ R n v_\pi\left[v_\pi\left(s_1\right), \ldots, v_\pi\left(s_n\right)\right]^T \in \mathbb{R}^n vπ[vπ(s1),…,vπ(sn)]T∈Rn r π [ r π ( s 1 ) , … , r π ( s n ) ] T ∈ R n r_\pi\left[r_\pi\left(s_1\right), \ldots, r_\pi\left(s_n\right)\right]^T \in \mathbb{R}^n rπ[rπ(s1),…,rπ(sn)]T∈Rn P π ∈ R n × n P_\pi \in \mathbb{R}^{n \times n} Pπ∈Rn×n其中 [ P π ] i j p π ( s j ∣ s i ) \left[P_\pi\right]_{i j}p_\pi\left(s_j \mid s_i\right) [Pπ]ijpπ(sj∣si)为状态转移矩阵
实例 给定一个策略算出出相应的状态值被称为策略评估这是强化学习的一个基本问题。而通过上面的介绍我们知道要得到state value可以求解贝尔曼方程。由刚刚介绍的贝尔曼方程矩阵形式 v π r π γ P π v π v_\pir_\pi\gamma P_\pi v_\pi vπrπγPπvπ易得 v π ( I − γ P π ) − 1 r π v_\pi(I-\gamma P_\pi)^{-1}r_\pi vπ(I−γPπ)−1rπ 但矩阵的求逆是 O ( n 3 ) O(n^3) O(n3)的复杂度当矩阵很大时求解效率很低。所以我们通常不用这个方法来解贝尔曼方程而是采用迭代法下一章详细介绍.迭代法格式如下 v k 1 r π γ P π v k \begin{aligned}v_{k1}r_\pi\gamma P_\pi v_k\end{aligned} vk1rπγPπvk给定一个初始值 v 0 v_0 v0可以得到迭代序列 { v 0 , v 1 , v 2 , … } . \{v_0,v_1,v_2,\ldots\}. {v0,v1,v2,…}. 并且可以证明 v k → v π ( I − γ P π ) − 1 r π , k → ∞ v_k\to v_\pi(I-\gamma P_\pi)^{-1}r_\pi,\quad k\to\infty vk→vπ(I−γPπ)−1rπ,k→∞ 也就是可以用迭代法通过有限次迭代得到一个近似值.
三、动作值函数
由状态值函数与动作值函数的关系我们有 v π ( s ) ∑ a π ( a ∣ s ) q π ( s , a ) . v_\pi(s)\sum_a\pi(a|s)q_\pi(s,a). vπ(s)a∑π(a∣s)qπ(s,a). 上小节关于状态值函数的贝尔曼方程为 v π ( s ) ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ v π ( s ′ ) ] v_{\pi}(s)\sum_a\pi(a|s)\sum_{s,r}p(s,r|s,a)\Big[r\gamma v_\pi(s)\Big] vπ(s)a∑π(a∣s)s′,r∑p(s′,r∣s,a)[rγvπ(s′)] 两式对比我们可以得到动作值函数的贝尔曼方程 q π ( s , a ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ v π ( s ′ ) ] q_\pi(s,a)\sum_{s,r}p(s,r|s,a)\Big[r\gamma v_\pi(s)\Big] qπ(s,a)s′,r∑p(s′,r∣s,a)[rγvπ(s′)] 总结一下 参考资料
Zhao, S… Mathematical Foundations of Reinforcement Learning. Springer Nature Press and Tsinghua University Press.Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. MIT press, 2018.
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/914123.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!