怎么在网站做推广和宣传做漫画网站的需求
怎么在网站做推广和宣传,做漫画网站的需求,建设网站能解决什么问题,网站开发合同履约分类目录#xff1a;《深入理解强化学习》总目录 在本文中#xff0c;我们将介绍备份#xff08;Backup#xff09;的概念。备份类似于自举之间的迭代关系#xff0c;对于某一个状态#xff0c;它的当前价值是与它的未来价值线性相关的。 我们将与下图类似的图称为备份图…分类目录《深入理解强化学习》总目录 在本文中我们将介绍备份Backup的概念。备份类似于自举之间的迭代关系对于某一个状态它的当前价值是与它的未来价值线性相关的。 我们将与下图类似的图称为备份图Backup Diagram或回溯图因为它们所示的关系构成了更新或备份操作的基础而这些操作是强化学习方法的核心。这些操作将价值信息从一个状态或状态—动作对的后继状态或状态—动作对转移回它。 每一个空心圆圈代表一个状态每一个实心圆圈代表一个状态-动作对。 如下式所示这里有两层加和。第一层加和是对叶子节点进行加和往上备份一层我们就可以把未来的价值 s ′ s s′的价值备份到黑色的节点。 第二层加和是对动作进行加和得到黑色节点的价值后再往上备份一层就会得到根节点的价值即当前状态的价值。 V π ( s ) ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) ) V_\pi(s)\sum_{a\in A}\pi(a|s)(R(s, a)\gamma\sum_{s\in S}p(s|s,a)V_\pi(s)) Vπ(s)a∈A∑π(a∣s)(R(s,a)γs′∈S∑p(s′∣s,a)Vπ(s′))
下图所示为状态价值函数的计算分解其中子图( b b b)的计算公式为 V π ( s ) ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V_\pi(s)\sum_{a\in A}\pi(a|s)Q_\pi(s, a) Vπ(s)a∈A∑π(a∣s)Qπ(s,a)
其给出了状态价值函数与Q函数之间的关系。子图( c c c)计算Q函数为 Q π ( s , a ) R ( s , a ) γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) Q_\pi(s, a)R(s, a)\gamma\sum_{s\in S}p(s|s,a)V_\pi(s) Qπ(s,a)R(s,a)γs′∈S∑p(s′∣s,a)Vπ(s′)
我们将上两式的 Q π ( s , a ) Q_\pi(s, a) Qπ(s,a)替换可得 V π ( s ) ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) ) V_\pi(s)\sum_{a\in A}\pi(a|s)(R(s, a)\gamma\sum_{s\in S}p(s|s,a)V_\pi(s)) Vπ(s)a∈A∑π(a∣s)(R(s,a)γs′∈S∑p(s′∣s,a)Vπ(s′))
所以备份图给出了未来下一时刻的状态价值函数与上一时刻的状态价值函数之间的关联 对于Q函数我们也可以进行这样的一个推导。如下图所示现在的根节点是Q函数的一个节点。Q函数对应于黑色的节点。下一时刻的Q函数对应于叶子节点有4个黑色的叶子节点 Q π ( s , a ) R ( s , a ) γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q_\pi(s, a)R(s, a)\gamma\sum_{s\in S}p(s|s,a)\sum_{a\in A}\pi(a|s)Q_\pi(s, a) Qπ(s,a)R(s,a)γs′∈S∑p(s′∣s,a)a′∈A∑π(a′∣s′)Qπ(s′,a′)
如上式所示这里也有两层加和。第一层加和先把叶子节点从黑色节点推到空心圆圈节点进入到空心圆圈结点的状态。 当我们到达某一个状态后再对空心圆圈节点进行加和这样就把空心圆圈节点重新推回到当前时刻的Q函数。 下图子图( c c c)中 V π ( s ′ ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) V_\pi(s)\sum_{a\in A}\pi(a|s)Q_\pi(s, a) Vπ(s′)a′∈A∑π(a′∣s′)Qπ(s′,a′)
我们将上式代入上文中 Q π ( s , a ) Q_\pi(s, a) Qπ(s,a)算式可得未来Q函数与当前Q函数之间的关联即 Q π ( s , a ) R ( s , a ) γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q_\pi(s, a)R(s, a)\gamma\sum_{s\in S}p(s|s,a)\sum_{a\in A}\pi(a|s)Q_\pi(s, a) Qπ(s,a)R(s,a)γs′∈S∑p(s′∣s,a)a′∈A∑π(a′∣s′)Qπ(s′,a′)
参考文献 [1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022. [2] Richard S. Sutton, Andrew G. Barto. 强化学习第2版[M]. 电子工业出版社, 2019 [3] Maxim Lapan. 深度强化学习实践原书第2版[M]. 北京华章图文信息有限公司, 2021 [4] 王琦, 杨毅远, 江季. Easy RL强化学习教程 [M]. 人民邮电出版社, 2022
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/86832.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!