怎么在网站做推广和宣传做漫画网站的需求

pingmian/2026/1/22 12:24:07/文章来源:
怎么在网站做推广和宣传,做漫画网站的需求,建设网站能解决什么问题,网站开发合同履约分类目录#xff1a;《深入理解强化学习》总目录 在本文中#xff0c;我们将介绍备份#xff08;Backup#xff09;的概念。备份类似于自举之间的迭代关系#xff0c;对于某一个状态#xff0c;它的当前价值是与它的未来价值线性相关的。 我们将与下图类似的图称为备份图…分类目录《深入理解强化学习》总目录 在本文中我们将介绍备份Backup的概念。备份类似于自举之间的迭代关系对于某一个状态它的当前价值是与它的未来价值线性相关的。 我们将与下图类似的图称为备份图Backup Diagram或回溯图因为它们所示的关系构成了更新或备份操作的基础而这些操作是强化学习方法的核心。这些操作将价值信息从一个状态或状态—动作对的后继状态或状态—动作对转移回它。 每一个空心圆圈代表一个状态每一个实心圆圈代表一个状态-动作对。 如下式所示这里有两层加和。第一层加和是对叶子节点进行加和往上备份一层我们就可以把未来的价值 s ′ s s′的价值备份到黑色的节点。 第二层加和是对动作进行加和得到黑色节点的价值后再往上备份一层就会得到根节点的价值即当前状态的价值。 V π ( s ) ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) ) V_\pi(s)\sum_{a\in A}\pi(a|s)(R(s, a)\gamma\sum_{s\in S}p(s|s,a)V_\pi(s)) Vπ​(s)a∈A∑​π(a∣s)(R(s,a)γs′∈S∑​p(s′∣s,a)Vπ​(s′)) 下图所示为状态价值函数的计算分解其中子图( b b b)的计算公式为 V π ( s ) ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V_\pi(s)\sum_{a\in A}\pi(a|s)Q_\pi(s, a) Vπ​(s)a∈A∑​π(a∣s)Qπ​(s,a) 其给出了状态价值函数与Q函数之间的关系。子图( c c c)计算Q函数为 Q π ( s , a ) R ( s , a ) γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) Q_\pi(s, a)R(s, a)\gamma\sum_{s\in S}p(s|s,a)V_\pi(s) Qπ​(s,a)R(s,a)γs′∈S∑​p(s′∣s,a)Vπ​(s′) 我们将上两式的 Q π ( s , a ) Q_\pi(s, a) Qπ​(s,a)替换可得 V π ( s ) ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) ) V_\pi(s)\sum_{a\in A}\pi(a|s)(R(s, a)\gamma\sum_{s\in S}p(s|s,a)V_\pi(s)) Vπ​(s)a∈A∑​π(a∣s)(R(s,a)γs′∈S∑​p(s′∣s,a)Vπ​(s′)) 所以备份图给出了未来下一时刻的状态价值函数与上一时刻的状态价值函数之间的关联 对于Q函数我们也可以进行这样的一个推导。如下图所示现在的根节点是Q函数的一个节点。Q函数对应于黑色的节点。下一时刻的Q函数对应于叶子节点有4个黑色的叶子节点 Q π ( s , a ) R ( s , a ) γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q_\pi(s, a)R(s, a)\gamma\sum_{s\in S}p(s|s,a)\sum_{a\in A}\pi(a|s)Q_\pi(s, a) Qπ​(s,a)R(s,a)γs′∈S∑​p(s′∣s,a)a′∈A∑​π(a′∣s′)Qπ​(s′,a′) 如上式所示这里也有两层加和。第一层加和先把叶子节点从黑色节点推到空心圆圈节点进入到空心圆圈结点的状态。 当我们到达某一个状态后再对空心圆圈节点进行加和这样就把空心圆圈节点重新推回到当前时刻的Q函数。 下图子图( c c c)中 V π ( s ′ ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) V_\pi(s)\sum_{a\in A}\pi(a|s)Q_\pi(s, a) Vπ​(s′)a′∈A∑​π(a′∣s′)Qπ​(s′,a′) 我们将上式代入上文中 Q π ( s , a ) Q_\pi(s, a) Qπ​(s,a)算式可得未来Q函数与当前Q函数之间的关联即 Q π ( s , a ) R ( s , a ) γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q_\pi(s, a)R(s, a)\gamma\sum_{s\in S}p(s|s,a)\sum_{a\in A}\pi(a|s)Q_\pi(s, a) Qπ​(s,a)R(s,a)γs′∈S∑​p(s′∣s,a)a′∈A∑​π(a′∣s′)Qπ​(s′,a′) 参考文献 [1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022. [2] Richard S. Sutton, Andrew G. Barto. 强化学习第2版[M]. 电子工业出版社, 2019 [3] Maxim Lapan. 深度强化学习实践原书第2版[M]. 北京华章图文信息有限公司, 2021 [4] 王琦, 杨毅远, 江季. Easy RL强化学习教程 [M]. 人民邮电出版社, 2022

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/86832.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

wap医院网站模板 for dedecms v1.0应用网站

[ABC206E] Divide Both 解题记录 题意简述 给定整数 L , R L,R L,R,求满足以下条件的数对 ( x , y ) (x,y) (x,y) 的数量。 x , y x,y x,y 不互质 x ∤ y x \nmid y x∤y 且 y ∤ x y \nmid x y∤x 题目分析 正难则反,考虑用所有的满足第一条性质的…

免费家装设计网站精品网站建设价格

在未排序的数组中找到第 k 个最大的元素。请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素。 示例 1: 输入: [3,2,1,5,6,4] 和 k 2 输出: 5 示例 2: 输入: [3,2,3,1,2,4,5,5,6] 和 k 4 输出: 4 说明: 你可以假设 k 总是…

券商 做网站毕业设计做网站有哪些需求

随着云计算、企业级应用以及物联网领域的飞速发展,当前的数据处理需求正以前所未有的规模增长,以满足存储行业不断变化的需求。这种增长导致网络带宽压力增大,并对主机计算资源(如内存和CPU)造成极大负担,进…

档案互动网站建设住房和城乡建设部网站买卖合同

①、两个字符串的删除操作 给定两个单词 word1 和 word2 ,返回使得 word1 和 word2 相同所需的最小步数。 每步 可以删除任意一个字符串中的一个字符。 事例: 输入: word1 "sea", word2 "eat" 输出: 2 解释: 第一步将 "sea&…

建立网站可以赚钱吗广州优秀网站建设

温馨提示:如果你有关于产品经理方面的任何问题,欢迎关注我的微信公众号与我互动。最新的免费系统的产品经理课程《老司机带你做产品》已经推出,请关注微信公众号:iamliuwenzhi很多产品新人刚开始工作时,喜欢一拿到需求…

网站开发的数据比wordpress

一、PIL,cv2读取数据图片以及之间的转换 cv2PIL读取acv2.imread()aImage.open()读取类型数组类型PIL类型读取尺寸排列(H,W,C)(W,H,C)显示图片cv2.imshow(“a”, a)cv2.waitKey (0)a.show()相互之间转换显示Image.from…

中建南方建设集团网站页面设计高度

经常在网上看到某某公司几千万的个人敏感信息被泄露,这要是放在持牌的支付公司,可能就是一个非常大的麻烦,不但会失去用户的信任,而且可能会被吊销牌照。而现实情况是很多公司的技术研发人员并没有足够深的安全架构经验来设计一套…

金安合肥网站建设专业网站建设哪家效果好

前言 期望:100700170 实际:400040 rnk14 分全部挂没了,太行了。 T1不开longlong见祖宗,而且KH说的那个也有道理,带权之后树的重心可以不只有两个,所以最后还应该倍增的跳。(然而这个地方题解似…

文案写作网站网站备案多少天

第一部分 计算机基础知识计算机是能超高速自动进行算术运算和逻辑运算的电子机器;第一台计算机诞生于1946年(取名为ENIAC),在短短的50多年时间,已经历了四代:第一代电子管计算机、第二代晶体管计算机、第三代集成电路计算机(中小规…

海南城乡建设庁网站企业网站的基本功能

lockbit是一种勒索病毒,是一种极具破坏性的电脑病毒,它利用加密技术来锁定用户文件,并以此为条件向用户勒索钱财。lockbit病毒的传播方式有通过电子邮件附件、恶意网站、点对点网络等多种途径进行传播。这种病毒一旦侵入电脑系统,…

企业做网站需要什么手续吗wap网站教程

我们使用Win10系统久了难免会出现许多问题,像有的用户就遇到了打开软件显示“此应用无法在你电脑上运行”的提示,很多人以为是软件自身的问题,其实我们的电脑没有设置好的话也会出现这种不兼容的情况,下面给大家带来解决办法。 解…

最版网站建设案例动画制作视频

目录 104.二叉树的最大深度 100.相同的树 226.翻转二叉树 101.对称二叉树 105.从前序与中序遍历序列构造二叉树 106.从中序与后序遍历序列构造二叉树 117.填充每个节点的下一个右侧节点指针Ⅱ 104.二叉树的最大深度 题意: 给定一个二叉树 root ,返回其…

网站建设流程与构架wordpress主题idown

相关题目: 325. 和等于 k 的最长子数组长度 525. 连续数组 class Solution:"""325. 和等于 k 的最长子数组长度巧用前缀和数组,并优化浅醉和数组为单变量"""def findMaxLength(self, nums: List[int], k: int) -> i…

南京网站建设包括哪些私人可以做org后缀网站吗

柱形图 柱形图,又称长条图、柱状统计图、条图、条状图、棒形图,是一种以长方形的长度为变量的统计图表。长条图用来比较两个或以上的价值(不同时间或者不同条件),只有一个变量,通常利用于较小的数据集分析…

赣州网站推广哪家最专业环保局网站建设方案

1.泛型 1.1泛型概述 泛型的介绍 ​ 泛型是JDK5中引入的特性&#xff0c;它提供了编译时类型安全检测机制 泛型的好处 把运行时期的问题提前到了编译期间避免了强制类型转换 泛型的定义格式 <类型>: 指定一种类型的格式.尖括号里面可以任意书写,一般只写一个字母.例如:…

接网站开发项目电子商务网站建设考试题

楔子 前面的预备章节中我们大致了解了如何在服务器上的 Node.js 应用出现问题时&#xff0c;从常规的错误日志、系统/进程指标以及兜底的核心转储这些角度来排查问题。这样就引出了下一个问题&#xff1a;我们知道进程的 CPU/Memory 高&#xff0c;或者拿到了进程 Crash 后的核…

大会注册网站建设长治企业网站建设

1、获取用户信息 依次询问并获取用户的姓名、年龄、性别&#xff0c;收集数据之后在控制台依次打印出来。 提示&#xff1a; 通过prompt来弹出提示框&#xff0c;收集用户信息 通过变量保存数据 2、增加年龄 询问用户年龄&#xff0c;用户输入年龄后&#xff0c;把用户输入的…

制作企业网站新闻列表页面网页设计实训报告网店设计实训报告

Databend 是一款现代云数仓。专为弹性和高效设计&#xff0c;为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务&#xff1a;https://app.databend.cn 。 Whats On In Databend 探索 Databend 本周新进展&#xff0c;遇到更贴近你心意的 Databend 。 支持多语句事务…

阿里云网站域名备案医院构建网络平台你怎么准备

转载自 Redis RDB文件格式全解析 点评 这篇文章作为对RDB理解的教程文章&#xff0c;对RDB文件的原理理解有助于进行Redis高阶应用的设计与开发。 文章转自&#xff1a;http://blog.nosqlfan.com/html/3734.html 作者&#xff1a;nosqlfan RDB文件是Redis持久化的一种方式…