一般做网站需要多少钱网站设计知识

news/2025/10/2 11:14:09/文章来源:
一般做网站需要多少钱,网站设计知识,网站的页面布局,wordpress要ftp动态规划算法#xff08;DP#xff09;#xff1a;在马尔可夫决策过程#xff08;MDP#xff09;的完美环境模型下计算最优策略。但其在强化学习中实用性有限#xff0c;其一是它是基于环境模型已知#xff1b;其二是它的计算成本很大。但它在理论伤仍然很重要#xff…动态规划算法DP在马尔可夫决策过程MDP的完美环境模型下计算最优策略。但其在强化学习中实用性有限其一是它是基于环境模型已知其二是它的计算成本很大。但它在理论伤仍然很重要其他的一些算法与动态规划算法DP十分相似只是计算量小及没有假设环境模型已知。 动态规划算法DP和一般的强化学习算法的关键思想都是基于价值函数对策略的搜索如前所述一旦我们找到满足贝尔曼最优方程的最优价值函数 v ∗ v_\ast v∗​ 或 q ∗ q_\ast q∗​我们就可以很容易地获得最优策略。 v ∗ ( s ) max ⁡ a E [ R t 1 γ v ∗ ( S t 1 ) ∣ S t s , A t a ] max ⁡ a ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ v ∗ ( s ′ ) ] , o r q ∗ ( s , a ) E [ R t 1 γ max ⁡ a ′ q ∗ ( S t 1 , a ′ ) ∣ S t s , A t a ] ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ max ⁡ a ′ q ∗ ( s ′ , a ′ ) ] \begin{aligned} v_\ast(s) \max_a\Bbb{E}[R_{t1}\gamma v_\ast(S_{t1})|S_ts,A_ta]\\ \max_a\sum_{s^\prime,r}p(s^\prime,r|s,a)\Big[r\gamma v_\ast(s^\prime)\Big],\quad \rm{or}\\ q_\ast(s,a)\Bbb{E}\Big[R_{t1}\gamma\max_{a^\prime}q_\ast(S_{t1},a^\prime)\Big |S_ts,A_ta\Big]\\ \sum_{s^\prime,r}p(s^\prime,r|s,a)\Big[r\gamma\max_{a^\prime}q_\ast(s^\prime,a^\prime)\Big] \end{aligned} v∗​(s)q∗​(s,a)​amax​E[Rt1​γv∗​(St1​)∣St​s,At​a]amax​s′,r∑​p(s′,r∣s,a)[rγv∗​(s′)],orE[Rt1​γa′max​q∗​(St1​,a′) ​St​s,At​a]s′,r∑​p(s′,r∣s,a)[rγa′max​q∗​(s′,a′)]​ 1、策略评估预测 首先我们考虑如何计算任意策略 π \pi π 下的状态价值函数 v π v_\pi vπ​我们称其为策略评估 v π ( s ) ≐ E π [ G t ∣ S t s ] E π [ R t 1 γ G t 1 ∣ S t s ] E π [ R t 1 γ v π ( S t 1 ) ∣ S t s ] ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ v π ( s ′ ) ] \begin{aligned} v_\pi(s)\doteq \Bbb{E}_\pi[G_t|S_ts]\\ \Bbb{E}_\pi[R_{t1}\gamma G_{t1}|S_{t}s]\\ \Bbb{E}_\pi[R_{t1}\gamma v_\pi(S_{t1})|S_ts]\\ \sum_a\pi(a|s)\sum_{s^\prime,r}p(s^\prime,r|s,a)\Big[r\gamma v_\pi(s^\prime)\Big] \end{aligned} vπ​(s)​≐Eπ​[Gt​∣St​s]Eπ​[Rt1​γGt1​∣St​s]Eπ​[Rt1​γvπ​(St1​)∣St​s]a∑​π(a∣s)s′,r∑​p(s′,r∣s,a)[rγvπ​(s′)]​ 其中 π ( a ∣ s ) \pi(a|s) π(a∣s) 表示在策略 π \pi π 下当状态为 s s s 时采取动作 a a a 的概率以 π \pi π 为下标的期望是指其计算是基于策略 π \pi π 的。只要保证 γ 1 \gamma1 γ1 及存在终止状态则 v π v_\pi vπ​ 存在且唯一。 如果环境动态模型完全已知那么上述方程可通过迭代计算来求解即 v k 1 ( s ) ≐ E π [ R t 1 γ v k ( S t 1 ) ∣ S t s ] ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ v π ( s ′ ) ] \begin{aligned} v_{k1}(s)\doteq \Bbb{E}_\pi[R_{t1}\gamma v_k(S_{t1})|S_ts]\\ \sum_a\pi(a|s)\sum_{s^\prime,r}p(s^\prime,r|s,a)\Big[r\gamma v_\pi(s^\prime)\Big] \end{aligned} vk1​(s)​≐Eπ​[Rt1​γvk​(St1​)∣St​s]a∑​π(a∣s)s′,r∑​p(s′,r∣s,a)[rγvπ​(s′)]​ 显然 v k v π v_kv_\pi vk​vπ​ 是这个更新规则的不动点因为贝尔曼方程保证了其相等实际上在保证 v π v_\pi vπ​ 存在的条件下当 k → ∞ k\rightarrow\infty k→∞时序列 { v k } \{v_k\} {vk​}可以收敛至序列 v π v_\pi vπ​这种算法成为迭代策略评估。 为了使 v k 1 v_{k1} vk1​ 相比 v j v_j vj​ 更加逼近 v π v_\pi vπ​迭代策略评估对每个状态 s s s 应用如下操作用状态 s s s 的旧价值来更新 s s s 的新价值再用 s s s 的新价值替换 s s s 的旧价值我们称这种操作为预期更新。迭代策略评估的每次更新都会产生新的估计价值函数 v k 1 v_{k1} vk1​。 若要编写程序实现上述的迭代策略评估必须使用两个数组一个储存旧价值 v k ( s ) v_k(s) vk​(s)另一个储存新价值 v k 1 ( s ) v_{k1}(s) vk1​(s)我们用旧价值数组来一个接一个地计算新价值数组过程中可以立刻改变旧价值数组也可以更新完毕再改变旧价值数组这两种方法均收敛于 v π v_\pi vπ​事实上前者收敛速度更快。 2、策略改进 我们计算策略的价值函数的原因是为了找到更好的策略假设我们已经知道某策略 π \pi π 的价值函数 v π v_\pi vπ​对于某些状态我们想知道是否应该改变策略虽然我们根据 v π v_\pi vπ​ 知道当前的策略有“多好”但是更换策略是“更好”还是“更差”呢一种方法就是在状态 s s s 时确定性地选择动作价值函数最高的动作 a a a然后遵循现有的策略 π \pi π q π ( s , a ) ≐ E [ R t 1 γ v π ( S t 1 ) ∣ S t s , A t a ] ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ v π ( s ′ ) ] \begin{aligned} q_\pi(s,a)\doteq \Bbb{E}[R_{t1}\gamma v_\pi(S_{t1})|S_ts,A_ta]\\ \sum_{s^\prime,r}p(s^\prime,r|s,a)\Big[r\gamma v_\pi(s^\prime)\Big] \end{aligned} qπ​(s,a)​≐E[Rt1​γvπ​(St1​)∣St​s,At​a]s′,r∑​p(s′,r∣s,a)[rγvπ​(s′)]​ 关键在于它是大于还是小于 v π ( s ) v_\pi(s) vπ​(s)如果它更大那么也就是说在状态 s s s 选择一次根据上述公式只有这一次的动作选择不遵循策略 π \pi π动作 a a a 的策略比一直遵循策略 π \pi π 要更好那么也就是说每次遇到状态 s s s 都确定性地选择动作 a a a 会更好事实上新策略确实更好。 假设 π \pi π 和 π ′ \pi^\prime π′ 是任意一对确定性策略有 q π ( s , π ′ ( s ) ) ≥ v π ( s ) q_\pi(s,\pi^\prime(s))\geq v_\pi(s) qπ​(s,π′(s))≥vπ​(s)也就是说策略 π ′ \pi^\prime π′ 优于策略 π \pi π也就是说它在所有状态下均获得更多的期望收益即 v π ′ ( s ) ≥ v π ( s ) v_{\pi^\prime}(s)\geq v_\pi(s) vπ′​(s)≥vπ​(s)我们称其为策略改进定理。 到目前为止在给定策略及其价值函数的条件下我可以轻松地在单个状态下对动作的更改我们将其延伸至所有状态下动作的更改即在每个状态下根据 q π ( s , a ) q_\pi(s,a) qπ​(s,a) 来选择最佳的动作也就是选择新的贪心策略 π ′ \pi^\prime π′即 π ′ ( s ) ≐ arg max ⁡ a q π ( s , a ) arg max ⁡ a E [ R t 1 γ v π ( S t 1 ) ∣ S t s , A t a ] arg max ⁡ a ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ v π ( s ′ ) ] \begin{aligned} \pi^\prime(s)\doteq \argmax_aq_\pi(s,a)\\ \argmax_a\Bbb{E}[R_{t1}\gamma v_\pi(S_{t1})|S_ts,A_ta]\\ \argmax_a\sum_{s^\prime,r}p(s^\prime,r|s,a)\Big[r\gamma v_\pi(s^\prime)\Big] \end{aligned} π′(s)​≐aargmax​qπ​(s,a)aargmax​E[Rt1​γvπ​(St1​)∣St​s,At​a]aargmax​s′,r∑​p(s′,r∣s,a)[rγvπ​(s′)]​ 贪心策略采取的是在短期内看起来最好的动作可以看出它优于原策略。根据原策略的价值函数通过贪心方法改进原策略从而得到新策略我们称其为策略改进。 到目前为止我考虑的是确定性策略这种特殊情况事实上上述所有思想可以很容易地扩展到随机策略。 3、策略迭代 一旦通过价值函数 v π v_\pi vπ​ 改进策略 π \pi π得到更好的策略 π ′ \pi^\prime π′我们就可以计算价值函数 v π ′ v_{\pi^\prime} vπ′​再改进策略 π ′ \pi^\prime π′得到更好的策略 π ′ ′ \pi^{\prime\prime} π′′由此我们可以得到一系列单调改进的策略和价值函数 π 0 ⟶ E v π 0 ⟶ I π 1 ⟶ E v π 1 ⟶ I π 2 ⟶ E ⋯ ⟶ I π ∗ ⟶ E v ∗ \pi_0\stackrel{E}{\longrightarrow}v_{\pi_0}\stackrel{I}{\longrightarrow}\pi_1\stackrel{E}{\longrightarrow}v_{\pi_1}\stackrel{I}{\longrightarrow}\pi_2\stackrel{E}{\longrightarrow}\cdots\stackrel{I}{\longrightarrow}\pi_\ast\stackrel{E}{\longrightarrow}v_\ast π0​⟶E​vπ0​​⟶I​π1​⟶E​vπ1​​⟶I​π2​⟶E​⋯⟶I​π∗​⟶E​v∗​ 其中 ⟶ E \stackrel{E}{\longrightarrow} ⟶E​ 表示策略评估 ⟶ I \stackrel{I}{\longrightarrow} ⟶I​ 表示策略改进每个策略都优于前一个策略。由于有限马尔可夫决策过程只有有限个策略因此该过程必然会在有限次的迭代中收敛到最优策略和最优价值函数。 这种寻找最优策略的方法被称为策略迭代完整算法如下所示可以看出每次策略评估本身就是一次迭代计算都是从前一个策略的价值函数开始这通常会使得策略评估的收敛速度大大提高。 4、值迭代 策略迭代的一个缺点是它得每次迭代都要进行策略评估这本身就是一个冗长的迭代计算而策略评估只有在极限的情况下才收敛到 v π v_\pi vπ​我们是否可以在此之前就截断迭代呢答案是可以的。实际上在保证策略迭代收敛的前提下可以通过多种方式截断策略迭代中的策略评估过程一种特殊的方式是策略评估时每个状态仅更新一次就停止这种算法称为值迭代。它可以写成一个特别简单的更新操作其中结合了策略改进和截断策略评估 v k 1 ( s ) ≐ max ⁡ a E [ R t 1 γ v k ( S t 1 ) ∣ S t s , A t a ] max ⁡ a ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ v k ( s ′ ) ] \begin{aligned} v_{k1}(s)\doteq \max_a\Bbb{E}[R_{t1}\gamma v_k(S_{t1})|S_ts,A_ta]\\ \max_a\sum_{s^\prime,r}p(s^\prime,r|s,a)[r\gamma v_k(s^\prime)] \end{aligned} vk1​(s)​≐amax​E[Rt1​γvk​(St1​)∣St​s,At​a]amax​s′,r∑​p(s′,r∣s,a)[rγvk​(s′)]​ 对于任意的 v 0 v_0 v0​序列 { v k } \{v_k\} {vk​} 都会收敛于 v ∗ v_\ast v∗​。理解值迭代的另一种方法就是参考贝尔曼最优方程只需要将贝尔曼最优方程转换为更新规则即可获得值迭代。最好我们看一下值迭代是如何终止的与策略评估一样值迭代需要无限次迭代才能精确收敛到 v ∗ v_\ast v∗​但实际上值函数在一次迭代过程只发生了极小的变换我们就停止迭代完整算法如下所示 值迭代在每次迭代过程中都有效的结合了一次策略评估和一次策略改进通过在每个策略改进之间插入多个策略评估通常可以实现更快的收敛。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/924833.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

那个网站平台可以做兼职网页设计尺寸1440

Canvas是什么?怎样写Canvas? Canvas是HTML5的一个元素,它使用JavaScript在网页上绘制图形。Canvas是一个矩形区域。它的每一个像素都可以由HTML5语言来控制。使用Canvas绘制路径、框、圆、字符和添加图像有几种方法。 如果要在我们的HTML文…

tp网站开发东莞做网站公司首选

来源:网络大数据摘要:在智慧城市建设中,以支持政府决策为名的大数据中心建设如火如荼,但利用大数据改进决策的成功案例却鲜有,与大数据中心的投资不成比例,令人质疑大数据中心遍地开花模式的合理性。一、政…

色彩搭配 网站学校网站建设市场

写时复制和写时拷贝是一个意思写时复制是一种策略,并不是Linux独有的,如果你正在设计某个系统架构,也可以参考这种思想。写时复制的英文解释如下Copy-on-write (sometimes referred to as "COW") is an optimization strategy used…

2025超声波清洗机厂家TOP企业品牌推荐排行榜,龙门式,悬挂式,全自动,多臂式,多槽式,履带式,通过式,单槽式,摆动式,平移式超声波清洗机公司推荐!

随着电子、机械、医疗、汽车、新能源等精密制造行业的快速发展,对零部件清洗的精度、效率和环保要求日益提升,超声波清洗机作为关键清洗设备,市场需求持续增长。然而,当前超声波清洗机市场品牌众多,产品质量与服务…

SQL:concat函数(连接字符串)

使用方法: CONCAT(str1,str2,…) 返回结果为连接参数产生的字符串。如有任何一个参数为NULL ,则返回值为 NULL。 注意: 如果所有参数均为非二进制字符串,则结果为非二进制字符串。 如果自变量中含有任一二进制字符…

2025 北京地下室防潮品牌最新推荐排行榜:TOP3 实力品牌出炉,精准解决地下空间潮湿难题

北京地下室受季风气候与建筑结构影响,潮湿问题成为用户长期痛点:别墅地下室墙面霉变影响居住体验,住宅地下储藏室家具受潮损坏增加经济成本,公共建筑地下空间潮湿还可能滋生细菌威胁健康。当前市场上,防潮产品质量…

python脚本统计fastq数据的GC含量

001、(base) [b20223040323@admin1 test]$ ls SRR1770413_1.fastq test.py (base) [b20223040323@admin1 test]$ cat test.py ## 脚本 #!/usr/bin/env python # -*- coding:utf-8 -*-in_file = open(&qu…

第一次软件工程作业

这个作业属于哪个课程 https://edu.cnblogs.com/campus/fzu/202501SoftwareEngineering这个作业要求在哪里 https://edu.cnblogs.com/campus/fzu/202501SoftwareEngineering/homework/13546这个作业的目标 学习使用git…

网站开发范围说明书自媒体服务平台

项目源码获取方式见文章末尾! 600多个深度学习项目资料,快来加入社群一起学习吧。 《------往期经典推荐------》 项目名称 1.【DDRNet模型创新实现人像分割】 2.【卫星图像道路检测DeepLabV3Plus模型】 3.【GAN模型实现二次元头像生成】 4.【CNN模型实…

2025 年仿石漆品牌最新推荐排行榜:聚焦真石漆仿石漆,水包砂仿石漆,冠晶石仿石漆,外墙仿石漆,多彩仿石漆供采购参考

当前仿石漆行业规模持续扩大,市场上品牌数量激增,但产品质量与服务水平差异显著。部分产品存在仿石效果失真、耐候性差、环保不达标等问题,不仅影响建筑外观耐久性,还可能对环境和人体健康构成威胁。采购方在选择时…

基于Hadoop的美妆产品网络评价的数据采集与分析-django+spider - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

关于数颜色

维护区间颜色数的一个较常用方法是说我维护某颜色最后一个出现的点在哪里,比如 HH 的项链和采花。 在一棵树上的时候,我们如果是信息是维护到一个点上,那么我们可以考虑dsu on tree,如果是说维护比如叶子到某一个点…

东莞建设工程交易网seo优化案例

本文适用于安装或更新tomcat版本。 1.进入tomcat目录,查看当前tomcat版本 cd /usr/local/tomcat/bin ./version.sh 2.备份原tomcat 可以拷贝原tomcat,或者直接修改原tomcat的文件夹名称作为备份。 cd /usr/local/ #方法1:创建目录&…

商城网站开发背景主流科技类的网站都有哪些

前言: 本文总结的常见机器学习算法(主要是一些常规分类器)大概流程和主要思想。 朴素贝叶斯: 有以下几个地方需要注意: 1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以…

欧美网站欣赏网站站长seo推广

写在前面:Python是一种广泛使用的高级编程语言,以其简洁易读的代码和强大的库支持而受到开发者的青睐。作为一名刚开始学习Python的新手,或许您会对如何系统地学习这门语言感到困惑。接下来,我将为您提供一个详细的Python学习路线…

网站建设是多少钱企业展示建设网站

前言:由于运维反馈帮忙计算云主机的费用,特编写此脚本进行运算 如图,有如下excel数据 计算过程中需用到数据库中的数据,故封装了一个读取数据库的类 import MySQLdb from sshtunnel import SSHTunnelForwarderclass SSHMySQL(ob…

诚信液压阀块定制厂家推荐榜:实力制造与精准工艺口碑之选

诚信液压阀块定制厂家推荐榜:实力制造与精准工艺口碑之选在工业自动化快速发展的今天,液压系统作为各类机械设备的核心动力传输装置,其性能优劣直接影响整机工作效率与可靠性。而液压阀块作为液压系统的控制中枢,其…

用jsp做电影网站的界面wordpress系统安装教程视频

前言 在上一篇文章中,我们介绍了react-hook-form-mui的基础用法。本文将着表单数据处理。 react-hook-form-mui提供了丰富的表单数据处理功能,可以通过watch属性来获取表单数据。 Demo 下面是一个使用watch属性的例子: import React from…

英文网站注意事项海南信息港官网

海外电商面临的市场竞争激烈,如何在海外市场获客成为了摆在许多卖家面前的难题。而在这个问题的解决方案中,海外云手机崭露头角,成为助力电商引流的新利器。 在当前市场中,云手机主要用于游戏挂机,但其潜力在海外电商领…

算法导论图论部分总结

图的表示图 \(G = (V,E)\),其中 \(V\) 为点集,\(E\) 为边集邻接矩阵:顾名思义为矩阵,\(a_{i,j}\) 表示边 \((i,j)\) 的信息。优点是可以进行矩阵乘法,可以方便的判断 \((u,v) \in E\);缺点是空间复杂度为 \(O(V^…