搭建电商网站网站开发和数据库的关系

news/2025/9/23 22:41:46/文章来源:
搭建电商网站,网站开发和数据库的关系,官方网站投诉平台,哈尔滨做平台网站平台公司吗强化学习笔记 主要基于b站西湖大学赵世钰老师的【强化学习的数学原理】课程#xff0c;个人觉得赵老师的课件深入浅出#xff0c;很适合入门. 第一章 强化学习基本概念 第二章 贝尔曼方程 文章目录 强化学习笔记一、状态值函数贝尔曼方程二、贝尔曼方程的向量形式三、动作值…强化学习笔记 主要基于b站西湖大学赵世钰老师的【强化学习的数学原理】课程个人觉得赵老师的课件深入浅出很适合入门. 第一章 强化学习基本概念 第二章 贝尔曼方程 文章目录 强化学习笔记一、状态值函数贝尔曼方程二、贝尔曼方程的向量形式三、动作值函数参考资料 第一章我们介绍了强化学习的基本概念本章介绍强化学习中一个重要的概念——贝尔曼方程. 一、状态值函数贝尔曼方程 贝尔曼方程Bellman Equation也称为贝尔曼期望方程用于计算给定策略 π \pi π时价值函数在策略指引下所采轨迹上的期望。考虑如下一个随机轨迹 S t → A t R t 1 , S t 1 → A t 1 R t 2 , S t 2 → A t 2 R t 3 , … \begin{aligned} S_t\xrightarrow{A_t}R_{t1},S_{t1}\xrightarrow{A_{t1}}R_{t2},S_{t2}\xrightarrow{A_{t2}}R_{t3},\ldots \\ \end{aligned} ​​​​St​At​ ​Rt1​,St1​At1​ ​Rt2​,St2​At2​ ​Rt3​,…​ 那么累积回报 G t G_t Gt​可以写成如下形式 G t R t 1 γ R t 2 γ 2 R t 3 … , R t 1 γ ( R t 2 γ R t 3 … ) , R t 1 γ G t 1 . \begin{aligned} G_t R_{t1}\gamma R_{t2}\gamma^2R_{t3}\ldots, \\ R_{t1}\gamma(R_{t2}\gamma R_{t3}\ldots), \\ R_{t1}\gamma G_{t1}. \end{aligned} Gt​​Rt1​γRt2​γ2Rt3​…,Rt1​γ(Rt2​γRt3​…),Rt1​γGt1​.​ 状态值函数的贝尔曼方程为 v π ( s ) ≐ E π [ G t ∣ S t s ] E π [ R t 1 γ G t 1 ∣ S t s ] ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ v π ( s ′ ) ] , ∀ s ∈ S . \begin{aligned} v_{\pi}(s) \doteq\mathbb{E}_{\pi}[G_{t}\mid S_{t}s] \\ \mathbb{E}_{\pi}[R_{t1}\gamma G_{t1}\mid S_{t}s] \\ \sum_a\pi(a|s)\sum_{s,r}p(s,r|s,a)\Big[r\gamma v_\pi(s)\Big],\quad\forall s\in\mathcal{S}. \end{aligned} vπ​(s)​≐Eπ​[Gt​∣St​s]Eπ​[Rt1​γGt1​∣St​s]a∑​π(a∣s)s′,r∑​p(s′,r∣s,a)[rγvπ​(s′)],∀s∈S.​ 由值函数的定义出发得到了一个关于 v v v的递推关系 下面再来详细的推导一下贝尔曼方程由回报的定义可以将 G t G_t Gt​拆成两部分 v π ( s ) E [ G t ∣ S t s ] E [ R t 1 γ G t 1 ∣ S t s ] E [ R t 1 ∣ S t s ] γ E [ G t 1 ∣ S t s ] . \begin{aligned} v_{\pi}\left(s\right) \mathbb{E}[G_{t}|S_{t}s] \\ \mathbb{E}[R_{t1}\gamma G_{t1}|S_{t}s] \\ \mathbb{E}[R_{t1}|S_{t}s]\gamma\mathbb{E}[G_{t1}|S_{t}s]. \end{aligned} vπ​(s)​E[Gt​∣St​s]E[Rt1​γGt1​∣St​s]E[Rt1​∣St​s]γE[Gt1​∣St​s].​ 首先考虑第一部分 E [ R t 1 ∣ S t s ] \mathbb{E}[R_{t1}|S_ts] E[Rt1​∣St​s]全概率公式的应用 E [ R t 1 ∣ S t s ] ∑ a π ( a ∣ s ) E [ R t 1 ∣ S t s , A t a ] ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r . \begin{aligned}\mathbb{E}[R_{t1}|S_ts]\sum_a\pi(a|s)\mathbb{E}[R_{t1}|S_ts,A_ta]\\\sum_a\pi(a|s)\sum_rp(r|s,a)r. \end{aligned} E[Rt1​∣St​s]​a∑​π(a∣s)E[Rt1​∣St​s,At​a]a∑​π(a∣s)r∑​p(r∣s,a)r.​ 再来考虑第二部分 E [ G t 1 ∣ S t s ] \mathbb{E}[G_{t1}|S_ts] E[Gt1​∣St​s]第二个等式用到马尔可夫性质和全概率公式 E [ G t 1 ∣ S t s ] ∑ s ′ E [ G t 1 ∣ S t s , S t 1 s ′ ] p ( s ′ ∣ s ) ∑ s ′ E [ G t 1 ∣ S t 1 s ′ ] p ( s ′ ∣ s ) ∑ s ′ v π ( s ′ ) p ( s ′ ∣ s ) ∑ v π ( s ′ ) ∑ p ( s ′ ∣ s , a ) π ( a ∣ s ) . \begin{aligned} \mathbb{E}\left[G_{t1}|S_{t}s\right] \sum_{s^{\prime}}\mathbb{E}[G_{t1}|S_{t}s,S_{t1}s^{\prime}]p(s^{\prime}|s) \\ \sum_{s}\mathbb{E}[G_{t1}|S_{t1}s]p(s|s) \\ \sum_{s^{\prime}}v_{\pi}(s^{\prime})p(s^{\prime}|s) \\ \sum v_{\pi}(s^{\prime})\sum p(s^{\prime}|s,a)\pi(a|s). \end{aligned} E[Gt1​∣St​s]​s′∑​E[Gt1​∣St​s,St1​s′]p(s′∣s)s′∑​E[Gt1​∣St1​s′]p(s′∣s)s′∑​vπ​(s′)p(s′∣s)∑vπ​(s′)∑p(s′∣s,a)π(a∣s).​ 以上两部分合起来 v π ( s ) E [ R t 1 ∣ S t s ] γ E [ G t 1 ∣ S t s ] , ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r ⏟ mean of immediate rewards γ ∑ a π ( a ∣ s ) ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) , ⏟ mean of future rewards ∑ a π ( a ∣ s ) [ ∑ r p ( r ∣ s , a ) r γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ] , ∀ s ∈ S ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ v π ( s ′ ) ] , ∀ s ∈ S . \begin{aligned} v_{\pi}\left(s\right) \mathbb{E}[R_{t1}|S_{t}s]\gamma\mathbb{E}[G_{t1}|S_{t}s], \\ \begin{aligned}\underbrace{\sum_a\pi(a|s)\sum_rp(r|s,a)r}_{\text{mean of immediate rewards}}\underbrace{\gamma\sum_a\pi(a|s)\sum_{s}p(s|s,a)v_\pi(s),}_{\text{mean of future rewards}}\end{aligned} \\ \sum_a\pi(a|s)\left[\sum_rp(r|s,a)r\gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})\right],\forall s\in\mathcal{S}\\ \sum_a\pi(a|s)\sum_{s,r}p(s,r|s,a)\Big[r\gamma v_\pi(s)\Big],\quad \forall s\in\mathcal{S}. \end{aligned} vπ​(s)​E[Rt1​∣St​s]γE[Gt1​∣St​s],mean of immediate rewards a∑​π(a∣s)r∑​p(r∣s,a)r​​mean of future rewards γa∑​π(a∣s)s′∑​p(s′∣s,a)vπ​(s′),​​​a∑​π(a∣s)[r∑​p(r∣s,a)rγs′∑​p(s′∣s,a)vπ​(s′)],∀s∈Sa∑​π(a∣s)s′,r∑​p(s′,r∣s,a)[rγvπ​(s′)],∀s∈S.​ Note: 贝尔曼公式给出了值函数的一个递推关系式当前状态的值函数可以由下一状态的值函数完全确定 下面的树状图形象的刻画了贝尔曼方程中几个求和符合各变量之间的关系 实例 仍然是agent-网格问题绿色箭头表示当前策略 二、贝尔曼方程的向量形式 我们将贝尔曼公式拆成两项之和的形式 v π ( s ) r π ( s ) γ ∑ s ′ p π ( s ′ ∣ s ) v π ( s ′ ) , v_\pi(s)r_\pi(s)\gamma\sum_{s^{\prime}}p_\pi(s^{\prime}|s)v_\pi(s^{\prime}), vπ​(s)rπ​(s)γs′∑​pπ​(s′∣s)vπ​(s′),其中 r π ( s ) ≜ ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r , p π ( s ′ ∣ s ) ≜ ∑ a π ( a ∣ s ) p ( s ′ ∣ s , a ) . \begin{aligned}r_\pi(s)\triangleq\sum_a\pi(a|s)\sum_rp(r|s,a)r,\quad p_\pi(s|s)\triangleq\sum_a\pi(a|s)p(s|s,a)\end{aligned}. rπ​(s)≜a∑​π(a∣s)r∑​p(r∣s,a)r,pπ​(s′∣s)≜a∑​π(a∣s)p(s′∣s,a)​. 假设状态为 s i ( i 1 , … , n ) s_i(i1, \ldots, n) si​(i1,…,n)对于状态 s i s_i si​, Bellman方程为 v π ( s i ) r π ( s i ) γ ∑ s j p π ( s j ∣ s i ) v π ( s j ) ∀ i 1 , … , n v_\pi\left(s_i\right)r_\pi\left(s_i\right)\gamma \sum_{s_j} p_\pi\left(s_j \mid s_i\right) v_\pi\left(s_j\right) \quad\forall i1,\ldots ,n vπ​(si​)rπ​(si​)γsj​∑​pπ​(sj​∣si​)vπ​(sj​)∀i1,…,n 把所有状态的方程放在一起重写成矩阵-向量的形式 v π r π γ P π v π v_\pir_\pi\gamma P_\pi v_\pi vπ​rπ​γPπ​vπ​ 其中 v π [ v π ( s 1 ) , … , v π ( s n ) ] T ∈ R n v_\pi\left[v_\pi\left(s_1\right), \ldots, v_\pi\left(s_n\right)\right]^T \in \mathbb{R}^n vπ​[vπ​(s1​),…,vπ​(sn​)]T∈Rn r π [ r π ( s 1 ) , … , r π ( s n ) ] T ∈ R n r_\pi\left[r_\pi\left(s_1\right), \ldots, r_\pi\left(s_n\right)\right]^T \in \mathbb{R}^n rπ​[rπ​(s1​),…,rπ​(sn​)]T∈Rn P π ∈ R n × n P_\pi \in \mathbb{R}^{n \times n} Pπ​∈Rn×n其中 [ P π ] i j p π ( s j ∣ s i ) \left[P_\pi\right]_{i j}p_\pi\left(s_j \mid s_i\right) [Pπ​]ij​pπ​(sj​∣si​)为状态转移矩阵 实例 给定一个策略算出出相应的状态值被称为策略评估这是强化学习的一个基本问题。而通过上面的介绍我们知道要得到state value可以求解贝尔曼方程。由刚刚介绍的贝尔曼方程矩阵形式 v π r π γ P π v π v_\pir_\pi\gamma P_\pi v_\pi vπ​rπ​γPπ​vπ​易得 v π ( I − γ P π ) − 1 r π v_\pi(I-\gamma P_\pi)^{-1}r_\pi vπ​(I−γPπ​)−1rπ​ 但矩阵的求逆是 O ( n 3 ) O(n^3) O(n3)的复杂度当矩阵很大时求解效率很低。所以我们通常不用这个方法来解贝尔曼方程而是采用迭代法下一章详细介绍.迭代法格式如下 v k 1 r π γ P π v k \begin{aligned}v_{k1}r_\pi\gamma P_\pi v_k\end{aligned} vk1​rπ​γPπ​vk​​给定一个初始值 v 0 v_0 v0​可以得到迭代序列 { v 0 , v 1 , v 2 , … } . \{v_0,v_1,v_2,\ldots\}. {v0​,v1​,v2​,…}. 并且可以证明 v k → v π ( I − γ P π ) − 1 r π , k → ∞ v_k\to v_\pi(I-\gamma P_\pi)^{-1}r_\pi,\quad k\to\infty vk​→vπ​(I−γPπ​)−1rπ​,k→∞ 也就是可以用迭代法通过有限次迭代得到一个近似值. 三、动作值函数 由状态值函数与动作值函数的关系我们有 v π ( s ) ∑ a π ( a ∣ s ) q π ( s , a ) . v_\pi(s)\sum_a\pi(a|s)q_\pi(s,a). vπ​(s)a∑​π(a∣s)qπ​(s,a). 上小节关于状态值函数的贝尔曼方程为 v π ( s ) ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ v π ( s ′ ) ] v_{\pi}(s)\sum_a\pi(a|s)\sum_{s,r}p(s,r|s,a)\Big[r\gamma v_\pi(s)\Big] vπ​(s)a∑​π(a∣s)s′,r∑​p(s′,r∣s,a)[rγvπ​(s′)] 两式对比我们可以得到动作值函数的贝尔曼方程 q π ( s , a ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r γ v π ( s ′ ) ] q_\pi(s,a)\sum_{s,r}p(s,r|s,a)\Big[r\gamma v_\pi(s)\Big] qπ​(s,a)s′,r∑​p(s′,r∣s,a)[rγvπ​(s′)] 总结一下 参考资料 Zhao, S… Mathematical Foundations of Reinforcement Learning. Springer Nature Press and Tsinghua University Press.Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. MIT press, 2018.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/914123.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎样做才能让百度前两页有自己网站内容福州百度快速优化

一、导出数据库用mysqldump命令:注意mysql的安装路径,即此命令的路径1、导出数据和表结构:mysqldump -u用户名 -p密码 数据库名 > 数据库名.sql#/usr/local/mysql/bin/ mysqldump -uroot -p abc > abc.sql敲回车后会提示输入密码2、只…

中山网页模板建站wordpress 模块插件

结束了,大半年的干活结束了,后面就是自己算法的大干活了。恩恩,目测就是下一站省赛了,早点睡觉。晚安~ 留个地址后面ak掉。hust stodgersma 转载于:https://www.cnblogs.com/stodgers/p/3898317.html

中学网站asp模板建网站源码建站详解

文章目录 一、原理分析1.1 请求类型1.2 服务器解析 二、功能实现2.1 创建项目并导入依赖2.2 文件上传功能实现2.2.1 文件上传 Service2.2.2 文件上传 Controller 2.3 文件下载功能实现2.3.1 文件下载 Service2.3.2 文件下载 Controller 2.4 文件上传前端代码(可选)2.4.1 上传文…

软工第一次编程

Github地址链接:这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience/homework/13477…

jpegdump

https://blog.didierstevens.com/2018/01/29/new-tool-jpegdump-py/ https://blog.didierstevens.com/2022/09/02/update-jpegdump-py-version-0-0-10/Manual:The JPEG file format defines a JPEG file as a sequence…

浙江建设工程考试网站企业网站备案怎么做

码个蛋(codeegg)第 624 次推文作者:xiaoxiunique博客:https://juejin.im/post/5cd2ea425188254459335583做开发的我们肯定少不了跟网络数据打交道,我们都知道,我们进行网络请求,无论成功还是失败,后台都会给…

网站运营工作具体做啥政务服务网站建设汇报

之前了解了: 创建Django项目 数据库 模板 表格提交 admin管理页面 上面的功能模块允许我们做出一个具有互动性的站点,但无法验证用户的身份。我们这次了解用户验证部分。通过用户验证,我们可以根据用户的身份,提供不同的服务。 …

东莞市品牌网站建设道滘仿做网站

当我们须要调用系统的命令的时候,最先考虑的os模块。用os.system()和os.popen()来进行操作。可是这两个命令过于简单,不能完毕一些复杂的操作,如给执行的命令提供输入或者读取命令的输出,推断该命令的执行状态,管理多个…

沈阳制作公司网站和app自适应网站m域名必须做301

linux入门-常用命令的使用对于命令行的接触,最开始是window下的cmd,比如查看电脑ip地址、进入某一个文件夹、下载npm模块等等window cmdwindow ipconfig对于习惯了window桌面操作系统的用户来说,其实是比较少接触到命令行的,而在l…

设计人才网站做百度移动网站优

谈到索引,大家并不陌生。索引本身是一种数据结构,存在的目的主要是为了缩短数据检索的时间,最大程度减少磁盘 IO。任何有数据的场景几乎都有索引,比如手机通讯录、文件系统(ext4xfsfs)、数据库系统(MySQLOracle)。数据库系统和文件…

莱芜网络公司网站网站不备案打不开

青少年编程Python编程等级考试二级真题解析(选择题+判断题+编程题) 2023年9月 一、选择题(共25题,共50分) 以下代码运行结果是?( ) A. 宸宸 B. 杭杭 C. 玉玉 D. 州州 答案选:A 考点分析:考察python 列表操作 jxw=yyh[2][0],jxw的值是“拱宸桥”,jxw[1]的值是“宸”…

网上做衣服的网站关于做网站的书

1.农作物遥感分类 1.1 利用多时相环境星 CCD 数据作物分类识别实验 采用支持向量机分类器进行基于象素遥感影像分类方法。在分类过程中,分别对不同日期的单景环境星数据以及不同日期环境星数据的组合进行分类,以评价环境星在作物分类中的应用潜力&#x…

从软件开发公司到用户体验设计公司:如何实现全链路数字化产品服务

从软件开发公司到用户体验设计公司:如何实现全链路数字化产品服务在过去十年里,很多企业数字化项目的核心诉求是“软件要能跑”。因此,软件开发公司的主要价值在于实现业务逻辑与技术落地。然而,随着竞争加剧与用户…

欧派网站谁做的河北城乡建设官网站

我需要使用Guzzle检查数据库中的很多项目.例如,项目数量为2000-5000.将其全部加载到单个数组中太多了,因此我想将其分成多个块:SELECT * FROM items LIMIT100.当最后一个项目发送到Guzzle时,则请求下一个100个项目.在“已满”处理程序中,我应该知道哪个项目得到了响…

9.23总结

今天是9.23,今天星期二,上午上了一上午的工程实训课,我们了解了激光的种类和雕刻的技术,并且自己动手雕刻了一些东西。体验到了自己动手的快乐。中午写了一会儿代码,然后睡了午觉,到下午该上英语课的时候,才睡醒…

日志|力扣|不同路径|最小路径和|动态规划|Javase|IO|File|Javaweb

力扣 62.不同路径思路:自顶向下,dp[i][j]表示(0,0)->(i,j)的路径和,dp数组就是当前格子可走的路径数也就是左边和右边的dp[i][j] = dp[i-1][j] + dp[i][j-1];,迭代填满二维数组,最后一个就是答案。点击查看…

如何建立 5 μm 精度的视觉检测?不仅仅是相机的事

如何建立 5 μm 精度的视觉检测?不仅仅是相机的事pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas"…

网站服务名词解释wordpress 用户 新增

PyTorch深度学习总结 第一章 Pytorch中张量(Tensor)的生成 文章目录 PyTorch深度学习总结一、什么是PyTorch?二、张量(Tensor)1、张量的数据类型2、张量生成和信息获取 总结 一、什么是PyTorch? PyTorch是一个开源的深度学习框架,基于Python…

网站建设类型有哪些小程序定制开发多少费用

前言 element提供的的message消息提示用确实方便直接代码就搞定。但是在特定的场景并不适用 点击某一个点位提示用户点击了或者websocket推送提示用户来信息了(这种提示用户场景) 如果有很多推送信息来,或者用户一直点击。这是屏幕会一直弹…

网站做受网站网站型建设模板

这是DevOps系列的第六节,我们开始安装DockerDebian 上安装可以基于最新debian10的发行版,我现在还用着debian9,不过随后,我会发出Windows / macOs / Ubuntu的参考。安装如果您已经是root用户,则无需使用sudo1、卸载任何…