网站最新程序策划书推荐个好看的网站

news/2025/9/30 14:22:38/文章来源:
网站最新程序策划书,推荐个好看的网站,数据库网站开发工具,暴雪倒闭目录 0 专栏介绍1 时序差分强化学习2 策略评估原理3 策略改进原理3.1 SARSA算法3.2 Q-Learning算法 0 专栏介绍 本专栏重点介绍强化学习技术的数学原理#xff0c;并且采用Pytorch框架对常见的强化学习算法、案例进行实现#xff0c;帮助读者理解并快速上手开发。同时#… 目录 0 专栏介绍1 时序差分强化学习2 策略评估原理3 策略改进原理3.1 SARSA算法3.2 Q-Learning算法 0 专栏介绍 本专栏重点介绍强化学习技术的数学原理并且采用Pytorch框架对常见的强化学习算法、案例进行实现帮助读者理解并快速上手开发。同时辅以各种机器学习、数据处理技术扩充人工智能的底层知识。 详情《Pytorch深度强化学习》 1 时序差分强化学习 在Pytorch深度强化学习1-5详解蒙特卡洛强化学习原理中我们指出在现实的强化学习任务中转移概率、奖赏函数甚至环境中存在哪些状态往往很难得知因此有模型强化学习在实际应用中不可行而需要免模型学习技术即假设转移概率和环境状态未知奖赏也仅是根据经验或需求设计。蒙特卡洛强化学习正是免模型学习中的一种其核心思想是使用蒙特卡洛方法来估计各个状态-动作对的值函数。通过对大量的样本进行采样并根据它们的累积奖励来评估状态-动作对的价值智能体可以逐步学习到最优策略。 本节介绍的时序差分强化学习(Temporal Difference Reinforcement Learning)则是另一类免模型学习算法它结合了动态规划和蒙特卡洛强化学习的优点用于在未知环境中进行决策。 2 策略评估原理 策略评估本质上是求解状态值函数 V π ( s ) V^{\pi}\left( s \right) Vπ(s)或状态-动作值函数 Q π ( s , a ) Q^{\pi}\left( s,a \right) Qπ(s,a)数值越大表明策略回报越高。从定义出发蒙特卡洛强化学习核心是采样近似基于采样的算法通常采用增量更新方式节省内存 Q π ( s , a ) E [ R t ] ∣ s t s , a t a ≈ 1 n ∑ i 1 n R t , i n 次增量 Q π ( s , a ) × c o u n t ( s , a ) R t c o u n t ( s , a ) 1 n 次增量 Q π ( s , a ) 1 c o u n t ( s , a ) 1 ( R t − Q π ( s , a ) ) \begin{aligned}Q^{\pi}\left( s,a \right) \mathbb{E} \left[ R_t \right] \mid_{s_ts,a_ta}^{}\\\approx \frac{1}{n}\sum_{i1}^n{R_{t,i}}\\\xlongequal{n\text{次增量}}\frac{Q^{\pi}\left( s,a \right) \times \mathrm{count}\left( s,a \right) R_t}{\mathrm{count}\left( s,a \right) 1}\\\xlongequal{n\text{次增量}}Q^{\pi}\left( s,a \right) \frac{1}{\mathrm{count}\left( s,a \right) 1}\left( R_t-Q^{\pi}\left( s,a \right) \right)\end{aligned} Qπ(s,a)​E[Rt​]∣st​s,at​a​≈n1​i1∑n​Rt,i​n次增量 count(s,a)1Qπ(s,a)×count(s,a)Rt​​n次增量 Qπ(s,a)count(s,a)11​(Rt​−Qπ(s,a))​ 因为采样过程通常以万次计因此可以用一个较小的正数 α \alpha α来描述超参数 α \alpha α可理解为模型的学习率 R t − Q π ( s , a ) R_t-Q^{\pi}\left( s,a \right) Rt​−Qπ(s,a)称为蒙特卡洛误差 Q π ( s , a ) n 次增量 Q π ( s , a ) α ( R t − Q π ( s , a ) ) Q^{\pi}\left( s,a \right) \xlongequal{n\text{次增量}}Q^{\pi}\left( s,a \right) \alpha \left( R_t-Q^{\pi}\left( s,a \right) \right) Qπ(s,a)n次增量 Qπ(s,a)α(Rt​−Qπ(s,a)) 动态规划强化学习核心是自我迭代 Q π ( s , a ) E [ R t ] ∣ s t s , a t a ∑ s ′ ∈ S P s → s ′ a [ R s → s ′ a γ ∑ a ′ ∈ A π ( s ′ , a ′ ) Q π ( s ′ , a ′ ) ] Q^{\pi}\left( s,a \right) \mathbb{E} \left[ R_t \right] \mid_{s_ts,a_ta}^{}\sum_{s\in S}{P_{s\rightarrow s}^{a}}\left[ R_{s\rightarrow s}^{a}\gamma \sum_{a\in A}{\pi \left( s,a \right) Q^{\pi}\left( s,a \right)} \right] Qπ(s,a)E[Rt​]∣st​s,at​a​s′∈S∑​Ps→s′a​[Rs→s′a​γa′∈A∑​π(s′,a′)Qπ(s′,a′)] 根据动态特性和当前 Q π ( s , a ) Q^{\pi}\left( s,a \right) Qπ(s,a)具体计算出下一次迭代的 Q π ( s , a ) Q^{\pi}\left( s,a \right) Qπ(s,a) 动态规划强化学习的优点是计算准确且效率高但无法适应无模型场景蒙特卡洛强化学习的优点是克服无模型障碍但有更新延迟现象。时序差分强化学习是动态规划与蒙特卡洛的折中 Q π ( s t , a t ) n 次增量 Q π ( s t , a t ) α ( R t − Q π ( s t , a t ) ) n 次增量 Q π ( s t , a t ) α ( r t 1 γ R t 1 − Q π ( s t , a t ) ) n 次增量 Q π ( s t , a t ) α ( r t 1 γ Q π ( s t 1 , a t 1 ) − Q π ( s t , a t ) ) ⏟ 采样 \begin{aligned}Q^{\pi}\left( s_t,a_t \right) \xlongequal{n\text{次增量}}Q^{\pi}\left( s_t,a_t \right) \alpha \left( R_t-Q^{\pi}\left( s_t,a_t \right) \right) \\\,\, \xlongequal{n\text{次增量}}Q^{\pi}\left( s_t,a_t \right) \alpha \left( r_{t1}\gamma R_{t1}-Q^{\pi}\left( s_t,a_t \right) \right) \\\,\, \xlongequal{n\text{次增量}}{ \underset{\text{采样}}{\underbrace{Q^{\pi}\left( s_t,a_t \right) \alpha \left( r_{t1}{ \gamma Q^{\pi}\left( s_{t1},a_{t1} \right) }-Q^{\pi}\left( s_t,a_t \right) \right) }}}\end{aligned} Qπ(st​,at​)​n次增量 Qπ(st​,at​)α(Rt​−Qπ(st​,at​))n次增量 Qπ(st​,at​)α(rt1​γRt1​−Qπ(st​,at​))n次增量 采样 Qπ(st​,at​)α(rt1​γQπ(st1​,at1​)−Qπ(st​,at​))​​​ 其中 r t 1 γ Q π ( s t 1 , a t 1 ) − Q π ( s t , a t ) r_{t1}\gamma Q^{\pi}\left( s_{t1},a_{t1} \right) -Q^{\pi}\left( s_t,a_t \right) rt1​γQπ(st1​,at1​)−Qπ(st​,at​)称为时序差分误差。当时序差分法只使用一步实际奖赏时称为 T D ( 0 ) TD(0) TD(0)算法扩展为 T D ( n ) TD(n) TD(n)算法当 n n n充分大时退化为蒙特卡洛强化学习 3 策略改进原理 类似地时序差分强化学习同样分为同轨策略和离轨策略前者的代表性算法是SARSA算法后者的代表性算法是Q-learning算法 3.1 SARSA算法 SARSA算法流程图如下所示 3.2 Q-Learning算法 Q-Learning算法流程图如下所示 更多精彩专栏 《ROS从入门到精通》《Pytorch深度学习实战》《机器学习强基计划》《运动规划实战精讲》… 源码获取 · 技术交流 · 抱团学习 · 咨询分享 请联系

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/922924.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【WCH蓝牙系列芯片】-基于CH592开发板——HID_Keyboard中添加读、写、通知的服务属性

【WCH蓝牙系列芯片】-基于CH592开发板——HID_Keyboard中添加读、写、通知的服务属性--------------------------------------------------------------------------------------------------------------------------…

2025 年 AI 健康管理厂商最新推荐榜单:覆盖多场景需求,深护智康等优质品牌助力行业升级

随着 “AI + 健康管理” 模式在医疗、公卫、药店、母婴等多场景的深度渗透,市场对专业厂商的需求愈发迫切。当前行业面临传统系统定制成本高、服务效率低、细分场景支持不足等痛点,众多机构难以快速找到适配自身需求…

虚幻5.6插件添加自定义shader

主要是对官方文档的一个补充:虚幻引擎插件中的 Shader | 虚幻引擎 5.6 文档 | Epic Developer Community 添加虚拟源文件路径查看代码 void FYKComputeModule::StartupModule() {// 查找插件TSharedPtr<IPlugin>…

建设银行网站电脑版wordpress discuz

题目描述&#xff1a;给定一个可包含重复数字的序列 nums &#xff0c;按任意顺序 返回所有不重复的全排列。 题目链接&#xff1a;LeetCode-47-全排列Ⅱ 解题思路&#xff1a;注意题目中给的是包含重复数字&#xff0c;所以需要去重操作&#xff1b; 这道题不需要 startIndex&…

勒索软件速度危机:AI驱动下的网络安全新挑战

勒索软件攻击速度已从2019年的9天缩短至2025年的25分钟,增长100倍。AI技术正被用于网络犯罪,82.6%的网络钓鱼邮件采用AI技术。防御需依赖AI检测、自动化响应和XDR平台构建速度兼容的防御体系。勒索软件速度危机 当网…

在线考试小程序管理系统:一站式智能考试解决方案,助力多场景高效考核

在数字化学习与培训需求日益增长的当下,传统考试模式面临组织成本高、灵活性不足、数据统计难等痛点。由广西南宁诚客网络科技有限公司研发的在线考试小程序,依托微擎系统实现便捷部署,覆盖微信小程序端,整合丰富题…

快微商城小程序管理系统:助力商家搭建高效便捷的新零售平台

在互联网科技飞速发展的当下,传统租赁柜台与纯电商逐渐偏离零售服务核心,而小程序商城系统凭借便捷、低成本的优势成为零售行业新选择。快微商城作为专注于小程序开发的解决方案,涵盖微信小程序与抖音小程序定制开发…

2025最新布袋包装厂家推荐排行榜:布袋包装,布袋,手提袋,帆布袋定制,无纺布袋,布袋生产,云南布袋包装,茶叶布袋生产商优选指南

在 “双碳” 目标与 “限塑令” 深化的双重催化下,布袋包装市场规模年增速突破 28%,但行业乱象同步加剧:38% 的企业曾因厂商材料掺假遭遇售后纠纷,45% 的定制订单因产能不足延期交付,同质化产品占比更是高达 62%。…

KTV 娱乐小程序管理系统:数字化运营新选择,助力行业高效经营

在数字化浪潮席卷各行业的当下,KTV 行业也迎来了转型升级的契机。这款专为 KTV 娱乐行业打造的小程序,依托微信生态,整合了包厢预订、在线消费、会员管理等多项核心功能,通过微擎系统交付,为 KTV 商家提供了一站式…

城市电商小程序管理系统:助力商家搭建全渠道数字化经营体系

在数字化浪潮席卷各行各业的当下,线上线下融合的经营模式已成为零售及服务行业的必然趋势。多商家双版本城市电商小程序,作为一款功能全面、适配性强的电商解决方案,依托微擎系统交付优势,为商家提供微信公众号与微…

2025沈阳标识标牌厂家推荐排行榜:聚焦行业产能与技术实力,精选沈阳标识标牌优质企业供订做参考

当前标识标牌行业需求持续增长且愈发多样化,从商业综合体的导视系统到景区的标识建设,从医疗场所的智慧标识到交通领域的规范标牌,不同场景对产品的设计、材质、工艺要求差异显著。同时,行业内企业数量众多,部分企…

L05_新建springboot项目与新建helloword(菜鸟版)

这是一个操作演示,原理我也不知道,我值知道操作步骤,还是抄的。 简要介绍一下我的环境,IDEA2024专业版。 (看不懂英文的我下好了Chinese汉化插件,全部从Pycharm导过来的) 1.先新建一个文件夹,我命名为SpringBo…

Implicit Neural Representations with Periodic Activation Functions

[NIPS20] sin激活函数在INR中的应用Implicit Neural Representations with Periodic Activation Functions SIREN:讨论sin激活函数在INR中的应用 代码仓库 注:本文涉及了一些笔者不了解的领域,仅摘取笔者自身比较熟…

网站架构优化 ampwordpress解析图片调用的方法

1.什么是Rancher Rancher是一套容器管理平台&#xff0c;专门用于部署和管理容器化应用。以下是关于Rancher的详细介绍&#xff1a; 容器编排与管理&#xff1a;Rancher是一个开源的企业级容器管理平台&#xff0c;它支持Kubernetes作为其容器编排引擎。Rancher可以帮助用户在…

Oracle故障分析:数据库不能open下查看undo段的名字

我们的文章会在微信公众号IT民工的龙马人生和博客网站( www.htz.pw )同步更新 ,欢迎关注收藏,也欢迎大家转载,但是请在文章开始地方标注文章出处,谢谢! 由于博客中有大量代码,通过页面浏览效果更佳。Oracle故障分…

实用指南:智慧外贸平台|基于Java+vue的智慧外贸平台系统(源码+数据库+文档)

实用指南:智慧外贸平台|基于Java+vue的智慧外贸平台系统(源码+数据库+文档)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-fami…

ObservableCollection子项属性字段值变化的监听处理

ViewModel代码var userList = new List < GroupSelectMemberItemVo > (); foreach(ChatGroupUserRes chatGroupUserRese in DesktopConst.GroupUserSelectList) {var item = chatGroupUserRese.Adapt < Grou…

故障处理:Oracle一体机更换磁盘控制器后部分磁盘状态异常的案例处理

我们的文章会在微信公众号IT民工的龙马人生和博客网站( www.htz.pw )同步更新 ,欢迎关注收藏,也欢迎大家转载,但是请在文章开始地方标注文章出处,谢谢! 由于博客中有大量代码,通过页面浏览效果更佳。这是今年和朋…

凡科建站怎么做微网站广州市专业做网站

废话不多说直接上代码 class 派生类名:&#xff3b;继承方式&#xff3d; 基类名{ 派生类新增加的成员 }; 继承方式限定了基类成员在派生类中的访问权限&#xff0c;包括 public&#xff08;公有的&#xff09;、private&#xff08;私有的&#xff09;和 protected&…

大模型落地实践指南:从技术路径到企业级解决强大的方案

大模型落地实践指南:从技术路径到企业级解决强大的方案pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas&…