东莞北京网站建设价格知名的wordpress主题

web/2025/10/3 6:43:07/文章来源:
东莞北京网站建设价格,知名的wordpress主题,网站建设个人网上银行,wordpress主机中文网前言#xff1a; 在现实的学习任务中#xff0c;环境 其中的转移概率P,奖赏函数R 是未知的#xff0c;或者状态X也是未知的 称为免模型学习#xff08;model-free learning#xff09; 目录#xff1a; 1: 蒙特卡洛强化学习 2#xff1a;同策略-蒙特卡洛强化学习 3 在现实的学习任务中环境  其中的转移概率P,奖赏函数R 是未知的或者状态X也是未知的 称为免模型学习model-free learning 目录 1:  蒙特卡洛强化学习 2同策略-蒙特卡洛强化学习 3 异策略- 蒙特卡洛强化学习 一  蒙特卡洛强化学习 在免模型学习的情况下策略迭代算法会遇到两个问题 1:  是策略无法评估             因为无法做全概率展开。此时 只能通过在环境中执行相应的动作观察得到的奖赏和转移的状态、                解决方案一种直接的策略评估代替方法就是“采样”然后求平均累积奖赏作为期望累积奖赏的近似这称为“蒙特卡罗强化学习”。 2:  策略迭代算法估计的是 状态值函数state value function V而最终的策略是通过 状态        动作值函数state-action value function Q 来获得。         模型已知时有很简单的从 V 到 Q 的转换方法而模型未知 则会出现困难。                解决方案所以我们将估计对象从 V 转为 Q即估计每一对 “状态-动作”的值函数。 模型未知的情况下我们从起始状态出发使用某种策略进行采样执行该策略T步 并获得轨迹 , 然后 对轨迹中出现的每一对 状态-动作,记录其后的奖赏之和,作为 状态-动作 对的一次 累积奖赏采样值. 多次采样得到多条轨迹后将每个状态-动作对的累积奖赏采样值进行平均。即得到 状态-动作值函数的估计. 二  同策略蒙特卡洛强化学习 要获得好的V值函数估计,就需要不同的采样轨迹。  我们将确定性的策略 称为原始策略 原始策略上使用 -贪心法的策略记为 以概率 选择策略1:           策略1    以概率    选择策略2        策略2均匀概率选取动作, 对于最大化值函数的原始策略 其中贪心策略中: 当前最优动作被选中的概率    每个非最优动作选中的概率 多次采样后将产生不同的采样轨迹。 因此对于最大值函数的原始策略,同样有 算法中每采样一条轨迹就根据该轨迹涉及的所有状态-动作对值函数进行更新 同策略蒙特卡罗强化学习算法最终产生的是E-贪心策略。然而引入E-贪心策略是为了便于策略评估而不是最终使用 三  同策略蒙特卡洛算法 Python # -*- coding: utf-8 -*-Created on Fri Nov 3 09:37:32 2023author: chengxf2 # -*- coding: utf-8 -*-Created on Thu Nov 2 19:38:39 2023author: cxf import random from enum import Enumclass State(Enum):状态空间XshortWater 1 #缺水health 2 #健康overflow 3 #溢水apoptosis 4 #凋亡class Action(Enum):动作空间Awater 1 #浇水noWater 2 #不浇水class Env():def reward(self, nextState):r -100if nextState is State.shortWater:r -1elif nextState is State.health:r 1elif nextState is State.overflow:r -1else:r -100return rdef action(self, state, action):if state is State.shortWater:#print(\n state--- ,state, \t action---- ,action)if action is Action.water :S [State.shortWater, State.health]proba [0.5, 0.5]else:S [State.shortWater, State.apoptosis]proba [0.4, 0.6]elif state is State.health:#健康if action is Action.water :S [State.health, State.overflow]proba [0.6, 0.4]else:S [State.shortWater, State.health]proba [0.6, 0.4]elif state is State.overflow:#溢水if action is Action.water :S [State.overflow, State.apoptosis]proba [0.6, 0.4]else:S [State.health, State.overflow]proba [0.6, 0.4]else: #凋亡S [State.apoptosis]proba [1.0]#print(\n S,S, \t prob ,proba)nextState random.choices(S, proba)[0]r self.reward(nextState)#print(\n nextState ,nextState,\t reward ,r)return nextState,rdef __init__(self):self.X Noneclass Agent():def initPolicy(self):self.Q {}self.count {}brandom True #使用随机策略for state in self.S:for action in self.A:self. Q[state, action] 0self.count[state,action] 0randProb [0.5,0.5]return self.Q, self.count, randProb,brandomdef randomPolicy(self,randProb,T):A self.Aenv Env()state State.shortWater #从缺水开始history []for t in range(T):a random.choices(A, randProb)[0]nextState,r env.action(state, a)item [state,a,r,nextState]history.append(item)state nextStatereturn historydef runPolicy(self,policy,T):env Env()state State.shortWater #从缺水开始history []for t in range(T):action policy[state]nextState,r env.action(state, action)item [state,action,r,nextState]history.append(item)state nextStatereturn historydef getTotalReward(self, t,T, history):denominator T -ttotalR 0.0for i in range(t,T):#列表下标为0 开始所以不需要t1r history[i][2]totalR rreturn totalR/denominatordef updateQ(self, t ,history,R):#[state,action,r,nextState]state history[t][0]action history[t][1]count self.count[state,action]self.Q[state, action] (self.Q[state,action]*countR)/(count1)self.count[state,action] count1def learn(self):Q,count,randProb,bRandom self.initPolicy()T 10policy {}for s in range(1,self.maxIter): #采样第S 条轨迹if bRandom: #使用随机策略history self.randomPolicy(randProb, T)#print(history)else:print(\n 迭代次数 %d%s ,\t 缺水,policy[State.shortWater].name,\t 健康,policy[State.health].name,\t 溢水,policy[State.overflow].name,\t 凋亡,policy[State.apoptosis].name)history self.runPolicy(policy, T)#已经有了一条轨迹了for t in range(0,T-1):R self.getTotalReward(t, T, history)self.updateQ(t, history, R)rand random.random()if rand self.epsilon: #随机策略执行bRandom Trueelse:bRandom Falsefor state in self.S:maxR self.Q[state, self.A[0]]for action in self.A:r self.Q[state,action]if rmaxR:policy[state] actionmaxR rreturn policydef __init__(self):self.S [State.shortWater, State.health, State.overflow, State.apoptosis]self.A [Action.water, Action.noWater]self.Q {}self.count {}self.policy {}self.maxIter 5self.epsilon 0.2if __name__ __main__:agent Agent()agent.learn()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/86072.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

临沂网站制作企业企业公司信息网

gwt格式由于多种原因 ,许多GWT用户放弃了RPC机制,这是GWT提供的调用后端的标准方法。 他们发现,在GWT RequestBuilder与其他可能不适合其应用程序模型的外部库之间迷失了自己。 这篇文章的目的是要通过GWT中众所周知的HTTP / Rest库来尝试使情…

北京品牌网站北京学生聚集

java内存泄漏和内存溢出总览 术语“内存泄漏”在Java中的使用方式不同于在其他语言中使用的方式。 通用术语中的“内存泄漏”是什么意思,在Java中如何使用? 维基百科的定义 当计算机程序消耗内存但无法将其释放回操作系统时,就会发生计算机科…

谷歌网站管理员账号永久网站

正则表达式中的前瞻和后顾。 前瞻(Lookahead) 前瞻是一种断言,它会检查在当前位置之后是否存在某种模式,但不会实际匹配该模式。前瞻有两种形式: 正向前瞻 (?pattern) 检查当前位置之后是否存在指定的模式如果存在,则匹配成功,但不会消耗该模式例如 \w(?\d) 将匹配后面跟数…

php网站开发实施方案广州模板建站哪家好

这个问题中的两个数字,都是超出范围的,所以就不能简单的把两个数字,转为Number类型,进行相加。 需要取两个数字的每一位,进行相加,大于10,就进1,把结果保存在一个字符串中。 主要思路…

简单网站页面wordpress 水墨

文章目录 HTTP协议GET请求POST请求QT中对HTTP协议的处理1.QNetworkAccessManager2.QNetworkRequest3.QNetworkReply QT实现GET请求和POST请求Get请求步骤Post请求步骤 测试结果 使用QT的开发产品最终作为一个客户端来使用,很大的一个功能就是要和后端服务器进行交互…

建网站浩森宇特深圳网络优化培训

Apollo(阿波罗)配置中心: 采用分布式架构,它能够集中管理不同环境、不同集群的配置,配置修改后能够实时推送到应用端,有可视化界面 和 规范的权限,支持 版本管理、灰度发布、监控 等功能。 主要…

苏州城乡和住房建设局网站首页网页登录页面设计模板

Docker 的image是运行的基本.例如我们build一个image时, 在Dockerfile每条指令会产生一个可读写的image, 下一条指令使用上一条指令产生的image为基础, 继续产生image(然后删除上一个image), 如果指令没有对image有修改的动作, 那么可以使用image cache. 所有的指令执行完, 生成…

站长工具查询网织梦统计网站访问量代码

ASC竞赛五大高校计算机专业的实力主要体现在算法与编程的逻辑运算上,因此计算机专业必须掌握大量基础数学知识,甚至很多是离散数学、模糊数学等人工智能逻辑数学,简单的程序软件应用和O2O程序实现其实都不是计算机专业实力的体现,…

网站建设环境搭建心得体会宣传册排版

本文用到的白程序回复公众号20231211进行获取。 嗯… 记得去年HW的时候某信服给我装的EDR一直没卸载,不是不想卸载,是因为卸载要密码,所以就摆烂了。。。。 找到EDR这个目录,然后把目录复制到虚拟机中,然后一个一个e…

企业集团网站建设方案网络营销策略的内涵

1 巧用标记位和For循环遍历 您可以使用一个 Map<String, List<xxx>> 类型的数据结构来根据手机号分组并保存多条线索。然后&#xff0c;可以按照以下方式进行操作&#xff1a; 1. 设置一个标志位&#xff0c;比如一个布尔变量&#xff0c;用于记录是否已经成功推…

教育品牌网站建设南充建网站的资料

在 Xunit 中使用依赖注入Intro之前写过一篇 xunit 的依赖注入相关的文章&#xff0c;但是实际使用起来不是那么方便今天介绍一个基于xunit和微软依赖注入框架的“真正”的依赖注入使用方式 ——— Xunit.DependencyInjection, 来自大师的作品&#xff0c;让你在测试代码里使用依…

电子商务专业网站设计网站建设哪个公司做得好些

题目 给你一个整数数组 coins &#xff0c;表示不同面额的硬币&#xff1b;以及一个整数 amount &#xff0c;表示总金额。 计算并返回可以凑成总金额所需的 最少的硬币个数 。如果没有任何一种硬币组合能组成总金额&#xff0c;返回 -1 。 你可以认为每种硬币的数量是无限的。…

涿州做软件和网站的手机网站设计规范

原文地址&#xff1a;http://www.uml.org.cn/zjjs/201309043.asp 架构设计则为满足架构需求的质量属性寻找适当的战术。对如何实现特定的质量属性感兴趣。质量需求指定了软件的响应&#xff0c;以实现业务目标。我们感兴趣的是设计使用设计模式、架构模式或架构策略创建设计的“…

新发地网站建设网页设计工资一般2017

背景 如果各位看官是分布式项目应该都采用分布式缓存了&#xff0c;例如redis等&#xff0c;分布式缓存不在本次讨论范围哈&#xff1b;我个人建议是&#xff0c;如果是用户量比较大&#xff0c;建议采用分布式缓存机制&#xff0c;后期可以很容易前后到分布式服务或微服务。 …

手机网站悬浮广告代码360弹出网站

1. 分布式架构&#xff1a;高防IP采用分布式架构部署&#xff0c;将流量均匀分散到多个服务器上进行处理&#xff0c;以达到承载大流量攻击的能力。这样可以减轻单个服务器的负载压力&#xff0c;提高抗攻击能力。 架构设计&#xff1a; - 前端负载均衡器&#xff1a;用于接…

婚纱摄影网站设计案例企业服务云

一、 Cookie和Session的发展史 一开始&#xff1a;只有一个页面&#xff0c;没有登录功能&#xff0c;大家看到东西都一样 新闻 时代发展&#xff0c;出现了需要登录注册的网站&#xff0c;要有一门技术存储我们的登录信息 京东、天猫 cookie 存储形式&#xff1a;k:v键值对 …

怎么提高网站的流量长沙网站推广服务公司

https://www.duote.com/tech/35/102713.html (二)Axure rp的线框图元件 l 图片 图片元件拖入编辑区后&#xff0c;可以通过双击选择本地磁盘中的图片&#xff0c;将图片载入到编辑区&#xff0c;axure会自动提示将大图片进行优化&#xff0c;以避免原型文件过大;选择图片时可以…

成都学校网站制作设计师网站登录入口

文章目录 四数之和题目描述示例 1示例 2提示解决方案1&#xff1a;【四层遍历查找】解决方案2&#xff1a;【哈希表】【三层遍历】 结束语 四数之和 四数之和 题目描述 给你一个由 n 个整数组成的数组 nums &#xff0c;和一个目标值 target 。请你找出并返回满足下述全部条件…

网站角色管理系统如何开发电商网站

如下这是一个连接&#xff1a;https://s.tb.cn/c.0vDtL3https://s.tb.cn/c.0vDtL3 解决各种问题。可付费咨询