猎头公司网站建设方案福州室内设计学校

pingmian/2025/10/7 11:09:33/文章来源:
猎头公司网站建设方案,福州室内设计学校,微信怎样开通公众号,哪家公司做跳转网站前言#xff1a; 这里结合走迷宫的例子,重点学习一下QLearning迭代更新算法 0,1,2,3,4 是房间#xff0c;之间绿色的是代表可以走过去。 5为出口 可以用下图表示 目录#xff1a; 策略评估 策略改进 迭代算法 走迷宫实现Python 一 策略评估 强化学习最终是为了…前言 这里结合走迷宫的例子,重点学习一下QLearning迭代更新算法 0,1,2,3,4 是房间之间绿色的是代表可以走过去。 5为出口 可以用下图表示 目录 策略评估     策略改进     迭代算法     走迷宫实现Python 一  策略评估 强化学习最终是为了学习好的策略在不同的state 下面根据策略做出最优的action. 对于策略评估我们通过价值函数来度量. 1.1 状态值函数  V T步累积奖赏:      , 折扣累积奖赏:   1.2 状态-动作值函数 Q T步累积奖赏:      , 折扣累积奖赏:   1.3   Bellan 等式展开 状态值函数  V  状态-动作函数Q 二   策略改进 强化学习的目的 尝试各种策略找到值函数最大的策略累积奖赏 2.1 最优策略值函数 由于最优值函数的累积奖赏已经达到最大值,因此可以对Bellman 等式做个改动即对动作求和改为最优 ..1 ...2 则  ...3  最优 状态-动作 Bellman 等式为 三    递推改进方式 原始策略为  改进后策略   改变动作的条件为  ... 四  值迭代算法 4.1  环境变量 Reward 和  QTable 都是矩阵 4.2 迭代过程 当state 为1,Q 函数更新过程 5.3 收敛结果 五    走迷宫实现Python reward 我们用一个矩阵表示 行代表 state 列代表 action 值代表 reward 5.1 Environment.py 实现环境功能 # -*- coding: utf-8 -*-Created on Wed Nov 15 11:12:13 2023author: chengxf2 import numpy as np from enum import Enum#print(Weekday.test.value) 房间 class Room(Enum):room1 1room2 2room3 3room4 4room5 5class Environment():def action_name(self, action):if action 0:name 左elif action 1:name 上elif action 2:name 右else:name 上return namedef __init__(self):self.R np.array([ [-1, -1, -1, -1, 0, -1],[-1, -1, -1, 0, -1, 100],[-1, -1, -1, 0, -1, -1],[-1, 0, 0, -1, 0, -1],[0, -1, -1, 0, -1, 100],[-1, 0, -1, -1, 0, 100]])def step(self, state, action):#即使奖励 在state, 执行action, 转移新的 next_state,得到的即使奖励#print(\n step ,state, action)reward self.R[state, action]next_state action# action 网哪个房间走if action Room.room5.value:done Trueelse:done Falsereturn next_state, reward,done5.1 main.py 实现Agent 功能 # -*- coding: utf-8 -*-Created on Wed Nov 15 11:29:14 2023author: chengxf2 # -*- coding: utf-8 -*-Created on Mon Nov 13 09:39:37 2023author: chengxf2 import numpy as npdef init_state(WORLD_SIZE):S []for i in range(WORLD_SIZE):for j in range(WORLD_SIZE):state [i,j]S.append(state) print(S)# -*- coding: utf-8 -*-Created on Fri Nov 10 16:48:16 2023author: chengxf2 import numpy as np from environment import Environmentclass Agent():def __init__(self,env):self.discount_factor 0.8 #折扣率self.theta 1e-3 #最大偏差self.nS 6 #状态 个数self.nA 6 #动作个数self.Q np.zeros((6,6))self.env envself.episode 500#当前处于的位置,V 累积奖赏def one_step_lookahead(self,env, state, action):#print(\n state :,state, \t action ,action)next_state, reward,done env.step(state, action)maxQ_sa max(self.Q[next_state,:])return next_state, reward, done,maxQ_sadef value_iteration(self, env, state, discount_factor 1.0):#随机选择一个action,但是不能为-1indices np.where(env.R[state] -1)[0]action np.random.choice(indices,1)[0]#print(\n state :,state, \t action ,action)next_state, reward, done,maxQ_sa self.one_step_lookahead(env, state, action)#更新当前的Q值r reward self.discount_factor*maxQ_saself.Q[state,action] int(r)#未达到目标状态走到房间5 执行下一次迭代if done False:self.value_iteration(env, next_state)def learn(self):for n in range(self.episode): #最大迭代次数#随机选择一个状态state np.random.randint(0,self.nS)#必须达到目标状态跳转到出口房间5self.value_iteration(env, state, discount_factor self.discount_factor)#print(\n n ,n)print(self.Q)if __name__ __main__:env Environment()agent Agent(env)agent.learn() 参考 8-QLearning基本原理_哔哩哔哩_bilibili 9-QLearning迭代计算实例_哔哩哔哩_bilibili 10-QLearning效果演示_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/89329.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

100款不良网站进入窗口软件河口企业网站开发公司

前言 比较水的一场比赛 E题几乎是一本通原题而我还是不会做qwq A - Sagheer and Crossroads 有一个十字路口,给出四个路口的车是否可以左转/右转/直行,并且给出每个路口的行人是否可以通过,求是否出现车和人冲突的情况 阅读理解题&#xff…

做淘客网站需要多大的空间外贸营销推广公司

文章目录 一、前言 二、实战 1)获取百度网页并打印 2)获取帅哥图片并下载到本地 4) 获取美女视频并下载到本地 5)搜狗关键词搜索爬取 6)爬取百度翻译 7)爬取豆瓣电影榜单 8)JK妹子爬取 总结&#xff…

网站建设介绍推广用语手机百度最新正版下载

学习笔记系列开头惯例发布一些寻亲消息 链接:https://baobeihuijia.com/bbhj/contents/3/199561.html 进程和线程:进程是资源分配的最小单位,线程是CPU调度的最小单位 进程和线程的主要区别(总结)_进程和线程的区别-CSDN博客进程…

注册证查询网站诸暨做幕墙连接件的公司

目录 (一)顺序表是一种数据结构 (二)顺序表 (1)顺序表的必要性 (2)顺序表的概念及结构 i,线性表 (3)顺序表的分类 i,顺序表和…

马克杯网站开发北京本地服务信息网

1月18日,阿里云在京发布金融核心系统转型“红宝书”,并推出“金融级云原生工场”,通过新的建设理念和相应的全链路平台技术,以及先进的部署体系,支撑金融机构建设面向未来的新一代分布式智能化核心系统。 阿里云智能新…

如何做pdf电子书下载网站巨野菏泽网站建设

本文来自牛鹭学院学员:邓瑞杰字母处理string.capitalize()返回元字符串,且将字符串第一个字母转为大写,其它字母小写string.title()返回元字符串,且将字符串第一个字母转为大写,其它字母小写string.swapcase()用于对字…

网站建设备案需要什么wix网页制作

Salesforce使用了多种不同的数据库技术来支持其云端CRM(客户关系管理)服务。其中最显著的数据库技术是它自己的多租户数据库系统,称为"Salesforce数据库"或"Force.com数据库"。以下是关于Salesforce数据库的一些关键特点…

宁波市做网站wordpress短信登陆

确定vscode位置 在命令行中输入 which code得到文件地址 进入文件夹后可看到,这是个链接文件,不过无所谓,就用这个地址就行 设置Text Editor 打开setting选择右侧text editor 这里说明了如何进行设置 将自己的地址加进去就行 /usr/share…

订阅号可以建设微网站唐山网站建设七彩科技

归纳编程学习的感悟, 记录奋斗路上的点滴, 希望能帮到一样刻苦的你! 如有不足欢迎指正! 共同学习交流! 🌎欢迎各位→点赞 👍 收藏⭐ 留言​📝 你说那里有你的梦想,…

兰州企业网站建设多少钱网站做微信支付宝支付接口

来自:金钟路上小码工链接:https://www.cnblogs.com/danbing/p/7459224.html一、什么是负载均衡?互联网早期,业务流量比较小并且业务逻辑比较简单,单台服务器便可以满足基本的需求;但随着互联网的发展&#…

手机网站自适应屏幕在线详情页制作

废话不多说 , 直接上源码 import csv # 用于读写 CSV 文件 import json # 用于解析 JSON 数据 import requests # 用于发送 HTTP 请求 from lxml import etree # 用于解析 HTML 文档# 定义 DataScraper 类,实现数据抓取功能 class DataScraper:# 初始化函数def…

ie网站建设揭阳智能模板建站

文章目录 前言1. 安装Docker容器2. 拉取镜像3. 验证 前言 docker 离线安装onlyoffice,如在线安装可直接跳过导出导入镜像步骤,拉取后直接运行。 1. 安装Docker容器 下载文件 wget https://download.docker.com/linux/static/stable/x86_64/docker-19…

聊城门户网站临沂网站建设培训班

文章目录 一、常用的构建细节1、触发远程构建2、其他工程构建后触发3、定时构建4、轮询SCM(Poll SCM)二、Git hook自动触发构建(☆☆☆)1、安装插件2、Jenkins设置自动构建3、Gitlab配置webhook三、Jenkins的参数化构建1、项目创建分支,并推送到gitlab上2、在Jenkins添加字…

网站建设知名公司房产最新政策

国标GB28181视频平台EasyGBS是基于国标GB/T28181协议的行业内安防视频流媒体能力平台,可实现的视频功能包括:实时监控直播、录像、检索与回看、语音对讲、云存储、告警、平台级联等功能。国标GB28181视频监控平台部署简单、可拓展性强,支持将…

政协网站建设申请函中小企业网站建设报告

目录 一、云服务 1.1 云服务器类型 1.2 云服务案例 二、搭建云服务器的基本步骤 二、云服务的架构(架构) 2.1 层次架构 2.2 云平台统一管理功能 2.3 管理工具 一、云服务 1.1 云服务器类型 云服务(Cloud Services)是一种…

外贸网站开发推广花生壳可做网站吗

Arrays.asList():返回指定数组支持的固定大小列表 首先看下这个方法的源码注释,注意第一句,Returns a fixed-size list backed by the specified array., 意思就是:返回指定数组支持的固定大小列表 所以:…

专做脚本的网站公司宣传册设计样本

【OpenCV 例程200篇】73. 二维连续傅里叶变换 欢迎关注 『OpenCV 例程200篇』 系列,持续更新中 欢迎关注 『Python小白的OpenCV学习课』 系列,持续更新中 2.1 二维连续傅里叶变换 设 f(t,z)f(t,z)f(t,z) 是二维连续变量 t,zt, zt,z 的连续函数&#xff…

威联通nas 做网站wordpress页面模板目录文件下载

css设置字体阴影的方法:使用代码【text-shadow:3px 3px 3px #00f;】,【text-shadow】属性应用于阴影文本,语法为【text-shadow: h-shadow v-shadow blur color;】。本教程操作环境:windows10系统、css3版,该方法适用于…

找做网站找那个平台做惠州关键词排名优化

1、查看数据盘在没有分区和格式化数据盘之前,使用 “df –h”命令,是无法看到数据盘的,可以使用“fdisk -l”命令查看。友情提示:若您执行fdisk -l命令,发现没有 /dev/sdb 表明您的云服务无数据盘,那么您无…