西安建设网站电话号码软文营销的五大注意事项

web/2025/10/4 19:57:55/文章来源:
西安建设网站电话号码,软文营销的五大注意事项,电信网站备案查询系统,北京中燕建设公司网站NovelD:一种简单而有效的探索准则 1、Motivation 针对稀疏奖励环境下的智能体探索问题#xff0c;许多工作中采用各种内在奖励(Intrinsic Reward)设计来指导困难探索环境中的探索 #xff0c;例如#xff1a; ICM#xff1a;基于前向动力学模型的好奇心驱动探索RND…NovelD:一种简单而有效的探索准则 1、Motivation 针对稀疏奖励环境下的智能体探索问题许多工作中采用各种内在奖励(Intrinsic Reward)设计来指导困难探索环境中的探索 例如 ICM基于前向动力学模型的好奇心驱动探索RND基于随机网络蒸馏驱动的探索Count-Based基于伪计数驱动的探索 但是本文作者从实验中观察到如果有多个感兴趣的区域这些方法有时会很快使智能体被困在一个区域而无法充分探索其他区域。 2、Introduction 算法使用轨迹中连续状态的NovelD这个标准在探索和未探索区域之间的边界上提供了很大的内在奖励。 NovelD有以下几点优势 几乎没有超参数是一种单阶段方法可以很容易地与任何策略学习方法(例如PPO)相结合NovelD是渐近一致的:在充分探索之后它的IR会消失而RIDE和AMIGo这样的方法则不会。与基于计数的方法和RND相比NovelD优先考虑未探索的边界状态产生更有效和更广泛的探索模式。 3、方法 在本篇文章中每一次执行动作后得到的reward表示为 r t r t e α r t i r_tr_t^e\alpha r_t^i rt​rte​αrti​ intrinsic reward被定义为 r i ( s t , a t , s t 1 ) max ⁡ [ novelty ( s t 1 ) − α ⋅ novelty ( s t ) , 0 ] r^i(\mathbf{s}_t,\mathbf{a}_t,\mathbf{s}_{t1})\max\left[\text{novelty}(\mathbf{s}_{t1})-\alpha\cdot\text{novelty}(\mathbf{s}_t),0\right] ri(st​,at​,st1​)max[novelty(st1​)−α⋅novelty(st​),0] 其中α是比例因子定义一个被探索过的区域为 { s : n o v e l t y ( s ) ≤ m } \{\mathbf{s}:\mathrm{novelty}(\mathbf{s})\leq m\} {s:novelty(s)≤m} 当智能体的探索超过这个区域的边界时NovelD会给予intrinsic reward。从公式(2)可以看出当智能体从新状态转回熟悉的状态时会截取IR以避免负IR。 从等式(2)可以看出只有当智能体跨越边界时才会关系到IR当st和st1都是熟悉的或者陌生的状态时它们的区别会很小。 但是简单的使用等式(1)会导致智能体在新状态st1和旧状态st之间来回切换对此NovelD设置了更为激进的限制智能体只有在一个episode里第一次访问状态s时才会获得奖励。于是NovelD的intrinsic reward为 r i ( s t , a t , s t 1 ) max ⁡ [ novelty ( s t 1 ) − α ⋅ novelty ( s t ) , 0 ] ∗ I { N e ( s t 1 ) 1 } r^i(\mathbf{s}_t,\mathbf{a}_t,\mathbf{s}_{t1})\max\left[\text{novelty}(\mathbf{s}_{t1})-\alpha\cdot\text{novelty}(\mathbf{s}_t),0\right]*\mathbb{I}\{N_e(\mathbf{s}_{t1})1\} ri(st​,at​,st1​)max[novelty(st1​)−α⋅novelty(st​),0]∗I{Ne​(st1​)1} Ne代表一个episode中的状态s的计数每个episode会重置这个计数。而novelty算子是life-long的。 novelty使用RND方法来计算 n o v e l t y ( s t ) n o v e l t y ( s t ; w ) : ∥ ϕ ( s t ) − ϕ w ′ ( s t ) ∥ 2 \mathrm{novelty}(\mathbf{s}_t)\mathrm{novelty}(\mathbf{s}_t;\boldsymbol{w}):\|\phi(\mathbf{s}_t)-\phi_{\boldsymbol{w}}^{\prime}(\mathbf{s}_t)\|_2 novelty(st​)novelty(st​;w):∥ϕ(st​)−ϕw′​(st​)∥2​ 计算出st的novelty后就对w执行一次更新来最小化novelty(st;w)。 NovelD是一个一致性算法经过充分的探索内在奖励收敛于0。 对于将intrinsic reward定义为 ∥ ψ ( s t ) − ψ ( s t 1 ) ∥ \|\psi(\mathbf{s}_t)-\psi(\mathbf{s}_{t1})\| ∥ψ(st​)−ψ(st1​)∥ 的方法通常会面临渐进不一致性问题这是因为在足够多的探索使ψ收敛后由于神经网络无法完全拟合的特性智能体总是可以获得非零IR即当N—∞时IR永远不—0。因此学习策略没有最大化外部奖励re偏离了强化学习的目标。 但是NovelD方法是渐进一致的。 4、实验 1、对于所有实验使用PPO作为基础RL算法同时将NovelD与其他各种生成intrinsic reward的方法进行比较。 在实验的一半任务中所有的基线结果都是零奖励。在《NetHack》中NovelD取得了SOTA。 实验主要使用MiniGird中的三个具有挑战性的环境:多房间(MR)关键走廊(KC)和受阻迷宫(OM)。 可以从图中看到NovelD设法解决了MiniGrid中的所有静态环境。相比之下所有的基线只能解决中等水平的任务而不能在更困难的任务上取得任何进展。 2、仅在环境中使用IR进行探索(无外部奖励)NovelD导致了更集中的边界探索和更广泛的状态覆盖。 为了研究NovelD是否在MiniGrid中产生更广泛的状态覆盖实验在一个固定的MRN7S8环境中测试了NovelD和RND。同时定义了两个指标来衡量勘探策略的有效性 每个状态的探视次数都超过训练次数 每个房间的访问熵 H ( ρ ′ ( s ) ) where  ρ ′ ( s ) N ( s ) ∑ s ∈ S r N ( s ) \mathcal{H}(\rho(\mathbf s))\text{ where }\rho(\mathbf s)\frac{N(\mathbf s)}{\sum_{\mathbf s\in\mathcal{S}_r}N(\mathbf s)} H(ρ′(s)) where ρ′(s)∑s∈Sr​​N(s)N(s)​ 实验结果显示NovelD的每个房间熵分布大于RND。这表明与RND相比NovelD鼓励对状态进行更统一的探索。 实验说明当两个房间之间的门成为探索的瓶颈时NovelD的IR专注于解决这个问题。 3、消融实验 文章设计实验寻找最佳的比例和裁剪系数公式 r i ( s t , a t , s t 1 ) max ⁡ [ novelty ( s t 1 ) − α ⋅ novelty ( s t ) , β ] r^i(\mathbf{s}_t,\mathbf{a}_t,\mathbf{s}_{t1})\max\left[\text{novelty}(\mathbf{s}_{t1})-\alpha\cdot\text{novelty}(\mathbf{s}_t),\beta\right] ri(st​,at​,st1​)max[novelty(st1​)−α⋅novelty(st​),β] 实验得出当α0.5β0时效果最好。 文章设计实验验证不同特征提取方式对NovelD效果的影响分别有ICM、Random、DBC以及Successor Features。最终发现只有Random和Successor Features表现得还不错。 5、结论 NovelD方法也适用于随机环境虽然到达随机环境的边界本身是一个难题但通过在边界状态上设置高IR并使用RL算法训练代理策略将更频繁地到达这些边界状态。 NovelD方法由于采用RND方法来进行新颖性度量所以对于白噪声问题有一定的缓解而实验也表明在《MiniGrid》、《Atari Games》和《NetHack》中都没有看到由于电视噪音问题导致的NovelD的性能下降。 在多种环境中NovelD显示了更广泛的状态覆盖并将IR的重点放在边界状态上。 6、留存的问题 没有在一些连续RL领域测试NovelD的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/86966.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

东莞塘厦网站建设平台网站建设预算表

目录 模式简介 介绍 优点 缺点 代码实现 场景说明 实现代码 运行结果 模式简介 观察者模式(Observer Pattern),也叫我们熟知的发布-订阅模式。 它是一种行为型模式。 介绍 观察者模式主要关注的是对象的一对多的关系, …

阿里云虚拟主机建网站宁波模板建站多少钱

题型:链表 链接:2. 两数相加 - 力扣(LeetCode) 来源:Leet 题目描述 给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。 …

上海太江建设网站柳州建网站

文章目录 实验概览目标实验环境任务 1:查看网络拓扑并创建基准任务 2:创建中转网关任务 3:创建中转网关挂载任务 4:创建中转网关路由表任务 4.1:创建路由表关联任务 4.2:创建路由传播 任务 5:更…

政务服务网站建设文档好看开源企业网站模板

软件架构风格:您的系统设计指南 软件架构不仅仅是组织代码的方式,它是对软件整体结构和行为的全面规划。一个好的架构能够让软件更加灵活、可维护,并且能够应对未来的变化。下面是一些流行的软件架构风格,以及它们的C#代码例子&a…

有专门做ppt的网站金坛网站建设价格

概述 NTP 是 Network Time Protocol 的简称,也就是网络时间协议,它可以通过网络来同步时间的服务器。Windows 自带的 NTP 服务器都在美国,有时间经常无法访问。 中国境内 中国 NTP 快速授时服务 cn.ntp.org.cn阿里云公共 NTP 服务器 ntp…

python策略网站怎么做学院网站建设的作用

题目1:104. 二叉树的最大深度 - 力扣(LeetCode) 题目1描述: 题目1分析及解决: (1)base case:当前节点为null时,以当前节点为根节点的树最大深度是0。 (2&…

网站设计实施北京网站优化推广效果

“我在一家医院诊断为青光眼,然后就做了青光眼手术。结果没有成功,后面产生了脉络膜脱离,从4月到10月底一直没有恢复,我去找医生结果那家医院的医生让我等……等着恢复……”张先生是一位青光眼术后患者,一场手术给他带…

珠宝首饰网站模板百度官方下载

1、前言 mapstruct中常用注解如Mapping,AfterMapping,BeanMapping等的使用,通过案例说明各式各样的业务pojo对象之间如何借助mapstruct完成相互之间的转换,减少代码量的同时也能突出业务逻辑流程,让你的代码里写起来更有规范可言。 2、简介 Reference Guide – MapStruct 3…

服装网站建设基本流程在婚恋网站上做红娘怎么样

文章目录 一.基础语法1.编码2.标识符3.保留字4.注释5.行与缩进6.多行语句7.数字(Number)类型8.字符串(String)9.空行10.等待用户输入11.同一行显示多条语句12.多个语句构成代码组13.print 输出14.import 与 from...import 二.基本数据类型1.变量和赋值2.多个变量赋值3.标准数据…

简网站建设流程步骤洛阳市伊滨区建设局网站

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址 前后端代码: https://gitee.com/nbacheng/ruoyi-nbcio 演示地址:RuoYi-Nbcio后台管理系统 之前讲到了流程保存的时候还要看是否是自定义业务流程应用类型,若是保存的时候不再检查是否有关…

怎样做网站手机客户端做网站商城怎么样

Zk常规启动的命令如下 sh bin/zkServer.sh start 启动过程如果存在失败,是没办法直接看出什么问题,只会报出来 Starting zookeeper … FAILED TO START 可以用如下命令启动,便于查看zk启动过程中的详细错误 sh bin/zkServer.sh start-for…

网站吸流量软件编程入门先学什么

作用域: var 声明的变量具有全局作用域和函数作用域,可以跨块访问。let 和 const 声明的变量还具有块级作用域,意味着它们在声明它们的块(例如,if 块、for 块、函数块等)内可见。(之前没有块作用…

佛山建站软件广东三网合一网站建设报价

0 引言 近年来,随着信息技术飞速发展和互联网的日益普及,尤其是以视频为信息主要来源的多媒体领域越来越受到人们的关注。H.264是ITU-T的视频编码专家组(VCEG)和ISO/IEC的活动图像编码专家组(MPEG)的联合视频组(Joint Video Te…

网上做预算的网站中小型企业网络拓扑图及配置

 相关概念 面向对象的三个特征 封装,继承,多态,这个应该是人人皆知,有时候也会加上抽象。 多态的好处 允许不同类对象对同一消息做出响应,即同一消息可以根据发送对象的不同而采用多种不…

杭州pc网站开发公司有哪些家装设计图片

三国杀中,某些武将因为太强或者太弱,不能适应游戏环境,都会进行修改,例如:李丰、马良、伏皇后、曹冲等等,但这些武将修改之后,原有武将就淘汰了。其实,还有一类武将,技能…

微站网WordPress生成电商小程序

本文转载自公众号:珞珈大数据。本次论文讲解的是胡森 邹磊 于旭 王海勋 赵东岩等作者写的论文-Answering Natural Language Questions by Subgraph Matching over Knowledge Graphs,主要是分享一些阅读论文的收获,希望能对正在学习自然语…

网站模板源代码下载加强网站建设与管理的通知

一、showModalDialog和showModelessDialog有什么不同?   showModalDialog:被打开后就会始终保持输入焦点。除非对话框被关闭,否则用户无法切换到主窗口。类似alert的运行效果。   showModelessDialog:被打开后,用户…

网站备备份教程网站开发的前端框架有哪些

目录 概述 1 STM32H750 HSE时钟介绍 2 使用STM32Cube创建Project 3 认识HSE时钟 3.1 HSE时钟的特性 3.2 HSE的典型应用电路 4 STM32Cube中配置时钟 4.1 时钟需求 4.2 配置参数 4.2.1 使能外围资源 4.2.2 使用STM32Cube注意项 4.2.3 配置参数 5 总结 概述 本文主要…

网站规划与开发技术属于什么大类做自媒体资源的网站

多线程 线程 1.什么是线程 进程是一个执行空间 , 线程就是其中真正工作的单位 , 每一个进程至少有一个线程(如果我们把操作系统比喻为一个工厂 , 进程就是车间 , 线程就是流水线) 进程包含了运行该程序所需要所有资源 , 进程是一个资源单位 , 线程是CPU的最小执行单位 每一个进…

国内网站赏析扁平化 wordpress 主题

在JavaScript中,map() 是一个数组方法,它创建一个新数组,其结果是该数组中的每个元素都调用一个提供的函数后的返回值。这个方法不会改变原数组。 map() 方法的基本语法如下: javascriptarray.map(function(currentValue, index,…