谷歌大脑提出对智能体进行「正向-反向」强化学习训练,加速训练过程

原文来源:arXiv

作者:Ashley D. Edwards、Laura Downs、James C. Davidson

「雷克世界」编译:嗯~是阿童木呀、KABUDA、EVA


在强化学习问题中,关于任务目标的制定,往往需要开发人员花费很多的精力,在本文中,谷歌大脑联合佐治亚理工学院提出了正向-反向强化学习(Forward-Backward Reinforcement Learning,FBRL),它既能从开始位置正向进行探索,也可以从目标开始进行反向探索,从而加速智能体的学习过程。


一般来说,强化学习问题的目标通常是通过手动指定的奖励来定义的。为了设计这些问题,学习算法的开发人员必须从本质上了解任务的目标是什么。然而我们却经常要求智能体在没有任何监督的情况下,在这些稀疏奖励之外,独自发现这些任务目标。虽然强化学习的很多力量来自于这样一种概念,即智能体可以在很少的指导下进行学习,但这一要求对训练过程造成了极大的负担。


如果我们放松这一限制,并赋予智能体关于奖励函数的知识,尤其是目标,那么我们就可以利用反向归纳法(backwards induction)来加速训练过程。为了达到这个目的,我们提出训练一个模型,学习从已知的目标状态中想象出反向步骤。


我们的方法不是专门训练一个智能体以决策该如何在前进的同时到达一个目标,而是反向而行,共同预测我们是如何到达目标的。我们在Gridworld和汉诺塔(Towers of Hanoi)中对我们的研究进行了评估,并通过经验证明了,它的性能比标准的深度双Q学习(Deep Double Q-Learning,DDQN)更好。


强化学习(Reinforcement Learning,RL)问题通常是由智能体在对环境的任务奖励盲然无知的情况下规划的。然而,对于许多稀疏奖励问题,包括点对点导航、拾取和放置操纵、装配等等目标导向的任务,赋予该智能体以奖励函数的知识,对于学习可泛化行为来说,既可行又实用。


通常,这些问题的开发人员通常知道任务目标是什么,但不一定知道如何解决这些问题。在本文中,我们将介绍我们如何利用对目标的知识,使我们甚至能够在智能体到达这些领域之前学习这些领域中的行为。相比于那些从一开始就将学习初始化的方法,这种规划性方案可能更容易解决。


例如,如果我们知道所需的位置、姿势或任务配置,那么我们就可以逆转那些将我们带到那里的操作,而不是迫使智能体独自通过随机发现来解决这些难题。


Gridworld和汉诺塔环境


本文中,我们介绍了正向-反向强化学习(Forward-Backward Reinforcement Learning,FBRL),它引入反向归纳,使我们的智能体能够及时进行逆向推理。通过一个迭代过程,我们既从开始位置正向进行了探索,也从目标开始进行了反向探索。


为了实现这一点,我们引入了一个已学习的反向动态模型,以从已知的的目标状态开始进行反向探索,并在这个局部领域中更新值。这就产生了“展开”稀疏奖励的效果,从而使它们更容易发现,并因此加速了学习过程。


标准的基于模型的方法旨在通过正向想象步骤并使用这些产生幻觉的事件来增加训练数据,从而减少学习优秀策略所必需的经验的数量。然而,并不能保证预期的状态会通向目标,所以这些转出结果可能是不充分的。


预测一个行为的结果的能力并不一定能提供指导,告诉我们哪些行为会通向目标。与此相反,FBRL采用了一种更有指导性的方法,它给定了一个精确的模型,我们相信,每一个处于反向步骤中的状态都有通向目标的路径。


Gridworld中的实验结果,其中n =5、10、15、20。我们分别使用50、100、150、200步的固定水平,结果是10次实验的平均值。


相关研究


当我们访问真正的动态模型时,可以使用纯粹基于模型的方法(如动态编程)来计算所有状态的值(Sutton和Barto于1998年提出),尽管当状态空间较大或连续时,难以在整个状态空间中进行迭代。Q-Learning是一种无模型方法,它通过直接访问状态以在线方式更新值,而函数逼近技术(如Deep Q-Learning)可以泛化到未见的数据中(Mnih等人于2015年提出)。


基于模型和无模型信息的混合方法也可以使用。例如,DYNA-Q(Sutton于1990年提出)是一种早期的方法,它使用想象的转出出来更新Q值,就如同在真实环境中经历过一样。最近出现了更多方法,例如NAF(Gu等人于2016年提出)和I2A(Weber等人于2017年提出)。但这些方法只使用正向的想象力。


与我们自己的方法相似的方法是反向的值迭代(Zang等人于2007年提出),但这是一种纯粹基于模型的方法,并且它不学习反向模型。一个相关的方法从一开始就实现双向搜索和目标(Baldassarre于2003年提出),但这项研究只是学习值,而我们的目标是学习行动和值。


另一项相似的研究是通过使用接近目标状态的反向课程来解决问题(Florensa等人于2017年提出)。但是,该方法假设智能体可以在目标附近得以初始化。我们不做这个假设,因为了解目标状态并不意味着我们知道该如何达到这一状态。

 

汉诺塔中的实验结果,其中n = 2、3。我们分别使用50、100步的固定水平。 结果是10次试验的平均值。


许多研究通过使用域知识来帮助加速学习,例如奖励塑造(Ng等人于1999年提出)。另一种方法是更有效地利用回放缓冲区中的经验。优先经验复现(Schaul等人于2015年提出)旨在回放具有高TD误差的样本。事后经验回放(Hindsight experience replay)将环境中的每个状态视为一个潜在目标,这样即使系统无法达到所需的目标,也可以进行学习。


使用反向动力学的概念类似于动力学逆过程(Agrawal等人于2016年,Pathak等人于2017年提出)。在这些方法中,系统预测在两个状态之间产生转换的动态。我们的方法是利用状态和动作来预测前一个状态。此函数的目的是进行反向操作,并使用此分解来学习靠近目标的值。


本文中,我们介绍了一种加速学习具有稀缺奖励问题的方法。我们介绍了FBRL,它从目标的反向过程中得到了想象步骤。我们证明了该方法在Gridworld和诺塔中的性能表现优于DDQN。这项研究有多个扩展方向。


我们对于评估一个反向计划方法很感兴趣,但我们也可以运用正向和反向的想象力进行训练。另一项进步是改善规划策略。我们使用了一种具有探索性和贪婪性的方法,但没有评估如何在两者之间进行权衡。我们可以使用优先扫描(Moore和Atkeson等人于1993年提出),它选择那些能够导致具有高TD误差状态的行为。


原文链接:https://arxiv.org/pdf/1803.10227.pdf


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/496355.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php 元_PHP 享元模式 - 304158的个人空间 - OSCHINA - 中文开源技术交流社区

/*** 享元模式* 共享子系统* 抽象子系统实现接口* 根据key储存对应的子系统实例*//*** Interface ServiceIO* 共享子系统抽象接口*/interface ServiceIO {public function GetServiceName();}/*** Class WebService* 子系统 实例*/class WebService implements ServiceIO {priv…

Linux二进制实用工具Binutils工具集解析()

From:http://blog.csdn.net/zqixiao_09/article/details/50783007 GNU Binutils:http://www.gnu.org/software/binutils/ GNU Binutils详解:http://www.crifan.com/files/doc/docbook/binutils_intro/release/html/binutils_intro.html 交叉…

Spring Data JPA 从入门到精通~JpaSpecificationExecutor的使用方法

JpaSpecificationExecutor 源码和 API 我们也可以通过 idea 工具详细看其用法和实现类,JpaSpecificationExecutor 是 Repository 要继承的接口,而 SimpleJpaRepository 是其默认实现。而通过源码来看其提供的 API 比较简单、明了,有如下几个方…

Error loading native library: libnjni9.so.的解决办法

Error loading native library: libnjni9.so.的解决办法 $ netcaError loading native library: libnjni9.so.java.lang.UnsatisfiedLinkError: jniGetOracleHomeat oracle.net.common.NetGetEnv.getOracleHome(NetGetEnv.java)at oracle.net.ca.CmdlineArgs.setOraArgs(Cmdlin…

谷歌人工智能野心:从“下围棋”开始走向商用赚钱

来源:腾讯科技作为人工智能研发的领先企业,谷歌已经开始从技术研发走向了产品商用,创造营收成为一个新目标。谷歌在人工智能领域进行研发的时间比较长,陆续收购了优秀的专业公司。鉴于此,谷歌获得了先发优势&#xff0…

浅谈弹性页面布局

今天在博客园看了冰极峰先生的《弹性流体布局》文章,他具体的讲解了弹性布局是用到min-width这个属性,但这个属性在IE6下不受支持,因此加入了老外的一个JS脚本,这个脚本让IE6也能支持最小,最大宽度(高度)四个属性.弹性布局其实最难的还不是布局,而是里面…

Spring Data JPA 从入门到精通~Criteria概念的简单介绍

&#xff08;1&#xff09;Root<T> root 代表了可以查询和操作的实体对象的根&#xff0c;如果将实体对象比喻成表名&#xff0c;那 root 里面就是这张表里面的字段&#xff0c;这不过是 JPQL 的实体字段而已。通过里面的 Path<Y> get(String attributeName)&…

微信php实例代码_php微信公众平台示例代码分析(二)

一、摘要微信公众平台提供了一个简单的php示例代码&#xff0c;在做进一步开发之前&#xff0c;我们有必要将其详细了解一下。二、获取代码三、分析代码完整代码如下&#xff1a;/*** wechat php test*///define your tokendefine("TOKEN", "weixin");$wec…

Linux异步之信号(signal)机制分析

From&#xff1a;http://www.cnblogs.com/hoys/archive/2012/08/19/2646377.html From&#xff1a;http://kenby.iteye.com/blog/1173862 Linux下的信号详解及捕捉信号&#xff1a;http://www.jb51.net/article/90695.htm linux信号详解&#xff1a;http://blog.csdn.net/f…

DeepMind集成AI智能体架构「MERLIN」:基于目标导向智能体中的无监督预测记忆

来源&#xff1a;arXiv摘要&#xff1a;在自然界中&#xff0c;动物往往会执行目标导向的行为&#xff0c;尽管它们的传感器的范围有限。作者&#xff1a;Greg Wayne、 Chia-Chun Hung、David Amos、Mehdi Mirza、Arun Ahuja、Agnieszka Grabska-Barwinska、Jack Rae、Piotr Mi…

Spring Data JPA 从入门到精通~JpaSpecificationExecutor示例

新建两个实体 Entity(name "UserInfoEntity") Table(name "user_info", schema "test") public class UserInfoEntity implements Serializable {IdColumn(name "id", nullable false)private Integer id;Column(name "f…

手机反编译java源码,Android反编译(一)之反编译JAVA源码

Android反编译(一)之反编译JAVA源码[目录]1、工具2、反编译步骤步骤1&#xff1a;把apk文件后缀名改为.zip步骤2&#xff1a;解压zip包得到classes.dex步骤3&#xff1a;将Dex反编译为Jar包(工具&#xff1a;dex2jar)命令: CMD>dex2jar.bat classes.dex步骤4&#xff1a;用j…

一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移等

作者 | 张皓&#xff08;南京大学&#xff09;来源&#xff1a;人工智能头条丨公众号引言深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一&#xff0c;许多卓有建树的论文已经发表&#xff0c;而且已有很多高质量的开源深度学习框架可供使用。然而&#xff0c;论文通…

[转]暴牛!全国女生录用老公统一考试试卷

全国女生录老公统一考试试卷①本试卷为全国女生招录老公统一考试试卷&#xff0c;各省(自治区、直辖市&#xff0c;计划单列市&#xff0c;不含港、澳、台地区)均须使用此卷&#xff0c;不得自行命题。②由于法律未规定同性婚姻合法&#xff0c;故报名参加考试者均须为男性。若…

Linux-进程、进程组、作业、会话、控制终端详解

From&#xff1a;http://www.cnblogs.com/JohnABC/p/4079669.html Linux进程优先级的处理--Linux进程的管理与调度(二十二)&#xff1a;http://blog.csdn.net/gatieme/article/details/51719208 进程 、进程组、会话、控制终端之间的关系&#xff1a;http://blog.csdn.net/y…

Spring Data JPA 从入门到精通~Specification工作中的一些扩展

Specification 工作中的一些扩展 我们在实际工作中会发现&#xff0c;如果上面的逻辑&#xff0c;简单重复写总感觉是不是可以抽出一些公用方法呢&#xff0c;此时引入一种工厂模式&#xff0c;帮我们做一些事情&#xff0c;可以让代码更加优雅。基于 JpaSpecificationExecuto…

用php编写xml,PHP 读取和编写 XML

什么是 XML&#xff1f;XML 是一种数据存储格式。它没有定义保存什么数据&#xff0c;也没有定义数据的格式。XML 只是定义了标记和这些标记的属性。格式良好的 XML 标记看起来像这样&#xff1a;代码如下:Jack HerringtonDOM读取 XML代码如下:$doc new DOMDocument();$doc-&g…

浅谈项目开发现状(一)

在现在的软件开发中&#xff0c;一些大的软件公司有充分的资金&#xff0c;所以他的公司人员组织架构能组成&#xff1a;需求分析团队&#xff08;为了更好的了解用户的完整需求&#xff09;--->研发团队&#xff08;通过计算机语言来实现用户需求&#xff09;&#xff0c;方…

波士顿咨询:2018最具创新力企业50强

来源&#xff1a;前瞻网在波士顿咨询公司评选的2018年最具创新力公司中&#xff0c;有11家公司——其中包括前10名中的7家——都是“数字原住民”&#xff0c;按定义也就是“数字创新者”。榜单上大多数公司已经将数字技术建立在他们的创新计划中。这一趋势在各个行业都很普遍&…

java 防止sql xxs注入,Java-JSP网站 防SQL注入,防XSS等攻击有什么好的处理办法?...

jsp 来防SQL注入&#xff0c;防XSS等攻击的话&#xff0c;首先要选择PreparedStatement来处理sql语句&#xff01;同时java后台还需要对页面中接受到的参数进行字符替换&#xff01;/*** 清除所有XSS攻击的字符串* 学来的&#xff01;分享&#xff01;*/public static String g…