DeepMind集成AI智能体架构「MERLIN」:基于目标导向智能体中的无监督预测记忆

来源:arXiv

摘要:在自然界中,动物往往会执行目标导向的行为,尽管它们的传感器的范围有限。

作者:Greg Wayne、 Chia-Chun Hung、David Amos、Mehdi Mirza、Arun Ahuja、Agnieszka Grabska-Barwinska、Jack Rae、Piotr Mirowski、Joel Z. Leibo、Adam Santoro、Mevlana Gemici、Malcolm Reynolds、Tim Harley、Josh Abramson、Shakir Mohamed、Danilo Rezende、David Saxton、Adam Cain、Chloe Hillier、David Silver、Koray Kavukcuoglu、Matt Botvinick、Demis Hassabis、Timothy Lillicrap


「雷克世界」编译:嗯~是阿童木呀、KABUDA、EVA


在自然界中,动物往往会执行目标导向的行为,尽管它们的传感器的范围有限。为了应对环境问题,它们会对环境进行探索并储存记忆,保持对目前无法获得的重要信息的估计。类似地,最近,DeepMind提出了MERLIN,这是一种集成的AI智能体架构,它可在部分观察到的虚拟现实环境中操作,并基于不同于现有的端到端的AI体系的原理将信息存储于记忆中。


在自然界中,动物往往会执行目标导向的行为,尽管它们的传感器的范围有限。为了应对环境问题,它们探索环境并储存记忆,保持对目前无法获得的重要信息的估计。


最近,人工智能(AI)智能体在这方面取得了进展,它们通过将强化学习算法与深度神经网络相合并,学会从感官输入执行任务,甚至达到了人类水平。这些结果激起了科学家们对相关想法的追求,比如解释非人类动物的学习。


然而,我们证明了,当有足够的信息隐藏在智能体的传感器中时,当代的强化学习算法很难解决简单的任务,这种属性被称为“局部可观测性”(partial observability)。处理局部观察到的任务的一个明显的需求是访问大量的记忆,但是我们发现记忆不够,正确的信息以正确的格式进行存储是至关重要的。


我们开发了一个模型,记忆、强化学习和推理网络(Memory, RL, and Inference Network,MERLIN)。在这个模型中,记忆的形成是由一个预测建模的过程进行指导的。MERLIN使在3D虚拟现实环境中解决任务变得容易,在这种环境中,局部可观测性是非常严重的,而且必须在长时间内保持记忆。我们的模型展示了一个单一的学习智能体的架构,它可以解决心理学和神经生物学中的典型行为任务,而不需要对感官输入的维度和经验的持续时间做出强力的简化假设。


智能体模型


现如今,人工智能研究正在经历一场复兴,因为强化学习技术,解决了优化序列决策的问题,与深度神经网络相结合形成人工智能体,从而可以通过处理复杂的感官数据,做出最佳决策。同时,科学家们开发了新的深度网络结构,将重要的先验知识编码到学习问题中。其中一个重要的创新是利用外部记忆系统开发神经网络,使得来自大量的历史事件中合成信息的计算能够被学习到。


对于所提出模型进行的实验


在强化学习智能体中,带有外部记忆系统的神经网络已经进行了“端到端”的优化,以最大化在任务环境中进行交互时获得的奖励数量。也就是说,系统学会了如何从输入(感官)数据中选择相关信息,将其存储在记忆中,并仅从试验和错误的操作选择中读取出相关的内存条目,从而使任务的奖励高于预期。


虽然这种针对人工记忆的方法被证明是成功的,但我们发现,它不能解决心理学和神经科学中行为研究里的简单任务,特别是那些涉及在相关刺激和后面决策之间存在长时间延迟的任务。这包括但不限于这些问题:导航回到之前访问过的目标、快速奖励评估,其中智能体必须在几乎没有曝光的情况下理解不同对象的值、以及潜在学习(latent learning),一个智能体在进行探索之前通过特定任务获得关于环境的未说明的知识。


潜在学习


我们提出了MERLIN,这是一种集成的AI智能体架构,它可在部分观察到的虚拟现实环境中操作,并基于不同于现有端到端的AI体系的原理将信息存储于记忆中。它学习处理高维感官流,对其进行压缩和存储,并且回忆对任务奖励依赖性较小的事件。


我们将来自外部记忆系统、强化学习和状态估计(推理)模型的成分汇聚在一起,利用从心理学和神经科学的三种观点(预测感觉编码Gluck和Myers的海马表象理论(hippocampal representation theory)时间语境模型和后继表象)中获得的灵感,将它们组合为一个统一的系统。


为了测试MERLIN,我们将它置于一组来自心理学和神经科学的典型任务中,以此来表明,它可以找到解决对现有AI构成严峻挑战的问题的方法。MERLIN给出了一种超越端到端RL限制的方法,这可用于对未来计算智能体的记忆展开研究。


强化学习使得从感官观察o到行动a找到一个策略π或映射变得形式化。强化学习的一个主要方法是考虑随机策略,使该策略便于描述操作上的分布。在感知数据不完整的部分观察环境中,直接将瞬时感知数据映射到动作的无记忆RL策略(Memory-free RL policies)会失败。因此,在这项研究中,我们将注意力集中于依赖记忆的策略上,在这些策略中,动作的分布依赖于过去观察到的全部序列。


 

端到端的学习问题,会随着AI接近具有长期记忆的长效智能体前沿而变得更加紧迫。例如,思考一个需要记住24小时前发生的事件的智能体。存储的记忆可以通过记忆读取操作来恢复,但在整个时间间隔内(如反向传播时间)优化网络动态或信息存储的方法,需要在24小时内记录网络状态的确切数据。


这实际上是一个让人望而却步的规定,它的神经可信度表明,至少对于记忆和时间信用分配的其他方面而言,存在比端到端梯度计算更好的算法解决方案。我们注意到,MERLIN专门使用1.3s的窗口来解决需要更长时间间隔的任务(即6分钟内最长任务长度的0.36%)。


当端到端RL具有足够大的网络、足够丰富的经验以及优化时,它理论上可以学会将相关信息存储于记忆中,以供后期决策使用,但我们已经证实,实际需求往往令人望而却步。正如我们在目标识别和视觉等领域所熟知的,结构创新(如卷积神经网络)对于实际系统而言是至关重要的。


尽管实现细节可能会发生变化,但我们相信,将记忆和预测建模相结合,对于未来在AI乃至神经科学领域,构建大型智能体模型而言至关重要。


原文链接:https://arxiv.org/pdf/1803.10760.pdf


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/496345.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Data JPA 从入门到精通~JpaSpecificationExecutor示例

新建两个实体 Entity(name "UserInfoEntity") Table(name "user_info", schema "test") public class UserInfoEntity implements Serializable {IdColumn(name "id", nullable false)private Integer id;Column(name "f…

手机反编译java源码,Android反编译(一)之反编译JAVA源码

Android反编译(一)之反编译JAVA源码[目录]1、工具2、反编译步骤步骤1:把apk文件后缀名改为.zip步骤2:解压zip包得到classes.dex步骤3:将Dex反编译为Jar包(工具:dex2jar)命令: CMD>dex2jar.bat classes.dex步骤4:用j…

一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移等

作者 | 张皓(南京大学)来源:人工智能头条丨公众号引言深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用。然而,论文通…

[转]暴牛!全国女生录用老公统一考试试卷

全国女生录老公统一考试试卷①本试卷为全国女生招录老公统一考试试卷,各省(自治区、直辖市,计划单列市,不含港、澳、台地区)均须使用此卷,不得自行命题。②由于法律未规定同性婚姻合法,故报名参加考试者均须为男性。若…

Linux-进程、进程组、作业、会话、控制终端详解

From:http://www.cnblogs.com/JohnABC/p/4079669.html Linux进程优先级的处理--Linux进程的管理与调度(二十二):http://blog.csdn.net/gatieme/article/details/51719208 进程 、进程组、会话、控制终端之间的关系:http://blog.csdn.net/y…

Spring Data JPA 从入门到精通~Specification工作中的一些扩展

Specification 工作中的一些扩展 我们在实际工作中会发现,如果上面的逻辑,简单重复写总感觉是不是可以抽出一些公用方法呢,此时引入一种工厂模式,帮我们做一些事情,可以让代码更加优雅。基于 JpaSpecificationExecuto…

用php编写xml,PHP 读取和编写 XML

什么是 XML?XML 是一种数据存储格式。它没有定义保存什么数据,也没有定义数据的格式。XML 只是定义了标记和这些标记的属性。格式良好的 XML 标记看起来像这样:代码如下:Jack HerringtonDOM读取 XML代码如下:$doc new DOMDocument();$doc-&g…

浅谈项目开发现状(一)

在现在的软件开发中,一些大的软件公司有充分的资金,所以他的公司人员组织架构能组成:需求分析团队(为了更好的了解用户的完整需求)--->研发团队(通过计算机语言来实现用户需求),方…

波士顿咨询:2018最具创新力企业50强

来源:前瞻网在波士顿咨询公司评选的2018年最具创新力公司中,有11家公司——其中包括前10名中的7家——都是“数字原住民”,按定义也就是“数字创新者”。榜单上大多数公司已经将数字技术建立在他们的创新计划中。这一趋势在各个行业都很普遍&…

java 防止sql xxs注入,Java-JSP网站 防SQL注入,防XSS等攻击有什么好的处理办法?...

jsp 来防SQL注入,防XSS等攻击的话,首先要选择PreparedStatement来处理sql语句!同时java后台还需要对页面中接受到的参数进行字符替换!/*** 清除所有XSS攻击的字符串* 学来的!分享!*/public static String g…

Linux 线程

Linux 的多线程编程的高效开发经验:https://www.ibm.com/developerworks/cn/linux/l-cn-mthreadps/ linux线程的实现:http://www.cnblogs.com/zhaoyl/p/3620204.html 线程概念经典解析:http://blog.chinaunix.net/uid-29613952-id-421477…

Spring Data JPA 从入门到精通~JpaSpecificationExecutor实现原理

JpaSpecificationExecutor 实现原理 我们还是先通过开发工具,把关键的类添加到Diagram上面进行分析,如图: 我们通过上图可以看一下,前面介绍的几个类之间的关联关系。 SimpleJpaRepository 实现类中的关键源码如下: …

XML文档处理(树的应用)

1.问题陈述设计一个关于XML文档存取的类库,按树的方式处理XML文档,实现对树形文档进行一些基本操作的功能。2.基本要求内部要求:XML文档可一次全部读入内存后处理。至少设置文档类、XML元素类等。提供基本的树结构访问…

微信发布首份《移动支付时代的无人零售报告》

来源:爱范儿 作者:Panda3 月 30 日,微信支付行业运营总监白振杰在 2018 智慧无人零售大会上发布了《移动支付时代的无人零售行业报告》,报告首次结合中国百货商业协会权威调研和微信支付的数据分析能力,揭示了移动支…

mousemove事件java,three.js,补间相机和mousemove事件

我正在尝试使用three.js我正在使用补间移动相机,它工作得很好 . 但是,在动画结束时,相机会跳回到初始位置 .我发现mousemove事件导致了这种行为 . 我如何解决这个问题并保持补间动作和鼠标移动?我根据this example构建了我的three…

Spring Data JPA 从入门到精通~EntityManager介绍

EntityManager 介绍 我们前面已经无数次提到了,JPA 的默认 Repository 的实现类是 SimpleJpaRepository,而里面的具体实现就是调用的 EntityManager。对于 javax.persistence.EntityManager 通过源码,先来看下它主要给我们提供了哪几个方法&…

[转载]SQL SERVER 2008 阻止保存要求重新创建表的更改

微软新出了SQL Server 2008 数据库系统。在建完表后,如果要插入任意列,则提示,‘阻止保存要求重新创建表的更改’。 查了资料才明白如何解决这个问题。 当用户在在SQL Server 2008企业管理器中更改表结构时,必须要先删除原来的表&…

盘点《头号玩家》里的 VR 技术,现在就能造个 Oasis 出来

来源:沉浸感丨公众号 作者: 刘芳平由史蒂文斯皮尔伯格导演的科幻电影《头号玩家》(Ready One Player)于 3 月 30 日在中国大陆上映。首个周末便收获广泛好评,登上豆瓣电影本周口碑榜第一名,截止 31 日晚积…

find()matlab,Matlab 之 find()函数

当我第一次用matlab语言编写一个工程项目时,发现自己编写的脚本里循环特别多,导致编程效率很低,这让我特别苦恼。有一次导师让我阅读他编写的一个Matlab脚本,并按照新要求对其进行更改。我发现脚本里多次用到find()函数&#xff0…

Spring Data JPA 从入门到精通~自定义实现Repository

EntityManager 的获取方式 我们既然要自定义,首先讲一下 EntityManager 的两种获取方式。 1. 通过 PersistenceContext 注解。 通过将 PersistenceContext 注解标注在 EntityManager 类型的字段上,这样得到的 EntityManager 就是容器管理的 EntityMan…