人类如何从不同角度识别物体?你需要对「小样本学习」有所了解

来源:转载自公众号「雷克世界」微信号:ROBO_AI

编译:嗯~阿童木呀、多啦A亮

概要:在视觉层次结构的较低层次,不变性使你可以识别矩形或线条,即使它是倾斜、旋转或缩放的;而在更高的层次上,它可以让你识别人和物体,而无论视角、照明条件或背景环境。


之前,我们解释了视觉世界是由部分层次结构组成的。自行车由车把、车轮、踏板等构成;车轮由轮胎、轮辐、轮毂等组成;在物质世界的最低水平,一切都是由颜色、边缘、形状和纹理组成。在这种层次结构的每一层,我们的大脑在某种程度上都是不变的。在视觉层次结构的较低层次,不变性使你可以识别矩形或线条,即使它是倾斜、旋转或缩放的;而在更高的层次上,它可以让你识别人和物体,而无论视角、照明条件或背景环境。


相同两部分的三种排列方式


在上述图像中,这三个形状中的每一个都是相同的两个不变概念的排列。前两个我们可以识别为大写字母T,但第三个显然不是——即使它包含相同的部分。这告诉我们,不仅仅是定义一个对象的部分存在,还有它们之间的关系。第二个T仍然看起来像T,因为这两个部分仍然互相连接在同一个位置上,并且旋转到同一个程度。第三个不像T,因为各部分现在有不同的关系——它们以相反的方向旋转,并且加入到不同的相对位置上。

 

这使我们能够了解我们的大脑是如何运作的。首先,即使我们容忍差异,我们仍然可以看到变化。其次,我们可以描述这种变化是什么(旋转),这意味着我们将一个概念的改变作为一个独立的维度(旋转、平移、颜色、亮度等)来解构。最后,我们用于描述变化的维度在部分之间是常见的,我们可以将它们联系起来。为了证明这一点,尝试想象下面的图像,但将颜色更改为红色,并将其旋转90度。

  

想象一下黑色部分是红色的,整个旋转90度

 

你可能从未见过这种线条和形状的精确组合,但是你仍然可以很容易地想象它旋转,并以不同的颜色。 这意味着我们采用一组常用的变化维度来识别和想象物体如何从不同的角度看,而不必先从各个角度看它们。

 

2011年,Geoffrey Hinton、Alex Krishevsky和Sida Wang发表了一篇名为“Transforming Autoencoders”的论文,其中提出了一种理论,该理论被通常称为“胶囊理论(Capsules Theory)”。该论文证明,给定一组描述每个视觉概念如何转换的常见维度,网络可以准确地预测和分类输入的不可见变化,只能看到原始输入一次(或少量几次)。只有看见一次后对物体进行准确分类的能力被称为“小样本学习(one-shot learning)”,而且是人类可以自然而然地做的事情,但已被证明是难以在机器中复制出来。胶囊论文中描述的架构实现了小样本学习,但是需要转换变化的知识来训练系统。因此,将系统扩展到现实世界的视觉应用是非常困难的——因为我们根本无法获取所需的训练数据。


那么需要做些什么来创建一个具有更多可扩展性的胶囊架构?我们先来看看 “胶囊”是什么,以及它的作用。这是论文中对胶囊(capsule)的描述。


每个胶囊(capsule)都学会在一个观看条件和变形有限的空间内识别一个隐式定义的视觉实体,并且它会输出这个实体存在于其有限域内的概率以及和一组“实例化参数”,这里面可能包括精确的位姿、照明和该视觉实体相对于其隐式定义的规范版本的变形。


这真是一个相当密集、冗长的句子,但它意味着每个胶囊都代表一种视觉概念,这种概念在当诸如照明、视角等发生一定程度的变化时仍然保持不变。如果这个部分听起来很熟悉,不要怀疑,因为它正是我们在本文前面的部分所展示过的。还有一点是前文演示中没有提到,但胶囊可以做到的是随着变化的维度“实例化参数”。换句话说,它不仅可以识别出目标的存在,还可以确定其精确位置,如旋转角度、大小等。


其实,胶囊的架构主要依赖于训练期间所发生的转化变化的先验知识,但是当我们人类自身学着观察的时候,我们并没有给这些变化标上标签。我们能够简单地通过观察将我们能够将我们的视觉世界解构为一组常见的变化维度,如位置、光线条件和旋转。这一点与我们在上一篇文章中所提出的观点有些相似,我们建议人类利用情景性或顺序性数据来进行维度分离。


在我们以前的演示中,我们展示了这些片段可用于将视觉概念的所有变体分组到多个流形检测器中。在我们的架构中,每个流形都可以在其所有变体中检测到一个视觉概念,但它并没有给出关于当前变体的任何信息。它可能会告诉我们“在这个图像中有一个正方形”但不会告诉我们“正方形旋转了10度左右,相对较大,且位于图像的左下角附近”。下面的演示展示了我们该如何创造性地构建流形检测器,从而使得它能够使用情景性数据来提供这些信息。换句话说,我们如何将流形检测器架构转变成一个更具扩展性的胶囊版本。


下面是一个流形以不同位置和旋转度表示心形的示例。3d可视化中的每个点代表心形的一个特定版本。最初系统是无序的,所以移动滑块并不会产生任何有用的东西,但经过一些训练(按下播放)之后,它就会自动排序,发现潜在的隐含维度。一旦组织起来,这些滑块就代表了一个变化的单一维度。




本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498415.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python链表和树实验报告_关于Python实现树结构和链表结构的一点想法

关于Python实现树结构和链表结构的一点想法Python由于内置的数据结构具有很高的灵活性,所以可以用很多种方式来构建树、图、链表等结构1. 树的Python实现python自然可以使用class来创建Node结点类和Trie类,然后通过left和right属性保存Node结点来实现树P…

摩尔定律已死?GPU会取代CPU的位置吗?

来源:全球人工智能 概要:CPU和GPU之所以大不相同,是由于其设计目标的不同,它们分别针对了两种不同的应用场景。 京举办的NVIDIA GTC China会议中,无论是AI智能运算,还是服务器数据中心、智能城市&#xff…

mysql 终端模拟_mysql客户端模拟脏读、幻读和可重复读

如果操作一下时报出错误:在数据库中执行 SET GLOBAL BINLOG_FORMAT mixed;执行后可通过SELECT * FROM information_schema.GLOBAL_VARIABLES WHERE VARIABLE_NAME ‘BINLOG_FORMAT’ ;进行查看。通过客户端选择可用数据库:use db_test(模拟数据库)以下…

Nature Human Behavior:大脑对不公平的反应有助预测抑郁症

来源:生物帮、神经科技 概要:过去的研究已经表明,财富分配不均,即经济不平等,可能会促进抑郁症等精神疾病的增加。但是,这背后的机制却不为人知。 2017年10月2日,国际学术权威刊物自然出版集团旗…

mysql创建table w3c_MySQL ALTER命令

MySQL ALTER命令当我们需要修改数据表名或者修改数据表字段时,就需要使用到MySQL ALTER命令。开始本章教程前让我们先创建一张表,表名为:testalter_tbl。 roothost# mysql -u root -p password;Enter password:mysql> use W3CSCHOOL;Datab…

这几家公司有个梦想:开发AI操作系统,让外行也成为人工智能大师

来源:科技行者 概要:未来几年人工智能会如何发展?除了阿尔法狗令人叹为观止的表现,人工智能确实也正在改变整个行业。但有一点我们是需要注意的,有必要让AI从总体上变得更加易于使用。 严格的说,Scot Barto…

mysql耦合_内聚与耦合

简单理解一下内聚和耦合。什么是模块模块就是从逻辑上将系统分解为更细微的部分,分而治之。复杂问题因为复杂性的问题,比较难解决,但是可以将复杂问题拆解为若干简单问题,逐个击破地解决这些简单问题,最后实现解决复杂…

mysql3.51 密码修改_mysql修改密码

刚初始化的数据库要做的步骤1 为root设置了密码2 删除默认用户3 删除默认的test库修改密码的方法1为管理员设置密码(开始没密码)mysqladmin -uroot password 12qwaszx;2 修改密码方法一: mysqladmin管理工具 (推荐使用)mysqladmin -uroot -p12qwaszx password c110123;注意有空…

Google CEO Sundar Pichai :“谷歌最大的威胁就是自身的成功”

作者:Dude 概要:10月9日,低调的皮柴哥接受了英国卫报的访问,在访谈期间,他分享了谷歌在人工智能上发展,也表达了对谷歌近年来发展的隐忧。 10月9日,低调的皮柴哥接受了英国卫报的访问&#xff0…

python自动客服排班_使用或工具的护士排班问题,在某些日子增加不同的轮班时间...

我正在从here修改代码,我希望能够为某一天添加不同长度的轮班(例如,我希望星期五/第4天只有2个轮班)。我的代码总是以错误代码结尾。我相信这是由于我设定的一些限制的内部问题。在我在类似的程序上看到了一些关于StackOverflow的帖子,但是找…

国防科技大学教授:殷建平——计算机科学理论的过去、现在与未来

来源:图灵人工智能殷建平 教授,博士生导师,国防科学技术大学计算机系主任。研究方向有:模式识别与人工智能、网络算法与信息安全。享受国务院政府特殊津贴。2015年被评为“万人计划”国家级教学名师。2009年被评为“全国优秀教师”…

cmd上打开mysql_cmd连接mysql的方法

连接:mysql -h主机地址 -u用户名 -p用户密码 (注:u与root可以不用加空格,其它也一样)断开:exit (回车)创建授权:grant select on 数据库.* to 用户名登录主机 identified by \"密码\"修改密码:my…

《自然》杂志:关于人类未来的工作,有三个最紧迫的问题

来源:36氪 概要:机器学习会淘汰工人吗?零工经济(Gig Economy)会增加对工人的剥削吗?技能的差距能够弥补吗? 机器学习会淘汰工人吗?零工经济(Gig Economy)会增…

java 冒泡排序的三种写法_冒泡排序的三种实现(Java)

冒泡排序是非常好理解的,以从小到大排序为例,每一轮排序就找出未排序序列中最大值放在最后。设数组的长度为N:(1)比较前后相邻的二个数据,如果前面数据大于后面的数据,就将这二个数据交换。(2)这样对数组的第0个数据到…

有史以来影响世界的颠覆性技术 | 未来的高附加值颠覆性技术产业

来源:DeepTech深科技(ID:mit-tr) 概要:没有工具,人类就是一个脆弱的物种,没有任何人种可以手无寸铁面对自然。技术伴随人类成长,从野蛮走向文明。人类历史就是一部技术史。 人类发展…

redirect java 配置_Java从后台重定向(redirect)到另一个项目的方法

(1)通过ModelAndView跳转RequestMapping("alipayforward")public ModelAndView alipayforward(HttpServletRequest req, HttpServletResponse resp) throwsException {String contNoreq.getParameter("contNo");logger.info("访问/downloadRequestEle…

一文详解脑科学研究与产业发展方向

来源:神经科技、脑计划 概要:大脑是人体最复杂的器官,破译大脑运转密码、揭开生命之谜,是令无数科学家殚精竭虑的艰难课题。脑科学已成为21世纪最前沿的研究领域,尤其与信息科学进行交叉研究已成为脑科学发展的一个重要…

ef生成mysql字段注释_EFcore+MySql 数据迁移的时候,怎么给表结构加注释?

前言:CodeFirst运用的场景比较少,不代表CodeFirst不好,也不能和DbFirst去作比较,本来就是两个东西。吐槽:MySql.Data.EntityFrameworkCore 作为Oracle官方维护的组件,居然对EF很多API不支持或者无效&#x…

10秒一部电影,全球首个5G数据连接完成

作者:李赓 概要:2017年10月17日、也就是上周二,高通在香港高调宣布——其面向移动终端的5G调制解调器芯片组,骁龙X50 5G调制解调器芯片组完成了全球首个5G连接,同时实现了千兆级速率并在28GHz毫米波频段上的数据连接。…

idea 不打开文件提示错误_解决IDEA误删out目录下的文件导致404无法访问的问题

前言有时候IDEA下写Web项目时可能会遇到如下问题:误删out目录下的文件导致开启服务器后无法访问页面的问题新增加一个页面或添加一张图片,在项目编译运行后,未能自动更新到out\artifacts\目录下,从而导致页面无法访问,或者图片未能…