论文模型构建的步骤_【论文分享】AiR:具有推理能力的注意力模型框架

42f224c239c65a56e527c096f3f0b9f7.png

大家好,今天我们分享一篇来自于ECCV 2020的论文《AiR: Attention with Reasoning Capability》。这篇论文主要研究的是在视觉推理过程中,人和机器的注意力在时域上的渐进变化。

论文代码​github.com

一. 论文的动机

现有的工作在视觉任务中,例如图片描述生成(Image captioning)和视觉问答(Visual question answering),广泛应用了注意力机制(Attention),通过关注重要的视觉区域,来增加决策过程的可解释性,提升模型的表现。

本文作者认为,在视觉推理中,人需要一边看一边进行推理,在捕捉视觉线索的同时进行推理、然后继续看继续推理,直到最后得到答案。从人身上得到启发,对于模型来说,关注不同的视觉区域和推理也应该是一个互相交织的过程。

2da00b7fdd28331b4bc81c64dd22d662.png

如图,在视觉问答任务中,给出一个问题“Is there a bag to the left of the girl that is wearing jeans?”,我们解题时关注的焦点(Regions of interest,ROIs)会随着推理过程的推进不断变化:先找图中的牛仔裤,再关联到穿牛仔裤的小女孩,然后看向她的左边,寻找背包,找到背包时就能知道答案是“yes”。

基于上述想法,作者将推理过程细分成一系列推理步骤,在每个步骤显式地监督机器去关注对应的的焦点区域,使其以一种循序渐进的方式完成整个推理,最后得到答案。

二. 论文的贡献

本文主要贡献是将推理过程打散成一系列原子操作,提出了一个将attention和reasoning整合在一起的框架,具体内容分为以下四个方面:

  1. 提出了一个可以定量评估推理过程中模型attention准确率的指标(AiR-E),而之前的工作一般都只能定性衡量attention;
  2. 提出了一个显式约束模型attention的方法,能在整个推理过程中逐步优化attention(AiR-M)
  3. 收集了一个VQA任务上的眼动数据集(AiR-D),以便定量的去建模人的注意力,进一步用于机器attention的比较和诊断

值得注意的是,本文的题目具有一定的混淆性,这篇论文的重心并不是介绍一个精妙的带推理能力的attention结构,而是做了大量丰富的实验和分析,探究了在推理过程中,人和机器attention的差异、在时空域上的变化、以及和任务表现之间的关系。接下来,我们就具体来看这四部分内容。

三. 准备工作

为了更好地理解后面作者设计的指标和模型,我们先简单地介绍一下本文使用的数据集和前期数据处理工作。

这篇论文主要是在研究VQA任务中的视觉推理过程,使用了GQA数据集[1]。GQA数据集中图片对应的问题是由模板自动生成的。

其中,每张图片都对应于一个Dense Scene Graph(如下图),这部分的标记数据主要来自Visual Genome数据集。

bd26feeb1fdb69beda0c22cdd77d053d.png

同时每个问题都对应一个functional program,它罗列了得出答案需要经过的一系列推理步骤,如下所示。

e3a1f74fa69e383a2572efb1e45aaffc.png

因为本文想研究的是推理过程中attention循序渐进的变化,所以首先要拆分推理过程为一系列原子操作(atomic operations)。作者将GQA数据集中涉及的127种操作根据语义相似性映射到7种,并构建了一个单词表,如下图所示。这些原子操作强调了在这一步中attention的作用。

6f917d017be81d2057e4429c70b5fe8d.png

视觉问答中的一个问题,对应了一个原子操作的序列,每个原子操作带有标注的ROIs(Region of Interest),即为每个推理步骤需要关注的ground truth区域。

四. 方法

1. 指标AiR-E

将一个推理过程分解成原子操作的序列后,作者提出了衡量每一步attention质量的指标AiR-E。设计的主要思路是:在每一个推理操作中,可以根据attention map(人或者机器的)和标注的ROIs的对齐程度,来衡量attention的质量。

指标AiR具体的计算方法如下:

1) standardize the attention map。Attention可以用一个二维的概率矩阵来表示,其中每个值反映了图像上对应像素的重要程度。先对整个attention map A(x) 用均值和方差进行标准化:A*(x) = (A(x) - µ) =σ;

2) 对每个标注的ROI,将它的bounding box B 范围内对应的attention map数值取平均,记为它的AiR-E score:

3) 对每个推理操作:

  • 如果这个操作只对应了一类ROIs集合(比如操作select,query, filter等),就取这个ROIs集合中最大的AiR-E score作为最终的aggregated AiR-E score
  • 如果这个操作对应了多个ROIs集合(比如relate, compare, and),那么就先计算每一类ROIs的aggregated AiR-E,最后再对所有类取平均

如下图所示,高质量的attention能帮助推理得到正确的答案,对应更高的AiR-E分数;反之,不准确的attention关注到了无关区域,对应的AiR-E分数也更低。

d138d79667ad40feff82f037693a50ae.png

2. 模型AiR-M

在推理过程中,为了让模型学习每个推理操作应该关注哪些区域,循序渐进地推理得到答案,本文提出了一种简单的显式attention监督方法,联合训练三个子问题:预测一系列推理操作是什么、每个操作中应该关注什么区域、最后得到的问题答案是什么。

在一个推理过程中(即回答一个VQA的问题时),在第t个推理步骤,模型需要预测这个步骤的推理操作rt,并生成这个步骤的attention map αt。联合训练的损失函数如下面公式(1)所示:

其中θ和Φ是超参数。作者使用了标准的交叉熵损失函数来有监督地训练答案预测和推理操作预测,同时使用了一个KL散度函数(KullbackLeibler divergence loss)

来监督attention的预测。公式(1)中加和了所有推理步骤t的操作预测损失和attention预测损失。

这种简单的监督方法可以整合到很多已有的使用了attention机制的的VQA模型上。

3. 眼动数据集AiR-D

以前的工作没有显式地验证过推理过程中人类注意力的准确性。为了定量地建模人的注意力,本文收集了第一个关于VQA的眼动数据集。

下面,简要介绍一下眼动数据集的收集过程:

1) 用于测试的图片和问题来源于 the balanced validation set of GQA [1];

2) 自动+手工筛选原始数据、保证质量,最终得到 987 张图片和和对应的1,422 个问题;

3) 设计Eye-tracking experiment,让20个被测者回答这些VQA问题,记录被测者回答问题、进行视觉推理时的Eye fixations;

4) 对于每个问题,整合所有被测者的Fixation map为一个,对Fixation map进行平滑处理和标准化,最后它的大小为256*256像素,map中每个值介于[0,1];

5) 测试者回答问题时有对也有错(如下图),将所有问题的fixation map根据回答是否正确分为两类(正确/错误)。

0088cabbe58d3939e4cae18881d4daac.png

人在进行视觉推理时,目光停留的地方就是重点关注的区域,所以人的Fixation map相当于attention map。回答正确/错误的问题对应的两类fixation maps被作者视为两个human attention baseline,用于后续与机器的attention map作对比。

这里收集眼动数据集来定量建模人的attention,是因为本文使用的数据集GQA是机器自动生成问题和答案的,每个问题的推理步骤序列也是程序自动生成的,需要做一些人的attention实验,用来和模型的attention做比较,同时也能验证AiR-E指标和AiR-M模型的有效性。

五. 实验与分析

本文围绕人和机器的attention做了大量的实验和分析,主要想回答三个方面的问题,下面进行详细介绍。

1. Do machines or humans look at places relevant to the reasoning process? How does the attention process influence task performances?

这部分实验,作者没有分解推理过程,单纯从空间域上分析人和机器的attention。

具体地,作者测评了在VQA任务中模型常用的四种注意力机制:spatial soft attention (S-Soft), spatial Transformer attention (S-Trans), object-based soft attention (O-Soft), 以及object-based Transformer attention (O-Trans)。使用UpDown [2] 这个VQA模型为骨架,将上述四种attention分别代替UpDown论文中原来的attention模块,训练得到实验结果。

同时,为了研究人的注意力机制,作者将回答正确的那些问题所对应的fixation map记做H-Cor,不正确的记做H-Inc,所有问题(忽略正确/错误)的fixation map记做H-Tot。

8fe7fadc5927f039cd013d8a95fb9916.png

图4中展示了一些attention可视化的例子,每一行代表一个问题,前四列表示不同推理操作的标注ROIs,后六列分别是机器和人在回答问题时的attention map。

接下来,作者又分三个维度来做实验:

1) 探究了人和机器的注意力准确度和在任务上的表现。

表2定量地展示了在不同的推理操作下、不同类型的attention下,人和机器得到的AiR-E分数和问题回答准确率。看表格前三行,可以得到人正确回答问题时(H-Cor)的AiR-E分数要比错误回答问题时(H-Inc)高很多。对比人和机器的表现,无论在AiR-E分数还是问题回答准确率,人能达到的各项指标都显著高于机器。在机器的四种attention类型之间比较,则发现Object-based attentions要比spatial attentions关注地更准确。

81c54ab01608e4a6520c4c365d8b8194.png

此外,表2 的实验结果整体和我们的直觉一致,也验证了AiR-E指标的有效性。

2) 不同推理操作下的注意力准确度和任务表现

表2中每一列都表示了一个推理操作。比较不同的推理操作,我们可以发现query操作对模型来说是最难的:此时模型的注意力准确度是最高的,问题回答准确率却是最低的。作者分析模型在识别能力上劣于人类,即使关注到了正确的区域,它也可能无法准确识别出区域中的物体。对人来说,compare操作是最有挑战性的,这是因为给出一些很复杂的问题时,人需要同时关注对比多个区域,在有限的时间内难以完成,但模型却可以并行地处理多区域多物体。

3) 注意力准确度和任务表现之间的关系

作者进一步计算了注意力准确度和任务表现之间的Pearson系数,来探究两者的相关性,如表3所示。

e9375775ac96b857026fbb2abca47e42.png

表3显示在大多数推理操作下,人的注意力准确度和任务表现是正相关的,Pearson系数明显高于机器的attention。反之,虽然我们通常认为spatial attention的准确度和模型的表现是相关的、能增加模型的可解释性,但是表3的实验结果否定了这一点,观察最后两行,大多数推理操作对应的Pearson系数是很小的、甚至为负。比较而言,object-based attentions反映了注意力准确度-任务表现之间更高的相关度。

总结第一部分的实验,作者发现在推理过程中,人关注的相关区域会比机器准确很多。此外,attention准确率和任务表现不是直接正相关的,而是要取决于进行的推理操作。

2. How does attention accuracy evolve over time, and what about its correlation with the reasoning process?

第二部分实验和本文的研究的内容相关,作者分解了推理过程,额外从时域上来分析attention,探究了人和机器attention在推理过程中是否有渐进的变化。

具体地,作者使用了multi-glimpse machine attention,对比人类attention随时间的变化,以揭示两者的差异。

1) 人类的注意力是随推理过程变化的吗?

作者将人的fixation map根据时间划分为三类(0-1s,1-2s和2-3s),计算每个时间段fixation map和推理步骤ROIs之间的AiR-E分数,如下图所示。这两个热力图中颜色越亮表示AiR-E分数越高,横轴表示每个推理步骤应关注的ground truth区域,纵轴表示人随时间变化的关注区域,如果两者有高度一致性,可以看到对角线“”是高亮的。

d26b5289af60fad8defb760d0d2f8dd9.png

观察图(b)发现人能正确回答问题时,在0-1s的AiR-E分数比较低,说明还在最初的探索阶段;经过了这个探索阶段,注意力准确度就开始提升,并且在1-2s主要关注early-step ROIs(第二行左边最亮);到了2-3s的最后推理阶段,热力图第三行右边高亮,说明推理快结束时人关注late-step ROIs。而当人回答问题错误时,如图(c),AiR-E分数一直都比较低,说明整个推理过程都没有看对地方。这个实验说明了人的attention和推理步骤序列是有时空上的高度对齐性的。

2) 模型的注意力是随推理过程变化的吗?

类似地,作者研究了三种multi-glimpse machine attentions的表现: stacked attention from SAN [41], compositional attention from MAC [18]和multi-head attention [12, 44]。其中Multi-glimpse attention模型一般在解答问题时输出多个attention map,可以观察不同时刻输出的attention map来研究它随时间的变化。

5d6361b4e95adaca7e65597242cf2cb4.png

上图展示了三种不同的Multi-glimpse attention在推理中随时间的变化。(d)中模型在第一次看的时候就已经看到了推理结束时刻应关注的区域;(e)和(d)中的两种attention也是主要关注Step-3或者Step-4对应的ROIs,直接忽略了early steps中的ROIs。这说明传统的几种multi-glimpse machine attentions都不是随着推理过程循序渐进变化的,而倾向于“一眼看到底”。

3. Does guiding models to look at places progressively following the reasoning process help?

第三部分实验主要在验证本文提出的attention监督方法AiR-M是否有效。

这里作者将AiR-M和其他三种SOTA的attention监督方法(human-like attention (HAN) [31], attention supervision mining (ASM) [46] and adversarial learning (PAAN) [30]),整合到三个VQA模型中(UpDown [2], MUTAN [4], and BAN [25]),来进行多维的比较。

31f74066cc074b6e159d6833a096b842.png

从表4中,可以观察得到相比于其他三种监督方式,AiR-M能使得三个VQA模型达到最好的效果。

661b39d90df68a8b1be0cfebab6b0f1a.png

图6是一些attention的可视化例子,本文提出的AiR-M监督方式可以使模型不仅关注到和答案最相关的ROIs(例如Q4中的purse),还能关注到问题中提及的其他重要ROIs(Q4中的man),它们往往是在推理过程中涉及到的。

871231446f45e067f8e304b10882fd2a.png

6c15e0aa5d0264179528f570dde63737.png

表5展示了不同推理操作下人和机器的attention,说明AiR-M监督方式可以显著提升attention准确度。图7中,热力图大致呈对角线“”型高亮,说明用AiR-M训练的multi-glimpse attentions能够在时域上和推理步骤更好地对齐。

最后这个demo视频可视化了随着推理过程循序渐进变化的模型attention。

83380b3f702b8cb102e078d09c6b837f.gif

六. 总结与分析

之前的工作在VQA中广泛使用attention来捕捉和问题相关的区域,但是没有在时域上考虑过attention渐进的变化。由本文的实验部分可得,现有的Multi-glimpse attentions也是“一眼看到底”。这篇论文基于GQA这样高质量、监督信息比较多的数据集,将推理过程细分成一系列原子操作,想法新颖,同时做了大量详实的实验和分析,为后面的工作提供了思路。

我们认为这篇论文思路的缺陷在于,完成一个推理过程,并不一定需要按照ground truth中的“推理路径”来推理,我们可以通过不同的“推理路径”来得到正确答案,例如找一个穿牛仔裤的小女孩,可以先找“牛仔裤”再找“小女孩”,也可以先寻找图中的“小女孩”再判断她是否穿着牛仔裤,而本文的AiR-M强制模型根据标注的一个ROIs序列去进行观察和推理。此外,本文提出的这种AiR-M监督attention,对数据集的要求比较高,其中必须要带有每个推理过程的操作标注和相应ROIs标注。

参考文献

[1] Hudson, D.A., Manning, C.D.: Gqa: A new dataset for real-world visual reasoning and compositional question answering. In: CVPR (2019)

[2] Anderson, P., He, X., Buehler, C., Teney, D., Johnson, M., Gould, S., Zhang,L.: Bottom-up and top-down attention for image captioning and visual question answering. In: cvpr (2018)

[4] Ben-Younes, H., Cad`ene, R., Thome, N., Cord, M.: Mutan: Multimodal tucker fusion for visual question answering. ICCV (2017)

[12] Fukui, A., Park, D.H., Yang, D., Rohrbach, A., Darrell, T., Rohrbach, M.: Multimodal compact bilinear pooling for visual question answering and visual grounding. In: Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. pp. 457{468 (2016)

[18] Hudson, D.A., Manning, C.D.: Compositional attention networks for machine reasoning (2018)

[25] Kim, J.H., Jun, J., Zhang, B.T.: Bilinear Attention Networks. In: NeurIPS. pp. 1571{1581 (2018)

[30] Patro, B.N., Anupriy, Namboodiri, V.P.: Explanation vs attention: A two-player game to obtain attention for vqa. In: AAAI (2020)

[31] Qiao, T., Dong, J., Xu, D.: Exploring human-like attention supervision in visual question answering. In: AAAI (2018)

[41] Yang, Z., He, X., Gao, J., Deng, L., Smola, A.: Stacked attention networks for image question answering. In: CVPR (2016)

[44] Yu, Z., Yu, J., Fan, J., Tao, D.: Multi-modal factorized bilinear pooling with co-attention learning for visual question answering. In: ICCV (2017)

[46] Zhang, Y., Niebles, J.C., Soto, A.: Interpretable visual question answering by visual grounding from attention supervision mining. In: WACV. pp. 349{357 (2019)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476964.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第一次Blog

没有经验请多关照转载于:https://www.cnblogs.com/oiramario/archive/2005/10/18/257414.html

这可能是中国最穷的211大学!连研究生奖学金都发不起了....

源 | 募格学术万万没想到曾经因为“穷”而登上了微博热搜榜的西北大学。最近又因为“没钱”惹的祸而闯上了风口浪尖....近日,西北大学因研究生奖学金发放问题引发关注。起因是临近开学,西北大学通知调整奖学金发放政策,不仅取消了考研新生的奖…

LintCode 1862. 给树浇水的时间(图的遍历)

1. 题目 有一棵n个节点的树,节点编号是0至 n−1,其中 0号节点是根节点,i号节点的父亲节点是father[i] 。 现在要对树浇水,把水撒到根节点上,水会顺着每一条边流下去,从 i 号节点的父亲流到 i 号节点需要 …

potainer 日志_日志系统落地:制定日志规范

我们的系统,已经接入阿里云的日志服务很长一段时间了,存了数以TB级别的日志,突然有一天,领导说,我们需要所有订单的ip信息用于审计订单的真实性,突然发现日志系统无法一次性查找到我所有需要的信息&#xf…

软件项目管理的质量保证

软件工程项目管理是一个系统工程,软件工程项目管理的主要目标是保证项目在规定时间内高质量地完成。项目管理包括了项目组开发各阶段的人员结构的配置,质量控制的实施方略,内部文档和产品文档的组织编写等多项工作,其中质量控制方…

8 月份 Github 上最火的10篇 AI 论文!

文 | 天于刀刀不晓得各位同学在看论文的时候最关注的是什么?也许是论文的创新点,或是被引用的数量,还是...是不是自带代码!重要的事说三遍!复现,复现,还是复现!(ーー゛)为了方便各位…

LintCode 1859. 最小振幅(排序)

1. 题目 给定一个由 N 个整数组成的数组 A,一次移动,我们可以选择此数组中的任何元素并将其替换为任何值。 数组的振幅是数组A中的最大值和最小值之间的差。 返回通过执行最多三次替换之后数组A的最小振幅 示例 1 输入: A [-9, 8, -1] 输出: 0 解释&a…

小程序 webview 分享_新的一周,分享15个好玩的小程序

文/阿C 一周进步签约作者自小程序推出以来,由于其相对比APP而言,具有方便、轻巧、即用即走、不占内存的特性,受到广大追求效率(内存不足)星人的喜爱。不过随着小程序的发展,市面上的小程序开始有些滥竽充数、页面难看同时又极为无…

我的Blog不值钱

My blog is worth $0.00. How much is your blog worth? 呵呵,大家可以看看自己得Blogs值多少钱。转载于:https://www.cnblogs.com/Duiker/archive/2005/11/02/267011.html

中科大博士:我眼中的NLP最快学习路径

有人这样分类目前的人工智能:感知智能、运动智能、认知智能。在这三类智能里面,最复杂的也是人类所特有的认知智能,离不开自然语言处理技术的支持。虽然说自然语言的研究历史虽然还不是很长,但近些年在NLP知名核心企业&#xff08…

软件开发 thoughtworks 技术面_【软件开发】10月29日比赛详细预告

第三回软件开发专业比赛内容 软件需求分析与设计:需求识别、需求挖掘、评估、管理方法论以及业务、流程、场景的分析与建模等知识软件设计与开发;软件设计与开发:编程语言基础基础、数据库技术基础知识、程序开发技术、软件开发流程和工具使…

程序员面试金典 - 面试题 04.10. 检查子树(双重递归)

1. 题目 检查子树。你有两棵非常大的二叉树:T1,有几万个节点;T2,有几万个节点。 设计一个算法,判断 T2 是否为 T1 的子树。 如果 T1 有这么一个节点 n,其子树与 T2 一模一样,则 T2 为 T1 的子…

终于……我的游戏………简体版就要发布了!

喜讯!喜讯!!由软星科技(上海)有限公司研发、北京寰宇之星软件有限公司代理的《阿猫阿狗2》在广大玩家的引颈期盼中,即将在本月上市了! 美丽的田园生活温馨而宁静,淳朴的民风民情是每…

改了!教育部核准这所985高校更改简称!网友:华科大终于来了

源 | 募格学术到底叫“华中大”还是“华科大”?这个曾经无数次成为舆论焦点的难题终于有解了!8月31日,教育部网站发布《教育部关于同意华中科技大学章程部分条款修改的批复》、《教育部关于同意吉林大学章程部分条款修改的批复》、《教育部关…

deepfashion 深度学习_基于Alluxio加速混合云下的Intel Analytics Zoo开源深度学习平台...

本文描述了Alluxio如何在混合云环境中,加速oneAPI支撑的英特尔Analytics Zoo开源平台深度学习模型训练。本文会讨论有关新架构和工作流的细节,以及Alluxio的性能优势和基准测试结果。1.混合环境中的深度学习从架构演进到混合模式传统上,数据处…

程序员面试金典 - 面试题 04.06. 后继者(循环中序遍历)

1. 题目 设计一个算法,找出二叉搜索树中指定节点的“下一个”节点(也即中序后继)。 如果指定节点没有对应的“下一个”节点,则返回null。 示例 1: 输入: root [2,1,3], p 12/ \ 1 3输出: 2示例 2: 输入: root [5,3,6,2,4,…

使用ASP.net 2.0 的一些新特性

by:(fallseir.lee) 飞扬轻狂 使用masterpage 新建一个site 添加一个新的masterpage&#xff0c;the_one.master 打开 the_one.master 添加 默认title&#xff0c;meta 添加 全局控件 sitemap 添加 ContentPlaceHolder <?xml:namespace prefix o /><% Master Languag…

北大数学系毕业,放弃MIT offer,嫌月薪3万太多主动降薪…

文 | Alex(发自凹非寺)源 | 量子位出家十二载的北大数学天才柳智宇&#xff0c;如今下山还俗了。18岁时&#xff0c;他获得国际数学奥林匹克竞赛满分金牌&#xff0c;顺理成章地被保送到中国“第一学府第一系”&#xff1a;北京大学数学系。22岁&#xff0c;在获得MIT全额奖学金…

LeetCode 第 22 场双周赛(220/2041,前10.8%)

文章目录1. 比赛结果2. 题目LeetCode 5348. 两个数组间的距离值 easyLeetCode 5349. 安排电影院座位 mediumLeetCode 5350. 将整数按权重排序 mediumLeetCode 5351. 3n 块披萨 hard1. 比赛结果 做出来了前3题&#xff0c;第4题有点难&#xff0c;感觉是动态规划。 全国排名&a…

使用设备mac好还是随机mac好_省4000我给MBP16搭配了一块2T SSD:希捷 酷鱼飞翼 Fast SSD使用测评...

最近入手了MBP16&#xff0c;配置选择上纠结了一下。整体苹果的电脑后期基本没有什么升级的可能&#xff0c;所以选择了32G和1T的硬盘的配置。本身也想过硬盘是不是升级2T或者更高&#xff0c;但是想想每挑一格就是3000&#xff0c;腰包实在撑不起。我还是配合NAS和SSD级别的移…