论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统

论文笔记整理:李爽,天津大学。


链接:https://arxiv.org/pdf/2001.03615v1.pdf


动机

随着“自下而上”注意力的普及,基于边界框(或区域)的视觉特征最近已经超越了传统的基于网格的卷积特征,成为视觉和语言任务的事实标准。然而,目前尚不清楚区域优势是否是自下而上的注意力成功的关键原因。作者重新审视了用于VQA的网格特性,发现它们的性能令人惊讶——在同样的精度下,运行速度要快一个数量级。通过大量的实验,作者验证了这种观察在不同的VQA模型(报告了最先进的VQA 2.0 test-std, 72.71)、数据集上都是正确的,并且可以很好地推广到其他任务,比如图像描述。作者从头到尾学习了VQA模型,从像素直接到答案,并证明了在训练前不使用任何区域标注也可以实现较强的性能。


亮点

在基于边界框的视觉特征已经广为应用,替代了传统的基于网格特征的现状下,作者又重新审视了网格特征,将网格特征与区域特征进行实验对比,探索二者的性能是否存在大的差异。


论文框架介绍

Bottom-Up Attention with Regions

自下而上的注意力方法使用了Faster R-CNN检测模型。为了获得像VQA这样的任务的自下而上的注意力特征,需要两个与区域相关的步骤:

1、区域选择。

由于Faster R-CNN是一个两级检测器,因此在管道中进行两次区域选择。第一个是通过区域建议网络,它变形并选择突出的候选“锚”作为感兴趣的区域(RoIs)。另一个选择作为后处理完成,以类的方式聚合顶部N个框。在这两个步骤中,都使用了非最大抑制(NMS),保持分类分数最高的区域,并去除局部邻域内的其他近重复项。

2、区域特性计算。

给定第一阶段的区域(最多数千个),使用RoIPool操作提取初始的区域级特征。然后,其他网络层分别计算区域的输出表示。最后,通过两次选择的区域特征被堆叠在一起作为自下而上的特征来表示图像。

需要注意的是,由于VG数据集的复杂性和使用的特定Faster R-CNN检测器,这两个步骤都需要大量计算。相反,直接使用网格特性可以跳过或加速这些步骤,并提供潜在的显著加速。

Grid Features from the Same Layer

将区域特征转换为网格的最简单的方法是看是否可以直接计算相同网络层的输出,但以共享的、完全卷积的方式。为此,进一步研究最初的自下而上的attention所使用的特定Faster R-CNN架构。

Faster R-CNN是C4模型的一个变体,增加了一个用于属性分类的分支。它将ResNet的权重划分为两个单独的集合:给定一个输入图像,它首先使用ResNet到C4的较低的块计算feature maps。这张feature map是所有区域共享的。然后,在14×14 RoIPool特征上分别应用C5块进行逐区域特征计算。然后,C5的输出被AvgPool转换为每个区域的最终向量,作为自下而上特征。由于最终的区域特征都来自C5,所以很容易将检测器转换回ResNet分类器,并使用相同的C5层作为我们的输出网格特征。如图说明了转换过程。

1×1 RoIPool for Improved Grid Features

简单地使用1×1 RoIPool对模型做一些最小的调整来改进网格特征。这意味着用一个向量来表示每个区域,而不是在Faster R-CNN中使用一个三维张量。虽然这种修改对VG上的对象检测性能有负面影响,但重要的是,使用1×1的RoIPool regions也意味着网格feature map上的每个向量必须单独覆盖一个空间区域的所有信息,这可能会导致更强的网格特征。

但是直接在原始模型上应用1×1 RoIPool是有问题的,可能是因为C5由几个ImageNet预先训练好的卷积层组成,这些层最适合特定空间维度的输入。为了解决这个问题,作者在对象检测和使用整个ResNet到C5作为共享特征计算骨干;对于区域级计算,在顶部放置两个1024D全连接(FC)层,默认情况下接受向量作为输入。

在使用C5汇聚的特征训练检测器时,为了减少低分辨率的影响,将stride-2层替换为stride-1层,其余的层以2的倍数扩张。对于网格特征提取,移除这个膨胀并将其转换回正常的ResNet。下图为改进网格之后的转换过程。

实验

从这一部分开始,报告比较区域和网格的实验结果。作者选择VQA2.0作为感兴趣的主要任务,因为它目前是评估联合视觉和语言理解的主要基准,并且具有清晰的评估指标。为了进行分析,默认情况下,作者将Faster R-CNN与ResNet-50骨干网一起在ImageNet上进行预训练,主要结果如下表所示。

为了了解这些不同数量的区域特征如何影响精度,作者对不同数量的特征N进行了实验,结果如下图所示。

与以前的设置不同,作者使用trainval + vqa-eval进行训练。下表为对比结果。与直接使用卷积特征图的网格特征不同,区域特征涉及区域选择和区域特征计算的其他操作。对于基于区域的模型,这些额外的操作花费了总推理时间的98.3%。将作者的网格特征作为输入的VQA模型比使用自下而上的区域特征的模型运行速度快48倍。

作者提出网格特征能够work的原因有以下两点:

Input Image Size

在ImageNet预训练模型的特征提取过程中使用的标准图像大小为448×448,丢弃了纵横比;而对于自下而上注意力中的VG检测,默认尺寸为600×1000,同时保持纵横比不变。作者对不同的组合进行了实验,下表为实验结果结果。从结果可以看出,对于网格特性,更大的输入大小意味着VQA模型有更多的特性。

Pre-Training Task

研究在ImageNet(分类)和VG(detection)中由于预训练任务而导致的VQA精确度的差异。为了更好地理解这些差异,作者在每个环境中引入了一个额外的预训练模型。对于分类,包括了一个在YFCC上训练过的模型,它有92M张带有图像标签的图像。对于检测,包括一个来自COCO的标准模型,它只有对象注释(没有属性)。所有型号都使用ResNet-50主干网进行公平比较。结果见下表。

总结

在文章中,作者重新讨论网格特征,作为视觉和语言任务中广泛使用的自下而上区域特征的替代方法,结果表明,二者的效果不相上下。作者也发现,相对于特征的“格式”(区域与网格),特征所代表的语义内容对其有效性更为关键,而这种有效的表示可以通过对对象和属性数据集(如VG)的预训练来实现。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478852.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android官方开发文档Training系列课程中文版:布局性能优化之布局复用

原文地址&#xff1a;http://android.xsoftlab.net/training/improving-layouts/reusing-layouts.html 尽管Android提供了种类繁多的常用控件&#xff0c;但是有时你可能希望重用一些比较复杂的布局。如果要重用这些布局&#xff0c;可以使用< include/>标签与< merg…

:批量制作档案表,要从excel表格中将每个人的数据导入到docx档案

https://www.pythonf.cn/read/149081 Python自动将Excel数据填充到word的指定位置,Word,中 具体代码如下&#xff1a; #!/usr/bin/env python3 # -*- coding: utf-8 -*- from docxtpl import DocxTemplate from openpyxl import load_workbook import osdef replace(obj):if o…

LeetCode 1078. Bigram 分词

1. 题目 给出第一个词 first 和第二个词 second&#xff0c;考虑在某些文本 text 中可能以 “first second third” 形式出现的情况&#xff0c;其中 second 紧随 first 出现&#xff0c;third 紧随 second 出现。 对于每种这样的情况&#xff0c;将第三个词 “third” 添加到…

深度学习在OCR中的应用

背景 计算机视觉是利用摄像机和电脑代替人眼&#xff0c;使得计算机拥有类似于人类的对目标进行检测、识别、理解、跟踪、判别决策的功能。以美团业务为例&#xff0c;在商家上单、团单展示、消费评价等多个环节都会涉及计算机视觉的应用&#xff0c;包括文字识别、图片分类、目…

Android官方开发文档Training系列课程中文版:布局性能优化之按需加载View

原文地址&#xff1a;http://android.xsoftlab.net/training/improving-layouts/loading-ondemand.html 有时应用程序中会有一些很少用到的复杂布局。在需要它们的时候再加载可以降低内存的消耗&#xff0c;同时也可以加快界面的渲染速度。 定义ViewStub ViewStub是一个轻量…

千呼万唤始出来——GPT-3终于开源!

文 | 小戏编 | 小轶GPT3终于开源&#xff01;不过&#xff0c;不是官方开的&#xff08;别打我Eleuther AI推出的名为GPT-Neo的开源项目&#xff0c;于今晨4点于twitter正式宣布&#xff1a;已经开源了复现版GPT-3的模型参数&#xff08;1.3B和2.7B级别&#xff09;&#xff0c…

论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库:用于 BabelNet Synsets 义元预测...

论文笔记整理&#xff1a;潘锐&#xff0c;天津大学硕士。来源&#xff1a;AAAI 2020链接&#xff1a;https://arxiv.org/pdf/1912.01795.pdf摘要义原被定义为人类语言的最小语义单位。义原知识库&#xff08;KBs&#xff09;是一种包含义原标注词汇的知识库&#xff0c;它已成…

达观数据:文档智能审阅系统

https://www.bilibili.com/video/BV1dk4y1y75W?fromsearch&seid10707410997793429063 文档智能审阅系统

美团外卖iOS多端复用的推动、支撑与思考

前言 美团外卖2013年11月开始起步&#xff0c;随后高速发展&#xff0c;不断刷新多项行业记录。截止至2018年5月19日&#xff0c;日订单量峰值已超过2000万&#xff0c;是全球规模最大的外卖平台。业务的快速发展对技术支撑提出了更高的要求。为线上用户提供高稳定的服务体验&a…

LeetCode 784. 字母大小写全排列(位运算回溯)

1. 题目 给定一个字符串S&#xff0c;通过将字符串S中的每个字母转变大小写&#xff0c;我们可以获得一个新的字符串。返回所有可能得到的字符串集合。 示例: 输入: S “a1b2” 输出: [“a1b2”, “a1B2”, “A1b2”, “A1B2”] 输入: S “3z4” 输出: [“3z4”, “3Z4”]…

Android官方开发文档Training系列课程中文版:布局性能优化之ListView的优化

原文地址&#xff1a;http://android.xsoftlab.net/training/improving-layouts/smooth-scrolling.html 想要让ListView滑动流畅的关键所在是减轻主线程的负担。要确保任何的磁盘访问、网络访问、或者SQL访问都是在单独的线程中执行的。如果要测试APP的状态&#xff0c;可以开…

论文浅尝 - WWW2020 | 从自然语言交互中提取开放意图

论文笔记整理&#xff1a;娄东方&#xff0c;浙江大学博士后&#xff0c;研究方向为事件抽取。Vedula N, Lipka N, Maneriker P, et al. Open Intent Extraction from Natural Language Interactions[C]//Proceedings of The Web Conference 2020. 2020: 2009-2020.来源&#x…

OCR数据处理(上篇)+OCR数据处理(下篇)

OCR数据处理&#xff08;上篇&#xff09;&#xff1a;https://mp.weixin.qq.com/s/u956SljZEvInqMQCCTcEkg OCR数据处理&#xff08;下篇&#xff09;&#xff1a;https://mp.weixin.qq.com/s/KWoh4pGapYh8S5T7VHNrTQ

深度学习在文本领域的应用

背景 近几年以深度学习技术为核心的人工智能得到广泛的关注&#xff0c;无论是学术界还是工业界&#xff0c;它们都把深度学习作为研究应用的焦点。而深度学习技术突飞猛进的发展离不开海量数据的积累、计算能力的提升和算法模型的改进。本文主要介绍深度学习技术在文本领域的应…

Android官方开发文档Training系列课程中文版:电池续航时间优化之监测电池电量及充电状态

原文地址&#xff1a;http://android.xsoftlab.net/training/monitoring-device-state/index.html 引言 作为一款优秀的APP应用&#xff0c;应该总是想方设法的降低电量的消耗。通过这节课的学习&#xff0c;你将有能力使APP可以基于设备的状态来调整APP的功能及行为。 我们…

LeetCode 1009. 十进制整数的反码(位运算)

1. 题目 每个非负整数 N 都有其二进制表示。例如&#xff0c; 5 可以被表示为二进制 “101”&#xff0c;11 可以用二进制 “1011” 表示&#xff0c;依此类推。注意&#xff0c;除 N 0 外&#xff0c;任何二进制表示中都不含前导零。 二进制的反码表示是将每个 1 改为 0 且…

新分类!全总结!最新Awesome-SLU-Survey资源库开源!

文 | 哈工大SCIR 覃立波、谢天宝等指导老师 | 哈工大SCIR 车万翔教授简介口语语言理解&#xff08;Spoken Language Understanding&#xff0c;SLU&#xff09;作为任务型对话系统的核心组件&#xff0c;目的是为了获取用户询问语句的框架语义表示&#xff08;semantics frame&…

技术实践 | 用 NetworkX + Gephi + Nebula Graph 分析权力的游戏人物关系(上篇)

本文转载自公众号&#xff1a;Nebula Graph Community 。我们都知道《权利的游戏》在全世界都很多忠实的粉丝&#xff0c;除去你永远不知道剧情下一秒谁会挂这种意外“惊喜”&#xff0c;当中复杂交错的人物关系也是它火爆的原因之一&#xff0c;而本文介绍如何通过 NetworkX 访…

python将pdf中的每一页转化为图片保存

import PyPDF4 import pikepdf import fitz #对pdf文件进行简单的解密 def jiemi(pdfpath):new_pdfpath pdfpath[:-4] _new pdfpath[-4:]fp open(pdfpath, "rb")pdfFile PyPDF4.pdf.PdfFileReader(fp)# pdf 解密if pdfFile.isEncrypted:pdf pikepdf.open(pdfp…

美团外卖Android Crash治理之路

Crash率是衡量一个App好坏的重要指标之一&#xff0c;如果你忽略了它的存在&#xff0c;它就会愈演愈烈&#xff0c;最后造成大量用户的流失&#xff0c;进而给公司带来无法估量的损失。本文讲述美团外卖Android客户端团队在将App的Crash率从千分之三做到万分之二过程中所做的大…