论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统

论文笔记整理：李爽，天津大学。

链接：https://arxiv.org/pdf/2001.03615v1.pdf

动机

随着“自下而上”注意力的普及，基于边界框(或区域)的视觉特征最近已经超越了传统的基于网格的卷积特征，成为视觉和语言任务的事实标准。然而，目前尚不清楚区域优势是否是自下而上的注意力成功的关键原因。作者重新审视了用于VQA的网格特性，发现它们的性能令人惊讶——在同样的精度下，运行速度要快一个数量级。通过大量的实验，作者验证了这种观察在不同的VQA模型(报告了最先进的VQA 2.0 test-std, 72.71)、数据集上都是正确的，并且可以很好地推广到其他任务，比如图像描述。作者从头到尾学习了VQA模型，从像素直接到答案，并证明了在训练前不使用任何区域标注也可以实现较强的性能。

亮点

在基于边界框的视觉特征已经广为应用，替代了传统的基于网格特征的现状下，作者又重新审视了网格特征，将网格特征与区域特征进行实验对比，探索二者的性能是否存在大的差异。

论文框架介绍

Bottom-Up Attention with Regions

自下而上的注意力方法使用了Faster R-CNN检测模型。为了获得像VQA这样的任务的自下而上的注意力特征，需要两个与区域相关的步骤:

1、区域选择。

由于Faster R-CNN是一个两级检测器，因此在管道中进行两次区域选择。第一个是通过区域建议网络，它变形并选择突出的候选“锚”作为感兴趣的区域(RoIs)。另一个选择作为后处理完成，以类的方式聚合顶部N个框。在这两个步骤中，都使用了非最大抑制(NMS)，保持分类分数最高的区域，并去除局部邻域内的其他近重复项。

2、区域特性计算。

给定第一阶段的区域(最多数千个)，使用RoIPool操作提取初始的区域级特征。然后，其他网络层分别计算区域的输出表示。最后，通过两次选择的区域特征被堆叠在一起作为自下而上的特征来表示图像。

需要注意的是，由于VG数据集的复杂性和使用的特定Faster R-CNN检测器，这两个步骤都需要大量计算。相反，直接使用网格特性可以跳过或加速这些步骤，并提供潜在的显著加速。

Grid Features from the Same Layer

将区域特征转换为网格的最简单的方法是看是否可以直接计算相同网络层的输出，但以共享的、完全卷积的方式。为此，进一步研究最初的自下而上的attention所使用的特定Faster R-CNN架构。

Faster R-CNN是C4模型的一个变体，增加了一个用于属性分类的分支。它将ResNet的权重划分为两个单独的集合:给定一个输入图像，它首先使用ResNet到C4的较低的块计算feature maps。这张feature map是所有区域共享的。然后，在14×14 RoIPool特征上分别应用C5块进行逐区域特征计算。然后，C5的输出被AvgPool转换为每个区域的最终向量，作为自下而上特征。由于最终的区域特征都来自C5，所以很容易将检测器转换回ResNet分类器，并使用相同的C5层作为我们的输出网格特征。如图说明了转换过程。

1×1 RoIPool for Improved Grid Features

简单地使用1×1 RoIPool对模型做一些最小的调整来改进网格特征。这意味着用一个向量来表示每个区域，而不是在Faster R-CNN中使用一个三维张量。虽然这种修改对VG上的对象检测性能有负面影响，但重要的是，使用1×1的RoIPool regions也意味着网格feature map上的每个向量必须单独覆盖一个空间区域的所有信息，这可能会导致更强的网格特征。

但是直接在原始模型上应用1×1 RoIPool是有问题的，可能是因为C5由几个ImageNet预先训练好的卷积层组成，这些层最适合特定空间维度的输入。为了解决这个问题，作者在对象检测和使用整个ResNet到C5作为共享特征计算骨干；对于区域级计算，在顶部放置两个1024D全连接(FC)层，默认情况下接受向量作为输入。

在使用C5汇聚的特征训练检测器时，为了减少低分辨率的影响，将stride-2层替换为stride-1层，其余的层以2的倍数扩张。对于网格特征提取，移除这个膨胀并将其转换回正常的ResNet。下图为改进网格之后的转换过程。

实验

从这一部分开始，报告比较区域和网格的实验结果。作者选择VQA2.0作为感兴趣的主要任务，因为它目前是评估联合视觉和语言理解的主要基准，并且具有清晰的评估指标。为了进行分析，默认情况下，作者将Faster R-CNN与ResNet-50骨干网一起在ImageNet上进行预训练，主要结果如下表所示。

为了了解这些不同数量的区域特征如何影响精度，作者对不同数量的特征N进行了实验，结果如下图所示。

与以前的设置不同，作者使用trainval + vqa-eval进行训练。下表为对比结果。与直接使用卷积特征图的网格特征不同，区域特征涉及区域选择和区域特征计算的其他操作。对于基于区域的模型，这些额外的操作花费了总推理时间的98.3％。将作者的网格特征作为输入的VQA模型比使用自下而上的区域特征的模型运行速度快48倍。

作者提出网格特征能够work的原因有以下两点：

Input Image Size

在ImageNet预训练模型的特征提取过程中使用的标准图像大小为448×448，丢弃了纵横比；而对于自下而上注意力中的VG检测，默认尺寸为600×1000，同时保持纵横比不变。作者对不同的组合进行了实验，下表为实验结果结果。从结果可以看出，对于网格特性，更大的输入大小意味着VQA模型有更多的特性。

Pre-Training Task

研究在ImageNet（分类）和VG（detection）中由于预训练任务而导致的VQA精确度的差异。为了更好地理解这些差异，作者在每个环境中引入了一个额外的预训练模型。对于分类，包括了一个在YFCC上训练过的模型，它有92M张带有图像标签的图像。对于检测，包括一个来自COCO的标准模型，它只有对象注释（没有属性）。所有型号都使用ResNet-50主干网进行公平比较。结果见下表。