TIFS2024 | CRFA | 基于关键区域特征攻击提升对抗样本迁移性

Improving Transferability of Adversarial Samples via Critical Region-Oriented Feature-Level Attack

摘要-Abstract
引言-Introduction
相关工作-Related Work
提出的方法-Proposed Method
- 问题分析-Problem Analysis
- 扰动注意力感知加权-Perturbation Attention-Aware Weighting
- 区域 ViT 关键检索-Region ViT-Critical Retrieval
- 损失函数-Loss Functions
实验-Experiments
讨论-Discussion
结论-Conclusion

在这里插入图片描述

论文链接

本文 “Improving Transferability of Adversarial Samples via Critical Region-Oriented Feature-Level Attack” 提出基于关键区域的特征级攻击（CRFA）方法提升对抗样本迁移性，包括扰动注意力感知加权（PAW）和区域 ViT 关键检索（RVR）。PAW 通过生成近似注意力图加权对抗扰动，减少对模型注意力的改变，提升跨模型迁移性，尤其是在攻击多目标图像时效果显著；RVR 搜索对 ViT 输出有重要影响的关键 patch，引入 ViT 先验知识，提高对抗样本在 ViT 上的跨架构迁移性。实验表明，CRFA 生成的对抗样本在 CNN 和 ViT 模型上，相比现有特征级攻击方法，愚弄率分别提高了 19.9% 和 25.0% ，视觉质量更优，验证了该方法的有效性。

摘要-Abstract

Deep neural networks (DNNs) have received a lot of attention because of their impressive progress in computer vision. However, it has been recently shown that DNNs are vulnerable to being spoofed by carefully crafted adversarial samples. These samples are generated by specific attack algorithms that can obfuscate the target model without being detected by humans. Recently, feature-level attacks have been the focus of research due to their high transferability. Existing state-of-the-art feature-level attacks all improve the transferability by greedily changing the attention of the model. However, for images that contain multiple target class objects, the attention of different models may differ significantly. Thus greedily changing attention may cause the adversarial samples corresponding to these images to fall into the local optimum of the surrogate model. Furthermore, due to the great structural differences between vision transformers (ViTs) and convolutional neural networks (CNNs), adversarial samples generated on CNNs with feature-level attacks are more difficult to successfully attack ViTs. To overcome these drawbacks, we perform the Critical Region-oriented Feature-level Attack (CRFA) in this paper. Specifically, we first propose the Perturbation Attention-aware Weighting (PAW), which destroys critical regions of the image by performing feature-level attention weighting on the adversarial perturbations without changing the model attention as much as possible. Then we propose the Region ViT-critical Retrieval (RVR), which enables the generator to accommodate the transferability of adversarial samples on ViTs by adding extra prior knowledge of ViTs to the decoder. Extensive experiments demonstrate significant performance improvements achieved by our approach, i.e., improving the fooling rate by 19.9% against CNNs and 25.0% against ViTs as compared to state-of-the-art feature-level attack method.

深度神经网络（DNNs）因其在计算机视觉领域取得的显著进展而备受关注。然而，最近研究表明，DNNs容易受到精心制作的对抗样本的欺骗。这些样本由特定的攻击算法生成，能够迷惑目标模型且不易被人类察觉。近年来，特征级攻击因其较高的迁移性成为研究热点。现有的前沿特征级攻击方法均通过贪婪地改变模型的注意力来提高迁移性。然而，对于包含多个目标类对象的图像，不同模型的注意力可能存在显著差异。因此，贪婪地改变注意力可能会导致对应这些图像的对抗样本陷入代理模型的局部最优解。此外，由于视觉 Transformer（ViTs）和卷积神经网络（CNNs）在结构上存在巨大差异，通过特征级攻击在 CNNs 上生成的对抗样本更难成功攻击 ViTs。为克服这些缺点，本文提出了基于关键区域的特征级攻击（CRFA）。具体而言，我们首先提出了扰动注意力感知加权（PAW）方法，该方法通过对对抗扰动进行特征级注意力加权来破坏图像的关键区域，同时尽可能不改变模型的注意力。然后，我们提出了区域 ViT 关键检索（RVR）方法，通过向解码器添加 ViTs 的额外先验知识，使生成器能够适应对抗样本在 ViTs 上的迁移性。大量实验表明，我们的方法在性能上有显著提升，与最先进的特征级攻击方法相比，对 CNNs 的愚弄率提高了19.9%，对 ViTs 的愚弄率提高了25.0%.

引言-Introduction

这部分内容主要介绍了研究背景和动机，具体如下：

DNNs的广泛应用与安全问题：近年来，DNNs 在图像分类、分割、检索等众多视觉任务中得到广泛应用且表现出色。随着物联网、软件开发等领域对安全问题的深入探索，DNNs 的鲁棒性备受关注。研究发现，DNNs 易受对抗样本欺骗，这些样本由恶意添加的精心设计的扰动产生，难以被察觉却能使模型输出错误结果。因此，对抗攻击在人脸识别、工业系统、自动驾驶等领域受到高度关注，同时也为神经网络的可解释性和鲁棒性研究提供了思路。
对抗攻击的分类：根据攻击者对模型信息的获取程度，对抗攻击可分为白盒攻击和黑盒攻击。白盒攻击中攻击者能获取目标模型的结构和参数；而在现实应用中，DNNs 多部署在黑盒环境下，目标模型未知，所以黑盒攻击更具实际意义。黑盒攻击又可大致分为基于查询的攻击和基于迁移的攻击。基于查询的攻击通过向目标模型发送查询获取概率向量或硬标签来生成对抗样本，但在现实中大量查询往往受限。基于迁移的攻击则利用对抗样本的跨模型迁移性，在代理模型上生成对抗样本并直接攻击目标模型，受到越来越多的关注。
现有攻击方法的局限性与特征级攻击的发展：传统攻击方法（如 FGSM、PGD、BIM 等）生成的对抗样本在代理模型上常出现过拟合问题，导致跨模型迁移性受限。以往方法通过在对抗样本优化过程中添加额外操作来缓解过拟合，也有一些方法在特征空间设计对抗扰动，即特征级攻击。特征级攻击利用模型内部特征信息，由于影响图像类别的关键特征在不同模型间有较高重叠，该方法在提高对抗样本跨模型迁移性方面展现出潜力。早期特征级攻击（如 NRDM、TAP）不加区分地扭曲目标模型内部特征，过度强调非关键特征，使生成的对抗样本易陷入代理模型的局部最优，阻碍了迁移性。近期的一些方法（如 FIA、NAA）虽提出了衡量特征重要性的方法，但对于包含多个目标对象的图像，不同模型的注意力差异较大，修改后的注意力区域可能与目标模型不匹配，导致对抗样本攻击失败。
本文的研究内容与贡献：为缓解当前特征级攻击的不足，本文提出了 PAW 方法，通过用生成的近似注意力图对对抗扰动进行加权，显著提高对抗样本的跨模型迁移性，尤其是在攻击多目标图像时效果明显。同时，提出 RVR 方法，通过搜索对 ViTs 输出有重要影响的图像关键 patch 并将其作为加权项，提高对抗样本在 ViTs 上的跨架构迁移性。综合实验证实，本文提出的 CRFA 方法能兼顾对抗样本在 CNNs 和 ViTs 上的迁移性，与现有最先进的特征级攻击方法相比，对 CNNs 和 ViTs 的愚弄率分别提高了19.9%和25.0%.

在这里插入图片描述
图1. 两种不同类型图像上模型注意力的可视化。前两张图像仅包含一个目标类别的对象，不同模型确实聚焦于相似区域。然而，对于最后两张同时包含多个目标类别的图像，不同模型的注意力可能存在显著差异。
在这里插入图片描述
图2. 原图像以及由神经元归因攻击（NAA）方法生成的对抗样本上的模型注意力可视化。目标模型对对抗样本和原图像的注意力存在很大重叠。

提出的方法-Proposed Method

问题分析-Problem Analysis

这部分主要分析了基于迁移的黑盒对抗攻击中存在的问题，并提出了本文的解决思路，具体内容如下：

对抗样本的定义与条件：将用于图像分类任务的深度神经网络表示为函数 $f_{\theta}(x)$ ，其中 $\theta$ 代表模型参数， $x$ 是原始输入图像，其真实标签为 $t$ ，函数输出是对应输入图像 $x$ 的概率向量， $f_{\theta}(x)[c]$ 表示 $x$ 属于类别 $c$ 的输出 logit 值。对抗样本 $x^{adv}=x+\delta$ 通过在输入图像 $x$ 上叠加精心设计的对抗扰动 $\delta$ 得到，需满足两个条件：一是 $\underset{c}{arg max } f_{\theta}\left(x^{adv}\right)[c] \neq t$ ，即让分类器输出错误标签；二是 $\| \delta\| _{p} \leq \epsilon$ ，使用 $\ell_{\infty}$ 范数约束扰动，使对抗样本具有实际意义。
以往特征级攻击的问题：基于迁移的黑盒对抗攻击的核心是在代理模型上生成具有高迁移性的对抗样本。然而，以往大多数特征级攻击严重依赖代理模型对单个输入图像的梯度信息，这使得生成的对抗样本容易过度拟合代理模型，在不同模型间的迁移性受限。
本文的解决思路：本文采用基于生成器的方法，学习从输入图像到对抗样本的直接映射。这种映射是基于训练数据分布进行学习的，而非针对单个图像，从而有效缓解了过拟合问题。此外，在生成器的优化过程中，添加特定的先验知识，帮助生成器更加关注对 CNNs 和 ViTs 输出类别影响较大的敏感区域，进而提升对抗样本的跨模型迁移性。

扰动注意力感知加权-Perturbation Attention-Aware Weighting

这部分主要介绍了扰动注意力感知加权（PAW）方法，旨在提升多目标图像对抗样本的跨模型迁移性，具体内容如下：

方法提出的背景：对于包含多个目标类对象的图像，不同模型的注意力区域差异显著。以往特征级攻击通过贪婪地改变代理模型的注意力区域来生成对抗样本，这会使对应这些图像的对抗样本陷入局部最优，影响其迁移性。因此，PAW 方法摒弃直接破坏代理模型内部特征的方式，采用基于近似注意力图对扰动进行加权的策略，让生成器聚焦关键区域的同时尽量不改变模型注意力。
计算特征重要性图和注意力图：
- 用空间池化梯度计算特征图 $A_{k}^{c}(x)$ 的重要性图 $\alpha_{k}^{c}(x)[t]$ ，公式为 $\alpha_{k}^{c}(x)[t]=\frac{1}{M} \sum_{i} \sum_{j} \frac{\partial f_{\theta}(x)[t]}{\partial A_{k}^{c}(x)[i, j]}$ ，其中 $M$ 是限制重要性图值范围的放缩因子， $\alpha_{k}^{c}(x)[t]$ 表示第 $k$ 层第 $c$ 个特征图对于真实标签 $t$ 的重要性图。
- 为了对与原始输入图像大小相同的对抗扰动进行元素级加权，通过 $\Omega_{k}^{t}(x)=Upsample\left(\sum_{c}\left(A_{k}^{c}(x) \cdot \alpha_{k}^{c}(x)[t]\right)\right)$ 计算注意力图。具体操作是先将神经元激活值 $A_{k}^{c}(x)$ 与注意力权重 $\alpha_{k}^{c}(x)[t]$ 相乘，再对同一层的所有特征图进行通道维度的求和，最后通过上采样操作得到注意力图。与传统方法不同，这里去除了 ReLU 函数操作，保留负注意力权重，使生成器能更好地区分图像中的非关键区域，生成更精细的对抗扰动。
生成近似注意力图和加权对抗扰动：使用包含编码器和两个解码器的生成器 $G$ 。编码器 $\epsilon$ 将输入图像 $x$ 映射为潜在代码 $z = E (x)$ ， $z$ 分别输入到解码器 $D_{1}$ 和 $D_{2}$ 。 $D_{1}$ 在注意力图 $\Omega_{k}^{t}(x)$ 的监督下生成近似注意力图 $\tilde{\Omega}_{k}^{t}(x)=D_{1}(z)$ ， $D_{2}$ 负责生成原始对抗扰动 $\delta = D_{2}(z)$ 。通过公式 $\delta'=\delta \cdot \tilde{\Omega}_{k}^{t}(x) * \alpha+\delta=\delta\left(1+\tilde{\Omega}_{k}^{t}(x) * \alpha\right)$ 计算注意力加权后的对抗扰动 $\delta'$ ，其中 $\alpha$ 是预定义的超参数，用于控制加权强度。这样在反向传播时，关键区域中被扰动像素的梯度会乘以较大权重，非关键区域的梯度乘以较小权重，使生成器在优化过程中更关注不同模型间共享的关键区域，有效破坏图像中高注意力区域，显著提升多目标图像对抗样本的跨模型迁移性。

区域 ViT 关键检索-Region ViT-Critical Retrieval

这部分主要介绍了区域 ViT 关键检索（RVR）方法，目的是提升对抗样本在视觉 Transformer（ViTs）上的跨架构迁移性，具体内容如下：

方法提出的背景：ViTs 在图像识别任务中表现出色，但相比传统卷积神经网络（CNNs）具有更强的鲁棒性。由于两者结构差异显著，基于 CNNs 生成的对抗样本难以成功攻击 ViTs。对于特征级攻击而言，贪婪地改变 CNNs 代理模型的注意力会导致对抗样本在 ViTs 上的跨架构迁移性较差，因为 ViTs 和 CNNs 的关键区域并不共享。所以，需要在生成器优化过程中引入 ViTs 的先验知识来解决这一问题。
搜索ViT关键区域：定义在 Imagenet1k 上预训练的 ViT 分类器为函数 $F (x)$ ，以 ViT-B/16 为例，它将图像分割成 196 个 patch 作为输入，这些 patch 包含图像的所有信息，但不同 patch 对识别任务的贡献不同。通过计算 patch 对真实标签概率的边际贡献来衡量其重要性，定义二元掩码 $M$ 并初始化为全1，某 patch 集合 $s$ 的边际贡献公式为 $\varphi_{s}=F(x)[t]-F\left(x \odot M_{s}\right)[t]$ ，其中 $M_{s}$ 是将集合 $s$ 中的 patch 全部设为 0 后的二元掩码。
具体检索过程：从原始输入图像 $x_{init}$ 开始，遍历图像中的196个 patch，分别计算每个 patch 的边际贡献。选择边际贡献最大的 patch，更新掩码 $M$ （将该 patch 所在区域设为0），并用更新后的掩码与当前图像 $x$ 相乘来更新图像。若当前图像 $x$ 仍能使 $F (x)$ 正确分类，则继续遍历未被选择的 patch，重新计算边际贡献并更新图像，直到模型误分类或所有 patch 都被视为关键区域，最终得到二元掩码 $M$ ，其中元素值为 0 的区域就是对 ViTs 输出有显著影响的关键区域。
计算最终对抗扰动和样本：得到关键区域后，对对抗扰动进行加权计算。在 PAW 得到的对抗扰动 $\delta'$ 基础上，通过 $\delta''=\delta' \odot(1 - M) \cdot \beta+\delta'$ 计算最终的对抗扰动 $\delta''$ ，其中 $\beta$ 是控制加权强度的放缩因子，可随生成器训练过程不断优化。最后，通过 $x^{adv}=x+\epsilon \cdot tanh (\delta^{\prime \prime})$ 得到最终的对抗样本，其中 $\epsilon$ 是超参数，与 $(\cdot)$ 函数一起将对抗扰动限制在 $\ell_{\infty}$ 范数约束内。

在这里插入图片描述

图3. 我们用于生成对抗样本的框架由三个部分组成：生成器、扰动注意力感知加权（PAW）模块和区域 ViT 关键检索（RVR）模块。生成器包含一个编码器和两个解码器，分别用于生成近似注意力图和对抗扰动。近似注意力图由 PAW 生成的精确注意力图进行监督，并使用缩放因子对扰动进行加权。RVR 用于将 ViT 的先验知识引入对抗扰动中，以便生成器考虑图像中对 ViT 模型输出类别敏感的区域。最终的对抗样本是通过将对抗扰动与原始输入图像叠加得到的。

损失函数-Loss Functions

这部分内容介绍了在生成对抗样本过程中使用的损失函数，包括对抗损失、注意力损失以及总体损失，具体如下：

对抗损失（Adversarial Loss）：非目标对抗攻击旨在生成能被目标模型误分类的对抗样本。在基于迁移的黑盒攻击中，需要一个代理模型 $f_{\theta}$ 来监督生成器 $S$ 的训练过程。在每次迭代时，生成器尝试最小化对抗样本对应真实标签 $t$ 的输出概率，因此对抗损失函数定义为 $\mathcal{L}_{adv}=f_{\theta}\left(x^{adv}\right)[t]$ . 通过最小化这个损失函数，促使生成器生成的对抗样本更易被目标模型误分类，从而实现对抗攻击的目的。
注意力损失（Attention Loss）：在提出的 PAW 方法中，使用解码器 $D_{2}$ 生成的近似注意力图来替代从公式计算得到的精确注意力图 $\Omega_{k}^{t}(x)$ ，对对抗扰动进行加权。为了保证近似注意力图能较好地逼近精确注意力图，需要用精确注意力图 $\Omega_{(x)}^{t}$ 来监督生成器的训练过程。因此，注意力损失函数被定义为 $\mathcal{L}_{attn }=\left\| \mathcal{D}_{1}(z)-\Omega_{k}^{t}(x)\right\| _{2}$ ，该损失函数衡量了生成器生成的近似注意力图 $\mathcal{D}_{1}(z)$ 与精确注意力图 $\Omega_{k}^{t}(x)$ 之间的差异，通过最小化这个差异，使生成器生成更准确的近似注意力图，进而提升对抗样本的质量和迁移性。
总体损失（Overall Loss）：将对抗损失和注意力损失结合起来，得到总体损失函数 $\mathcal{L}=\mathcal{L}_{adv}+\lambda \mathcal{L}_{attn }$ ，其中 $\lambda$ 是一个超参数，用于控制注意力损失与对抗损失的相对重要程度。在训练过程中，通过调整 $\lambda$ 的值，可以平衡对抗损失和注意力损失对生成器训练的影响，使得生成器在生成对抗样本时，既能有效地使目标模型误分类（通过对抗损失），又能保证近似注意力图的准确性（通过注意力损失），从而提高对抗样本的性能。在推理阶段，训练好的生成器 $G$ 可以将任何输入图像映射为相应的对抗样本，并用于攻击任何黑盒模型。

实验-Experiments

这部分主要通过一系列实验验证了基于关键区域的特征级攻击（CRFA）方法的有效性，具体内容如下：

实验设置
- 生成器实现：采用包含编码器和两个解码器的残差网络架构。编码器将原始输入图像映射为潜在代码，两个解码器分别用于生成颜色初始对抗扰动图像和灰度近似注意力图，最终结合二者得到最终对抗扰动。
- 数据集：生成器在 ImageNet 验证集上训练，使用 NIPS 2017 对抗竞赛数据集进行测试，以保证与之前工作对比的公平性。
- 目标模型：选择 9 个 CNN 模型、6 个 ViT 模型，还纳入了新的卷积模型和自监督学习训练的 ViT 模型，以及基于多层感知器的 Mixer-B 模型，全面评估方法的性能。
- 基线方法：选取 4 种特征级攻击方法（FDA、NRDM、FIA、NAA）和 2 种常用方法（MIM、DIM）作为基线，用于对比验证 CRFA 的有效性。
- 评估指标：使用愚弄率衡量攻击效果，即被目标模型分类为与原始输入图像不同类别的对抗样本占所有对抗样本的比例。
- 参数设置：对 PAW 中的放缩因子 $\alpha$ 、总体损失中的 $\lambda$ 等参数进行设置，并对基线方法的相关参数也进行设定，确保实验的一致性和可比性。
迁移性比较
- 跨模型迁移性：以 Inc-v3、Inc-v4、IncRes-v2 和 Res-152 为代理模型攻击其他 CNN 目标模型。结果显示，早期的 MIM 在白盒设置下愚弄率高，但在目标模型上攻击效果衰减严重；DIM 通过输入变换提升了性能，但在简单结构代理模型上生成的对抗样本跨模型迁移性仍不佳；FDA 和 NRDM 表现优于 MIM，但未达预期；NAA 和 FIA 有较大改进，但攻击多目标图像时效果不佳。相比之下，CRFA 在所有目标模型上表现优异，愚弄率比 NAA 和 FIA 分别提高 19.9% 和 17.3%，且在更复杂代理模型上生成的对抗样本迁移性更强。
  表1. 展示了各种基于迁移的攻击方法对九个正常训练的 CNN 模型的愚弄率（%）。Inception-V3（Inc-v3）、Inception-V4（Inc-v4）、Inception-Resnet-V2（IncRes-v2）和ResNet-V1-152（Res-152）被选作代理模型。“*”表示白盒攻击。最佳结果以粗体突出显示。
- 跨架构转迁移性：用在 Inc-v3、Inc-v4、IncRes-v2 和 Res-152 上生成的对抗样本攻击 6 种常见 ViT 模型。MIM 对 ViTs 的平均愚弄率低于 30.0%，DIM 表现稍好但仍低于 43.0%，早期特征级攻击如 FDA 在 ViTs 上迁移性差，NAA 在 ViTs 上的最大平均愚弄率仅 48.9%。而 CRFA 在所有 ViT 目标模型上表现最优，最大平均愚弄率超 78.1%，且对抗样本跨架构迁移性与代理模型复杂度正相关。
  表2. 展示了各种基于迁移的攻击方法对六个正常训练的 ViT 模型的愚弄率（%）。Inception-V3（Inc-v3）、Inception-V4（Inc-v4）、Inception-Resnet-V2（IncRes-v2）和ResNet-V1-152（Res-152）被选作代理模型。最佳结果以粗体突出显示。
注意力可视化：通过可视化分析发现，CRFA 能在不显著改变模型注意力的情况下成功攻击图像，有效缓解了特征级攻击中因代理模型和目标模型注意力差异导致的过拟合问题，使生成器更关注代理模型感兴趣的图像区域，提升对抗样本跨模型迁移性。

图5. 模型对原始图像的注意力以及由我们的方法生成的对抗样本的注意力的变化情况。原始图像能够在不显著改变模型注意力的情况下被成功攻击。
不同测试集迁移性：从原始测试集中选取多目标图像构成多目标集，其余构成单目标集，以 Inc-v3 为代理模型攻击 9 个 CNN 目标模型，并与 NAA 对比。结果表明，在单目标集上，两种方法的愚弄率都有所提高，NAA 提升更明显；在多目标集上，两种方法愚弄率均下降，但 NAA 下降显著，CRFA 在多目标集上的平均愚弄率比 NAA 高 23.0%，在原始测试集上高 15.4%，证明 CRFA 在攻击多目标图像时优势明显。
表3. 不同测试集上的迁移性比较。选择 Inception-V3（Inc-v3）作为代理模型，对九个 CNN 目标模型进行攻击。原始测试集根据图像中目标对象的数量分为两部分。第一部分的图像仅包含一个目标对象，而另一部分的图像包含多个目标对象。最佳结果以粗体突出显示。
攻击先进模型：对两种新卷积模型、四种自监督学习的 ViT 模型和一种多层感知器模型进行攻击实验。结果显示，早期特征级攻击方法如 FDA 平均愚弄率约 25%，FIA 和 NAA 虽有改进但仍低于 50%，CRFA 在所有选定目标模型上表现更优，对 RepLKNet-B 的愚弄率比 FIA 和 NAA 提高超 25%，表明该方法对先进模型同样有效。

图4. 针对两种新型卷积模型、四种通过自监督学习训练的视觉Transformer（ViT）模型以及一种多层感知器模型的愚弄率（%）。Inception-V3（Inc-v3）和 Inception-Resnet-V2（IncRes-v2）被选为代理模型。
视觉质量评估：使用 PSNR、SSIM 和 RMSE 指标评估对抗样本视觉质量。在相同 $\ell_{\infty}$ 范数约束下，CRFA 生成的对抗样本在 PSNR 和 SSIM 性能相当的情况下，RMSE 更小，视觉质量更优。
表4. 特征级方法生成的对抗样本视觉质量评估。选用峰值信噪比（PSNR）、结构相似性指数（SSIM）和均方根误差（RMSE）作为评估指标。
消融研究
- PAW 的影响：去除 PAW 后，对抗样本在CNN目标模型上的愚弄率从92.2%降至87.9%，在多数ViT目标模型上愚弄率也下降，表明PAW能有效提升跨模型迁移性，并有助于平衡RVR，减轻对抗样本在ViTs上的过拟合。
- RVR 的影响：去除 RVR 后，对抗样本在所有选定目标模型上的愚弄率均下降，在 ViTs 上下降更明显，表明 RVR 通过添加 ViTs 先验知识，显著提升了跨架构迁移性，同时也能缓解对抗样本在 CNNs 上的过拟合，提升跨模型迁移性。
  表5. 所提出方法的消融研究。选择Inception-V3（Inc-V3）作为代理模型来生成对抗样本。目标模型包括DenseNet-121（Dense-121）、ResNet-152（Res-152）、Inception-ResNet-V2（IncRes-V2）、LeViT-256（LEVIT-256）、DeiT-B（DEIT-B）和CaiT-S-24（CAIT-S-24）。最佳结果以粗体突出显示。
参数影响：研究 PAW 中 $\alpha$ 和总体损失中 $\lambda$ 对愚弄率的影响。发现 $\alpha$ 在1-2.5之间时，对抗样本愚弄率大致相同， $\alpha$ 为 3 时愚弄率下降，因此将 $\alpha$ 设为 2； $\lambda$ 过小时，生成器过度关注基本对抗损失，导致近似注意力图保真度差，对抗样本迁移性不佳； $\lambda$ 过大时，会使对抗样本在代理模型注意力上过拟合，同样降低迁移性，所以选择 $\lambda = 5$ 平衡对抗损失和注意力损失。

图6. 注意力权重 $α$ 对愚弄率的影响。我们比较了使用代理模型 Inception-v3 在不同参数设置下对抗样本的愚弄率。注意力权重 $α$ 在 1 到 3.5 之间变化。左侧展示了攻击三个卷积神经网络（CNN）目标模型（Dense-121、Res-152和Inception-ResNet-v2）以及三个视觉Transformer（ViT）目标模型（LeViT-256、DeiT-B和CaiT-S-24）的愚弄率。右侧分别展示了攻击所有九个选定的 CNN 目标模型、所有六个 ViT 目标模型以及总共十五个目标模型的平均愚弄率。

图7. 对抗损失 $L_{adv}$ 与注意力损失 $L_{attn}$ 的比率对愚弄率的影响。选取 Inception-v3 作为代理模型。该比率在 1 到 7 之间变化。左侧展示了攻击三个卷积神经网络（CNN）目标模型（DenseNet-121、ResNet-152 和 Inception-ResNet-v2）以及三个视觉 Transformer（ViT）目标模型（LeViT-256、DeiT-B和CaiT-S-24）的愚弄率。右侧分别展示了攻击所有九个选定的 CNN 目标模型、所有六个 ViT 目标模型以及总共十五个目标模型的平均愚弄率。

讨论-Discussion

这部分内容主要围绕研究过程中发现的问题展开讨论，并针对这些问题提出潜在的解决思路，具体内容如下：

多目标图像模型注意力差异及潜在防御机制：研究揭示了不同模型在处理包含多个目标类对象的图像时，注意力存在显著差异。这种差异使得以往的特征级攻击方法性能欠佳，因为改变模型注意力的方式可能导致对抗样本陷入局部最优。基于此发现，文章提出了一种潜在的对抗防御机制。该机制通过引入额外网络或进行模型微调，使模型注意力在目标对象间尽可能均匀地分散。这样做的好处是，既可以维持模型训练后的分类性能，又能防止对抗样本使模型注意力偏离目标对象，进而降低模型对攻击的敏感性，提高防御能力。
RVR 方法的局限性与改进方向：文中提出的 RVR 方法虽然能有效增强对抗样本对 ViTs 的迁移性，但存在一定的局限性。RVR 在选择对 ViTs 输出有重要影响的 patch 时，没有对这些 patch 进行区分。这意味着所有被选中的 patch 在指导生成对抗样本时被同等对待，忽略了不同 patch 可能具有不同重要性的情况。为了进一步提升对抗样本的迁移性，文章指出需要设计一种更复杂、更精细的检索算法。这种算法能够为不同的 patch 分配不同的权重，使生成器可以更好地学习 ViTs 的先验知识，从而在生成对抗样本时更有针对性地对关键区域进行扰动，达到增强迁移性的目的。

结论-Conclusion

这部分内容总结了本文提出的方法、实验验证结果以及研究意义，具体如下：

提出的方法：提出了扰动注意力感知加权（PAW）和区域 ViT 关键检索（RVR）两种方法。PAW 通过使用近似注意力图对对抗扰动进行加权，有效缓解了以往特征级攻击在代理模型上的过拟合问题。它让生成器在不显著改变模型注意力的情况下，更聚焦于图像的关键区域，进而显著提升了对抗样本在卷积神经网络（CNNs）上的迁移性。RVR 则是通过向解码器添加视觉Transformer（ViTs）的先验知识，具体是搜索对 ViTs 输出有重要影响的关键 patch，并将其作为加权项与对抗扰动相乘，使得对抗样本能够更好地适应 ViTs，提升了在 ViTs 上的迁移性。
实验验证结果：经过大量实验验证，基于 PAW 和 RVR 构建的关键区域导向的特征级攻击（CRFA）方法，在性能上优于现有的最先进的特征级攻击方法。在针对 CNNs 的攻击实验中，CRFA 生成的对抗样本愚弄率相比现有方法提高了19.9%；在针对 ViTs 的攻击实验中，愚弄率提高了25.0%。这充分证明了 CRFA 方法在提升对抗样本迁移性方面的有效性和优越性。
研究意义：本文的研究成果对于理解和应对深度神经网络的对抗攻击具有重要意义。PAW 和 RVR 为提升对抗样本在不同类型模型（CNNs 和 ViTs）上的迁移性提供了有效的解决方案，有助于深入研究神经网络的脆弱性和安全性，也为后续相关研究和应用奠定了基础。