TIFS2024 | CRFA | 基于关键区域特征攻击提升对抗样本迁移性

Improving Transferability of Adversarial Samples via Critical Region-Oriented Feature-Level Attack

  • 摘要-Abstract
  • 引言-Introduction
  • 相关工作-Related Work
  • 提出的方法-Proposed Method
    • 问题分析-Problem Analysis
    • 扰动注意力感知加权-Perturbation Attention-Aware Weighting
    • 区域 ViT 关键检索-Region ViT-Critical Retrieval
    • 损失函数-Loss Functions
  • 实验-Experiments
  • 讨论-Discussion
  • 结论-Conclusion


在这里插入图片描述


论文链接

本文 “Improving Transferability of Adversarial Samples via Critical Region-Oriented Feature-Level Attack” 提出基于关键区域的特征级攻击(CRFA)方法提升对抗样本迁移性,包括扰动注意力感知加权(PAW)和区域 ViT 关键检索(RVR)。PAW 通过生成近似注意力图加权对抗扰动,减少对模型注意力的改变,提升跨模型迁移性,尤其是在攻击多目标图像时效果显著;RVR 搜索对 ViT 输出有重要影响的关键 patch,引入 ViT 先验知识,提高对抗样本在 ViT 上的跨架构迁移性。实验表明,CRFA 生成的对抗样本在 CNN 和 ViT 模型上,相比现有特征级攻击方法,愚弄率分别提高了 19.9% 和 25.0% ,视觉质量更优,验证了该方法的有效性。


摘要-Abstract

Deep neural networks (DNNs) have received a lot of attention because of their impressive progress in computer vision. However, it has been recently shown that DNNs are vulnerable to being spoofed by carefully crafted adversarial samples. These samples are generated by specific attack algorithms that can obfuscate the target model without being detected by humans. Recently, feature-level attacks have been the focus of research due to their high transferability. Existing state-of-the-art feature-level attacks all improve the transferability by greedily changing the attention of the model. However, for images that contain multiple target class objects, the attention of different models may differ significantly. Thus greedily changing attention may cause the adversarial samples corresponding to these images to fall into the local optimum of the surrogate model. Furthermore, due to the great structural differences between vision transformers (ViTs) and convolutional neural networks (CNNs), adversarial samples generated on CNNs with feature-level attacks are more difficult to successfully attack ViTs. To overcome these drawbacks, we perform the Critical Region-oriented Feature-level Attack (CRFA) in this paper. Specifically, we first propose the Perturbation Attention-aware Weighting (PAW), which destroys critical regions of the image by performing feature-level attention weighting on the adversarial perturbations without changing the model attention as much as possible. Then we propose the Region ViT-critical Retrieval (RVR), which enables the generator to accommodate the transferability of adversarial samples on ViTs by adding extra prior knowledge of ViTs to the decoder. Extensive experiments demonstrate significant performance improvements achieved by our approach, i.e., improving the fooling rate by 19.9% against CNNs and 25.0% against ViTs as compared to state-of-the-art feature-level attack method.

深度神经网络(DNNs)因其在计算机视觉领域取得的显著进展而备受关注。然而,最近研究表明,DNNs容易受到精心制作的对抗样本的欺骗。这些样本由特定的攻击算法生成,能够迷惑目标模型且不易被人类察觉。近年来,特征级攻击因其较高的迁移性成为研究热点。现有的前沿特征级攻击方法均通过贪婪地改变模型的注意力来提高迁移性。然而,对于包含多个目标类对象的图像,不同模型的注意力可能存在显著差异。因此,贪婪地改变注意力可能会导致对应这些图像的对抗样本陷入代理模型的局部最优解。此外,由于视觉 Transformer(ViTs)和卷积神经网络(CNNs)在结构上存在巨大差异,通过特征级攻击在 CNNs 上生成的对抗样本更难成功攻击 ViTs。为克服这些缺点,本文提出了基于关键区域的特征级攻击(CRFA)。具体而言,我们首先提出了扰动注意力感知加权(PAW)方法,该方法通过对对抗扰动进行特征级注意力加权来破坏图像的关键区域,同时尽可能不改变模型的注意力。然后,我们提出了区域 ViT 关键检索(RVR)方法,通过向解码器添加 ViTs 的额外先验知识,使生成器能够适应对抗样本在 ViTs 上的迁移性。大量实验表明,我们的方法在性能上有显著提升,与最先进的特征级攻击方法相比,对 CNNs 的愚弄率提高了19.9%,对 ViTs 的愚弄率提高了25.0%.


引言-Introduction

这部分内容主要介绍了研究背景和动机,具体如下:

  1. DNNs的广泛应用与安全问题:近年来,DNNs 在图像分类、分割、检索等众多视觉任务中得到广泛应用且表现出色。随着物联网、软件开发等领域对安全问题的深入探索,DNNs 的鲁棒性备受关注。研究发现,DNNs 易受对抗样本欺骗,这些样本由恶意添加的精心设计的扰动产生,难以被察觉却能使模型输出错误结果。因此,对抗攻击在人脸识别、工业系统、自动驾驶等领域受到高度关注,同时也为神经网络的可解释性和鲁棒性研究提供了思路。
  2. 对抗攻击的分类:根据攻击者对模型信息的获取程度,对抗攻击可分为白盒攻击和黑盒攻击。白盒攻击中攻击者能获取目标模型的结构和参数;而在现实应用中,DNNs 多部署在黑盒环境下,目标模型未知,所以黑盒攻击更具实际意义。黑盒攻击又可大致分为基于查询的攻击和基于迁移的攻击。基于查询的攻击通过向目标模型发送查询获取概率向量或硬标签来生成对抗样本,但在现实中大量查询往往受限。基于迁移的攻击则利用对抗样本的跨模型迁移性,在代理模型上生成对抗样本并直接攻击目标模型,受到越来越多的关注 。
  3. 现有攻击方法的局限性与特征级攻击的发展:传统攻击方法(如 FGSM、PGD、BIM 等)生成的对抗样本在代理模型上常出现过拟合问题,导致跨模型迁移性受限。以往方法通过在对抗样本优化过程中添加额外操作来缓解过拟合,也有一些方法在特征空间设计对抗扰动,即特征级攻击。特征级攻击利用模型内部特征信息,由于影响图像类别的关键特征在不同模型间有较高重叠,该方法在提高对抗样本跨模型迁移性方面展现出潜力。早期特征级攻击(如 NRDM、TAP)不加区分地扭曲目标模型内部特征,过度强调非关键特征,使生成的对抗样本易陷入代理模型的局部最优,阻碍了迁移性。近期的一些方法(如 FIA、NAA)虽提出了衡量特征重要性的方法,但对于包含多个目标对象的图像,不同模型的注意力差异较大,修改后的注意力区域可能与目标模型不匹配,导致对抗样本攻击失败。
  4. 本文的研究内容与贡献:为缓解当前特征级攻击的不足,本文提出了 PAW 方法,通过用生成的近似注意力图对对抗扰动进行加权,显著提高对抗样本的跨模型迁移性,尤其是在攻击多目标图像时效果明显。同时,提出 RVR 方法,通过搜索对 ViTs 输出有重要影响的图像关键 patch 并将其作为加权项,提高对抗样本在 ViTs 上的跨架构迁移性。综合实验证实,本文提出的 CRFA 方法能兼顾对抗样本在 CNNs 和 ViTs 上的迁移性,与现有最先进的特征级攻击方法相比,对 CNNs 和 ViTs 的愚弄率分别提高了19.9%和25.0%.

在这里插入图片描述
图1. 两种不同类型图像上模型注意力的可视化。前两张图像仅包含一个目标类别的对象,不同模型确实聚焦于相似区域。然而,对于最后两张同时包含多个目标类别的图像,不同模型的注意力可能存在显著差异。
在这里插入图片描述
图2. 原图像以及由神经元归因攻击(NAA)方法生成的对抗样本上的模型注意力可视化。目标模型对对抗样本和原图像的注意力存在很大重叠。


相关工作-Related Work

该部分主要回顾了与深度神经网络对抗攻击相关的研究工作,包括白盒攻击、黑盒攻击和特征级攻击,具体内容如下:

  1. 对抗攻击场景分类:根据攻击者获取目标模型信息的程度,攻击场景分为白盒攻击和黑盒攻击。白盒攻击中攻击者可获取模型结构、训练参数和防御方法等所有信息;黑盒攻击则需要攻击者通过间接方式实施攻击。
  2. 白盒攻击:在白盒攻击设置下,基于梯度的攻击是最常见的方法。例如,快速梯度符号法(FGSM)通过用损失函数的梯度符号正向更新良性图像,并使用步长控制扰动的 L ∞ L_{\infty} L 范数来生成对抗样本;迭代快速梯度符号法(I - FGSM)是 FGSM 的迭代版本;投影梯度下降法(PGD)通过固定次数的 FGSM 迭代或直到出现误分类来生成对抗样本;Carlini 和 Wagner 攻击(C&W)通过优化降低损失函数并引入超参数 κ κ κ 控制攻击强度来生成对抗样本。
  3. 黑盒攻击:在实际任务中,目标模型通常是未知的,白盒攻击因高度依赖梯度信息难以在现实中部署,因此黑盒攻击近年来受到越来越多的关注。黑盒攻击大致可分为基于查询的攻击和基于迁移的攻击。基于查询的攻击通过不断向目标模型发出查询以获取硬标签或输出概率向量来生成对抗样本,但在现实中大量查询不被允许,查询成本与对抗样本数量大致呈线性关系,存在实际限制。基于迁移的攻击利用对抗样本的跨模型迁移性,使用在已知的代理模型上精心制作的对抗样本来攻击未知结构和参数的目标模型。许多工作通过设计梯度更新方法(如动量迭代法(MIM)、Nesterov迭代法(NIM))避免对抗样本因贪婪迭代陷入局部最优,还有一些工作通过变换输入图像(如多样输入法(DIM)、平移不变法(TIM))来减轻过拟合程度,基于对象的多样输入(ODI)通过将输入图像投影到 3D 表面进行攻击,Zhang 等人利用额外的增强路径来扩展输入图像的多样性,这些基于变换的攻击可以灵活地与其他攻击方法结合。
  4. 特征级攻击:考虑到白盒攻击在现实中的不适用性,本文旨在增强黑盒设置下对抗样本的迁移性。特征级攻击通过关注模型的内部特征层来进一步提高对抗样本的迁移性。例如,TAP 通过最大化对抗样本与原始图像在代理模型特定特征层上的距离来生成对抗样本;NRDM 借鉴此思想生成在不同视觉任务中具有高迁移性的对抗样本。然而,这些早期特征级攻击方法简单地贪婪破坏代理模型的内部特征,容易使对抗样本陷入局部最优。后续的 FDA 使用通道的平均激活值来衡量不同特征的重要性,但仅根据是否大于平均激活值将特征分为正负两类;FIA 通过计算反向传播梯度和激活值的乘积获得特征重要性图,通过破坏在模型决策中起关键作用的特征来生成对抗样本;NAA 使用集成梯度来进一步提高对抗样本的迁移性,以应对 FIA 可能出现的梯度饱和问题。特征级攻击生成的对抗样本的高迁移性是基于不同模型之间关键特征的共享,但对于包含多个目标类对象的图像,不同模型的关注区域往往不同,改变后的关注区域可能与目标模型重叠,从而降低对抗样本的跨模型迁移性。此外,视觉 Transformer(ViTs)在视觉任务中表现出色且比传统 CNNs 更具鲁棒性,由于 CNNs 和 ViTs 之间的结构差异,在 CNNs 上生成的对抗样本往往难以迁移到 ViTs 上。现有基于迁移的黑盒对抗攻击分别考虑 CNNs 和 ViTs,没有致力于减少两种不同架构之间攻击有效性的差异。本文提出的 RVR 方法通过让生成器更关注对 ViTs 输出类别有显著影响的 patch,在不影响对 CNNs 攻击成功率的情况下,尽可能提高对抗样本在 ViTs 上的迁移性。

提出的方法-Proposed Method

问题分析-Problem Analysis

这部分主要分析了基于迁移的黑盒对抗攻击中存在的问题,并提出了本文的解决思路,具体内容如下:

  1. 对抗样本的定义与条件:将用于图像分类任务的深度神经网络表示为函数 f θ ( x ) f_{\theta}(x) fθ(x),其中 θ \theta θ 代表模型参数, x x x 是原始输入图像,其真实标签为 t t t,函数输出是对应输入图像 x x x 的概率向量, f θ ( x ) [ c ] f_{\theta}(x)[c] fθ(x)[c] 表示 x x x 属于类别 c c c 的输出 logit 值 。对抗样本 x a d v = x + δ x^{adv}=x+\delta xadv=x+δ 通过在输入图像 x x x 上叠加精心设计的对抗扰动 δ \delta δ 得到,需满足两个条件:一是 a r g m a x c f θ ( x a d v ) [ c ] ≠ t \underset{c}{arg max } f_{\theta}\left(x^{adv}\right)[c] \neq t cargmaxfθ(xadv)[c]=t,即让分类器输出错误标签;二是 ∥ δ ∥ p ≤ ϵ \| \delta\| _{p} \leq \epsilon δpϵ,使用 ℓ ∞ \ell_{\infty} 范数约束扰动,使对抗样本具有实际意义。
  2. 以往特征级攻击的问题:基于迁移的黑盒对抗攻击的核心是在代理模型上生成具有高迁移性的对抗样本。然而,以往大多数特征级攻击严重依赖代理模型对单个输入图像的梯度信息,这使得生成的对抗样本容易过度拟合代理模型,在不同模型间的迁移性受限。
  3. 本文的解决思路:本文采用基于生成器的方法,学习从输入图像到对抗样本的直接映射。这种映射是基于训练数据分布进行学习的,而非针对单个图像,从而有效缓解了过拟合问题。此外,在生成器的优化过程中,添加特定的先验知识,帮助生成器更加关注对 CNNs 和 ViTs 输出类别影响较大的敏感区域,进而提升对抗样本的跨模型迁移性。

扰动注意力感知加权-Perturbation Attention-Aware Weighting

这部分主要介绍了扰动注意力感知加权(PAW)方法,旨在提升多目标图像对抗样本的跨模型迁移性,具体内容如下:

  1. 方法提出的背景:对于包含多个目标类对象的图像,不同模型的注意力区域差异显著。以往特征级攻击通过贪婪地改变代理模型的注意力区域来生成对抗样本,这会使对应这些图像的对抗样本陷入局部最优,影响其迁移性。因此,PAW 方法摒弃直接破坏代理模型内部特征的方式,采用基于近似注意力图对扰动进行加权的策略,让生成器聚焦关键区域的同时尽量不改变模型注意力。
  2. 计算特征重要性图和注意力图
    • 用空间池化梯度计算特征图 A k c ( x ) A_{k}^{c}(x) Akc(x) 的重要性图 α k c ( x ) [ t ] \alpha_{k}^{c}(x)[t] αkc(x)[t],公式为 α k c ( x ) [ t ] = 1 M ∑ i ∑ j ∂ f θ ( x ) [ t ] ∂ A k c ( x ) [ i , j ] \alpha_{k}^{c}(x)[t]=\frac{1}{M} \sum_{i} \sum_{j} \frac{\partial f_{\theta}(x)[t]}{\partial A_{k}^{c}(x)[i, j]} αkc(x)[t]=M1ijAkc(x)[i,j]fθ(x)[t],其中 M M M 是限制重要性图值范围的放缩因子, α k c ( x ) [ t ] \alpha_{k}^{c}(x)[t] αkc(x)[t] 表示第 k k k 层第 c c c 个特征图对于真实标签 t t t 的重要性图。
    • 为了对与原始输入图像大小相同的对抗扰动进行元素级加权,通过 Ω k t ( x ) = U p s a m p l e ( ∑ c ( A k c ( x ) ⋅ α k c ( x ) [ t ] ) ) \Omega_{k}^{t}(x)=Upsample\left(\sum_{c}\left(A_{k}^{c}(x) \cdot \alpha_{k}^{c}(x)[t]\right)\right) Ωkt(x)=Upsample(c(Akc(x)αkc(x)[t])) 计算注意力图。具体操作是先将神经元激活值 A k c ( x ) A_{k}^{c}(x) Akc(x) 与注意力权重 α k c ( x ) [ t ] \alpha_{k}^{c}(x)[t] αkc(x)[t] 相乘,再对同一层的所有特征图进行通道维度的求和,最后通过上采样操作得到注意力图。与传统方法不同,这里去除了 ReLU 函数操作,保留负注意力权重,使生成器能更好地区分图像中的非关键区域,生成更精细的对抗扰动。
  3. 生成近似注意力图和加权对抗扰动:使用包含编码器和两个解码器的生成器 G G G。编码器 ϵ \epsilon ϵ 将输入图像 x x x 映射为潜在代码 z = E ( x ) z = E(x) z=E(x) z z z 分别输入到解码器 D 1 D_{1} D1 D 2 D_{2} D2 D 1 D_{1} D1 在注意力图 Ω k t ( x ) \Omega_{k}^{t}(x) Ωkt(x) 的监督下生成近似注意力图 Ω ~ k t ( x ) = D 1 ( z ) \tilde{\Omega}_{k}^{t}(x)=D_{1}(z) Ω~kt(x)=D1(z) D 2 D_{2} D2 负责生成原始对抗扰动 δ = D 2 ( z ) \delta = D_{2}(z) δ=D2(z)。通过公式 δ ′ = δ ⋅ Ω ~ k t ( x ) ∗ α + δ = δ ( 1 + Ω ~ k t ( x ) ∗ α ) \delta'=\delta \cdot \tilde{\Omega}_{k}^{t}(x) * \alpha+\delta=\delta\left(1+\tilde{\Omega}_{k}^{t}(x) * \alpha\right) δ=δΩ~kt(x)α+δ=δ(1+Ω~kt(x)α) 计算注意力加权后的对抗扰动 δ ′ \delta' δ,其中 α \alpha α 是预定义的超参数,用于控制加权强度。这样在反向传播时,关键区域中被扰动像素的梯度会乘以较大权重,非关键区域的梯度乘以较小权重,使生成器在优化过程中更关注不同模型间共享的关键区域,有效破坏图像中高注意力区域,显著提升多目标图像对抗样本的跨模型迁移性。

区域 ViT 关键检索-Region ViT-Critical Retrieval

这部分主要介绍了区域 ViT 关键检索(RVR)方法,目的是提升对抗样本在视觉 Transformer(ViTs)上的跨架构迁移性,具体内容如下:

  1. 方法提出的背景:ViTs 在图像识别任务中表现出色,但相比传统卷积神经网络(CNNs)具有更强的鲁棒性。由于两者结构差异显著,基于 CNNs 生成的对抗样本难以成功攻击 ViTs。对于特征级攻击而言,贪婪地改变 CNNs 代理模型的注意力会导致对抗样本在 ViTs 上的跨架构迁移性较差,因为 ViTs 和 CNNs 的关键区域并不共享。所以,需要在生成器优化过程中引入 ViTs 的先验知识来解决这一问题。
  2. 搜索ViT关键区域:定义在 Imagenet1k 上预训练的 ViT 分类器为函数 F ( x ) F(x) F(x),以 ViT-B/16 为例,它将图像分割成 196 个 patch 作为输入,这些 patch 包含图像的所有信息,但不同 patch 对识别任务的贡献不同。通过计算 patch 对真实标签概率的边际贡献来衡量其重要性,定义二元掩码 M M M 并初始化为全1,某 patch 集合 s s s 的边际贡献公式为 φ s = F ( x ) [ t ] − F ( x ⊙ M s ) [ t ] \varphi_{s}=F(x)[t]-F\left(x \odot M_{s}\right)[t] φs=F(x)[t]F(xMs)[t],其中 M s M_{s} Ms 是将集合 s s s 中的 patch 全部设为 0 后的二元掩码。
  3. 具体检索过程:从原始输入图像 x i n i t x_{init} xinit 开始,遍历图像中的196个 patch,分别计算每个 patch 的边际贡献。选择边际贡献最大的 patch,更新掩码 M M M(将该 patch 所在区域设为0),并用更新后的掩码与当前图像 x x x 相乘来更新图像。若当前图像 x x x 仍能使 F ( x ) F(x) F(x) 正确分类,则继续遍历未被选择的 patch,重新计算边际贡献并更新图像,直到模型误分类或所有 patch 都被视为关键区域,最终得到二元掩码 M M M,其中元素值为 0 的区域就是对 ViTs 输出有显著影响的关键区域。
  4. 计算最终对抗扰动和样本:得到关键区域后,对对抗扰动进行加权计算。在 PAW 得到的对抗扰动 δ ′ \delta' δ 基础上,通过 δ ′ ′ = δ ′ ⊙ ( 1 − M ) ⋅ β + δ ′ \delta''=\delta' \odot(1 - M) \cdot \beta+\delta' δ′′=δ(1M)β+δ 计算最终的对抗扰动 δ ′ ′ \delta'' δ′′ ,其中 β \beta β 是控制加权强度的放缩因子,可随生成器训练过程不断优化。最后,通过 x a d v = x + ϵ ⋅ t a n h ( δ ′ ′ ) x^{adv}=x+\epsilon \cdot tanh (\delta^{\prime \prime}) xadv=x+ϵtanh(δ′′) 得到最终的对抗样本,其中 ϵ \epsilon ϵ 是超参数,与 t a n h ( ⋅ ) tanh (\cdot) tanh() 函数一起将对抗扰动限制在 ℓ ∞ \ell_{\infty} 范数约束内。

在这里插入图片描述
在这里插入图片描述
图3. 我们用于生成对抗样本的框架由三个部分组成:生成器、扰动注意力感知加权(PAW)模块和区域 ViT 关键检索(RVR)模块。生成器包含一个编码器和两个解码器,分别用于生成近似注意力图和对抗扰动。近似注意力图由 PAW 生成的精确注意力图进行监督,并使用缩放因子对扰动进行加权。RVR 用于将 ViT 的先验知识引入对抗扰动中,以便生成器考虑图像中对 ViT 模型输出类别敏感的区域。最终的对抗样本是通过将对抗扰动与原始输入图像叠加得到的。

损失函数-Loss Functions

这部分内容介绍了在生成对抗样本过程中使用的损失函数,包括对抗损失、注意力损失以及总体损失,具体如下:

  1. 对抗损失(Adversarial Loss):非目标对抗攻击旨在生成能被目标模型误分类的对抗样本。在基于迁移的黑盒攻击中,需要一个代理模型 f θ f_{\theta} fθ 来监督生成器 S S S 的训练过程。在每次迭代时,生成器尝试最小化对抗样本对应真实标签 t t t 的输出概率,因此对抗损失函数定义为 L a d v = f θ ( x a d v ) [ t ] \mathcal{L}_{adv}=f_{\theta}\left(x^{adv}\right)[t] Ladv=fθ(xadv)[t]. 通过最小化这个损失函数,促使生成器生成的对抗样本更易被目标模型误分类,从而实现对抗攻击的目的。
  2. 注意力损失(Attention Loss):在提出的 PAW 方法中,使用解码器 D 2 D_{2} D2 生成的近似注意力图来替代从公式计算得到的精确注意力图 Ω k t ( x ) \Omega_{k}^{t}(x) Ωkt(x),对对抗扰动进行加权。为了保证近似注意力图能较好地逼近精确注意力图,需要用精确注意力图 Ω ( x ) t \Omega_{(x)}^{t} Ω(x)t 来监督生成器的训练过程。因此,注意力损失函数被定义为 L a t t n = ∥ D 1 ( z ) − Ω k t ( x ) ∥ 2 \mathcal{L}_{attn }=\left\| \mathcal{D}_{1}(z)-\Omega_{k}^{t}(x)\right\| _{2} Lattn=D1(z)Ωkt(x)2,该损失函数衡量了生成器生成的近似注意力图 D 1 ( z ) \mathcal{D}_{1}(z) D1(z) 与精确注意力图 Ω k t ( x ) \Omega_{k}^{t}(x) Ωkt(x) 之间的差异,通过最小化这个差异,使生成器生成更准确的近似注意力图,进而提升对抗样本的质量和迁移性。
  3. 总体损失(Overall Loss):将对抗损失和注意力损失结合起来,得到总体损失函数 L = L a d v + λ L a t t n \mathcal{L}=\mathcal{L}_{adv}+\lambda \mathcal{L}_{attn } L=Ladv+λLattn,其中 λ \lambda λ 是一个超参数,用于控制注意力损失与对抗损失的相对重要程度。在训练过程中,通过调整 λ \lambda λ 的值,可以平衡对抗损失和注意力损失对生成器训练的影响,使得生成器在生成对抗样本时,既能有效地使目标模型误分类(通过对抗损失),又能保证近似注意力图的准确性(通过注意力损失),从而提高对抗样本的性能。在推理阶段,训练好的生成器 G G G 可以将任何输入图像映射为相应的对抗样本,并用于攻击任何黑盒模型。

实验-Experiments

这部分主要通过一系列实验验证了基于关键区域的特征级攻击(CRFA)方法的有效性,具体内容如下:

  1. 实验设置

    • 生成器实现:采用包含编码器和两个解码器的残差网络架构。编码器将原始输入图像映射为潜在代码,两个解码器分别用于生成颜色初始对抗扰动图像和灰度近似注意力图,最终结合二者得到最终对抗扰动。
    • 数据集:生成器在 ImageNet 验证集上训练,使用 NIPS 2017 对抗竞赛数据集进行测试,以保证与之前工作对比的公平性。
    • 目标模型:选择 9 个 CNN 模型、6 个 ViT 模型,还纳入了新的卷积模型和自监督学习训练的 ViT 模型,以及基于多层感知器的 Mixer-B 模型,全面评估方法的性能。
    • 基线方法:选取 4 种特征级攻击方法(FDA、NRDM、FIA、NAA)和 2 种常用方法(MIM、DIM)作为基线,用于对比验证 CRFA 的有效性。
    • 评估指标:使用愚弄率衡量攻击效果,即被目标模型分类为与原始输入图像不同类别的对抗样本占所有对抗样本的比例。
    • 参数设置:对 PAW 中的放缩因子 α \alpha α、总体损失中的 λ \lambda λ 等参数进行设置,并对基线方法的相关参数也进行设定,确保实验的一致性和可比性。
  2. 迁移性比较

    • 跨模型迁移性:以 Inc-v3、Inc-v4、IncRes-v2 和 Res-152 为代理模型攻击其他 CNN 目标模型。结果显示,早期的 MIM 在白盒设置下愚弄率高,但在目标模型上攻击效果衰减严重;DIM 通过输入变换提升了性能,但在简单结构代理模型上生成的对抗样本跨模型迁移性仍不佳;FDA 和 NRDM 表现优于 MIM,但未达预期;NAA 和 FIA 有较大改进,但攻击多目标图像时效果不佳。相比之下,CRFA 在所有目标模型上表现优异,愚弄率比 NAA 和 FIA 分别提高 19.9% 和 17.3%,且在更复杂代理模型上生成的对抗样本迁移性更强。
      表1. 展示了各种基于迁移的攻击方法对九个正常训练的 CNN 模型的愚弄率(%)。Inception-V3(Inc-v3)、Inception-V4(Inc-v4)、Inception-Resnet-V2(IncRes-v2)和ResNet-V1-152(Res-152)被选作代理模型。“*”表示白盒攻击。最佳结果以粗体突出显示。
      在这里插入图片描述
    • 跨架构转迁移性:用在 Inc-v3、Inc-v4、IncRes-v2 和 Res-152 上生成的对抗样本攻击 6 种常见 ViT 模型。MIM 对 ViTs 的平均愚弄率低于 30.0%,DIM 表现稍好但仍低于 43.0%,早期特征级攻击如 FDA 在 ViTs 上迁移性差,NAA 在 ViTs 上的最大平均愚弄率仅 48.9%。而 CRFA 在所有 ViT 目标模型上表现最优,最大平均愚弄率超 78.1%,且对抗样本跨架构迁移性与代理模型复杂度正相关。
      表2. 展示了各种基于迁移的攻击方法对六个正常训练的 ViT 模型的愚弄率(%)。Inception-V3(Inc-v3)、Inception-V4(Inc-v4)、Inception-Resnet-V2(IncRes-v2)和ResNet-V1-152(Res-152)被选作代理模型。最佳结果以粗体突出显示。
      在这里插入图片描述
  3. 注意力可视化:通过可视化分析发现,CRFA 能在不显著改变模型注意力的情况下成功攻击图像,有效缓解了特征级攻击中因代理模型和目标模型注意力差异导致的过拟合问题,使生成器更关注代理模型感兴趣的图像区域,提升对抗样本跨模型迁移性。
    在这里插入图片描述
    图5. 模型对原始图像的注意力以及由我们的方法生成的对抗样本的注意力的变化情况。原始图像能够在不显著改变模型注意力的情况下被成功攻击。

  4. 不同测试集迁移性:从原始测试集中选取多目标图像构成多目标集,其余构成单目标集,以 Inc-v3 为代理模型攻击 9 个 CNN 目标模型,并与 NAA 对比。结果表明,在单目标集上,两种方法的愚弄率都有所提高,NAA 提升更明显;在多目标集上,两种方法愚弄率均下降,但 NAA 下降显著,CRFA 在多目标集上的平均愚弄率比 NAA 高 23.0%,在原始测试集上高 15.4%,证明 CRFA 在攻击多目标图像时优势明显。
    表3. 不同测试集上的迁移性比较。选择 Inception-V3(Inc-v3)作为代理模型,对九个 CNN 目标模型进行攻击。原始测试集根据图像中目标对象的数量分为两部分。第一部分的图像仅包含一个目标对象,而另一部分的图像包含多个目标对象。最佳结果以粗体突出显示。
    在这里插入图片描述

  5. 攻击先进模型:对两种新卷积模型、四种自监督学习的 ViT 模型和一种多层感知器模型进行攻击实验。结果显示,早期特征级攻击方法如 FDA 平均愚弄率约 25%,FIA 和 NAA 虽有改进但仍低于 50%,CRFA 在所有选定目标模型上表现更优,对 RepLKNet-B 的愚弄率比 FIA 和 NAA 提高超 25%,表明该方法对先进模型同样有效。
    在这里插入图片描述
    图4. 针对两种新型卷积模型、四种通过自监督学习训练的视觉Transformer(ViT)模型以及一种多层感知器模型的愚弄率(%)。Inception-V3(Inc-v3)和 Inception-Resnet-V2(IncRes-v2)被选为代理模型。

  6. 视觉质量评估:使用 PSNR、SSIM 和 RMSE 指标评估对抗样本视觉质量。在相同 ℓ ∞ \ell_{\infty} 范数约束下,CRFA 生成的对抗样本在 PSNR 和 SSIM 性能相当的情况下,RMSE 更小,视觉质量更优。
    表4. 特征级方法生成的对抗样本视觉质量评估。选用峰值信噪比(PSNR)、结构相似性指数(SSIM)和均方根误差(RMSE)作为评估指标。
    在这里插入图片描述

  7. 消融研究

    • PAW 的影响:去除 PAW 后,对抗样本在CNN目标模型上的愚弄率从92.2%降至87.9%,在多数ViT目标模型上愚弄率也下降,表明PAW能有效提升跨模型迁移性,并有助于平衡RVR,减轻对抗样本在ViTs上的过拟合。
    • RVR 的影响:去除 RVR 后,对抗样本在所有选定目标模型上的愚弄率均下降,在 ViTs 上下降更明显,表明 RVR 通过添加 ViTs 先验知识,显著提升了跨架构迁移性,同时也能缓解对抗样本在 CNNs 上的过拟合,提升跨模型迁移性。
      表5. 所提出方法的消融研究。选择Inception-V3(Inc-V3)作为代理模型来生成对抗样本。目标模型包括DenseNet-121(Dense-121)、ResNet-152(Res-152)、Inception-ResNet-V2(IncRes-V2)、LeViT-256(LEVIT-256)、DeiT-B(DEIT-B)和CaiT-S-24(CAIT-S-24)。最佳结果以粗体突出显示。
      在这里插入图片描述
  8. 参数影响:研究 PAW 中 α \alpha α 和总体损失中 λ \lambda λ 对愚弄率的影响。发现 α \alpha α 在1-2.5之间时,对抗样本愚弄率大致相同, α \alpha α 为 3 时愚弄率下降,因此将 α \alpha α 设为 2; λ \lambda λ 过小时,生成器过度关注基本对抗损失,导致近似注意力图保真度差,对抗样本迁移性不佳; λ \lambda λ 过大时,会使对抗样本在代理模型注意力上过拟合,同样降低迁移性,所以选择 λ = 5 \lambda = 5 λ=5 平衡对抗损失和注意力损失。
    在这里插入图片描述
    图6. 注意力权重 α α α 对愚弄率的影响。我们比较了使用代理模型 Inception-v3 在不同参数设置下对抗样本的愚弄率。注意力权重 α α α 在 1 到 3.5 之间变化。左侧展示了攻击三个卷积神经网络(CNN)目标模型(Dense-121、Res-152和Inception-ResNet-v2)以及三个视觉Transformer(ViT)目标模型(LeViT-256、DeiT-B和CaiT-S-24)的愚弄率。右侧分别展示了攻击所有九个选定的 CNN 目标模型、所有六个 ViT 目标模型以及总共十五个目标模型的平均愚弄率。
    在这里插入图片描述
    图7. 对抗损失 L a d v L_{adv} Ladv 与注意力损失 L a t t n L_{attn} Lattn 的比率对愚弄率的影响。选取 Inception-v3 作为代理模型。该比率在 1 到 7 之间变化。左侧展示了攻击三个卷积神经网络(CNN)目标模型(DenseNet-121、ResNet-152 和 Inception-ResNet-v2)以及三个视觉 Transformer(ViT)目标模型(LeViT-256、DeiT-B和CaiT-S-24)的愚弄率。右侧分别展示了攻击所有九个选定的 CNN 目标模型、所有六个 ViT 目标模型以及总共十五个目标模型的平均愚弄率。


讨论-Discussion

这部分内容主要围绕研究过程中发现的问题展开讨论,并针对这些问题提出潜在的解决思路,具体内容如下:

  1. 多目标图像模型注意力差异及潜在防御机制:研究揭示了不同模型在处理包含多个目标类对象的图像时,注意力存在显著差异。这种差异使得以往的特征级攻击方法性能欠佳,因为改变模型注意力的方式可能导致对抗样本陷入局部最优。基于此发现,文章提出了一种潜在的对抗防御机制。该机制通过引入额外网络或进行模型微调,使模型注意力在目标对象间尽可能均匀地分散。这样做的好处是,既可以维持模型训练后的分类性能,又能防止对抗样本使模型注意力偏离目标对象,进而降低模型对攻击的敏感性,提高防御能力。
  2. RVR 方法的局限性与改进方向:文中提出的 RVR 方法虽然能有效增强对抗样本对 ViTs 的迁移性,但存在一定的局限性。RVR 在选择对 ViTs 输出有重要影响的 patch 时,没有对这些 patch 进行区分。这意味着所有被选中的 patch 在指导生成对抗样本时被同等对待,忽略了不同 patch 可能具有不同重要性的情况。为了进一步提升对抗样本的迁移性,文章指出需要设计一种更复杂、更精细的检索算法。这种算法能够为不同的 patch 分配不同的权重,使生成器可以更好地学习 ViTs 的先验知识,从而在生成对抗样本时更有针对性地对关键区域进行扰动,达到增强迁移性的目的。

结论-Conclusion

这部分内容总结了本文提出的方法、实验验证结果以及研究意义,具体如下:

  1. 提出的方法:提出了扰动注意力感知加权(PAW)和区域 ViT 关键检索(RVR)两种方法。PAW 通过使用近似注意力图对对抗扰动进行加权,有效缓解了以往特征级攻击在代理模型上的过拟合问题。它让生成器在不显著改变模型注意力的情况下,更聚焦于图像的关键区域,进而显著提升了对抗样本在卷积神经网络(CNNs)上的迁移性。RVR 则是通过向解码器添加视觉Transformer(ViTs)的先验知识,具体是搜索对 ViTs 输出有重要影响的关键 patch,并将其作为加权项与对抗扰动相乘,使得对抗样本能够更好地适应 ViTs,提升了在 ViTs 上的迁移性 。
  2. 实验验证结果:经过大量实验验证,基于 PAW 和 RVR 构建的关键区域导向的特征级攻击(CRFA)方法,在性能上优于现有的最先进的特征级攻击方法。在针对 CNNs 的攻击实验中,CRFA 生成的对抗样本愚弄率相比现有方法提高了19.9%;在针对 ViTs 的攻击实验中,愚弄率提高了25.0%。这充分证明了 CRFA 方法在提升对抗样本迁移性方面的有效性和优越性。
  3. 研究意义:本文的研究成果对于理解和应对深度神经网络的对抗攻击具有重要意义。PAW 和 RVR 为提升对抗样本在不同类型模型(CNNs 和 ViTs)上的迁移性提供了有效的解决方案,有助于深入研究神经网络的脆弱性和安全性,也为后续相关研究和应用奠定了基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/905933.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

day 20 奇异值SVD分解

一、什么是奇异值 二、核心思想: 三、奇异值的主要应用 1、降维: 2、数据压缩: 原理:图像可以表示为一个矩阵,矩阵的元素对应图像的像素值。对这个图像矩阵进行 SVD 分解后,小的奇异值对图像的主要结构贡…

符合Python风格的对象(对象表示形式)

对象表示形式 每门面向对象的语言至少都有一种获取对象的字符串表示形式的标准方 式。Python 提供了两种方式。 repr()   以便于开发者理解的方式返回对象的字符串表示形式。str()   以便于用户理解的方式返回对象的字符串表示形式。 正如你所知,我们要实现_…

springboot配置tomcat端口的方法

在Spring Boot中配置Tomcat端口可通过以下方法实现: 配置文件方式 properties格式 在application.properties中添加:server.port8081YAML格式 在application.yml中添加:server:port: 8082多环境配置 创建不同环境的配置文件(如app…

DeepSeek指令微调与强化学习对齐:从SFT到RLHF

后训练微调的重要性 预训练使大模型获得丰富的语言和知识表达能力,但其输出往往与用户意图和安全性需求不完全匹配。业内普遍采用三阶段训练流程:预训练 → 监督微调(SFT)→ 人类偏好对齐(RLHF)。预训练阶段模型在大规模语料上学习语言规律;监督微调利用人工标注的数据…

Maven 插件扩展点与自定义生命周期

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…

ecmascript 第6版特性 ECMA-262 ES6

https://blog.csdn.net/zlpzlpzyd/article/details/146125018 在之前写的文章基础上,ES6在export和import的基础外,还有如下特性 特性说明let/const块级作用域变量声明>箭头函数Promise异步编程

CT重建笔记(五)—2D平行束投影公式

写的又回去了,因为我发现我理解不够透彻,反正想到啥写啥,尽量保证内容质量好简洁易懂 2D平行束投影公式 p ( s , θ ) ∫ ∫ f ( x , y ) δ ( x c o s θ y s i n θ − s ) d x d y p(s,\theta)\int \int f(x,y)\delta(x cos\theta ysi…

记一次缓存填坑省市区级联获取的操作

先说缓存是什么? 缓存主要是解决高并发,大数据场景下,热点数据快速访问。缓存的原则首先保证数据的准确和最终数据一致,其次是距离用户越近越好,同步越及时越好。 再说我们遇到的场景: 接手项目后&#…

无法加载文件 E:\Program Files\nodejs\npm.ps1,因为在此系统上禁止运行脚本

遇到“无法加载文件 E:\Program Files\nodejs\npm.ps1,因为在此系统上禁止运行脚本”这类错误,通常是因为你的 PowerShell 执行策略设置为不允许运行脚本。在 Windows 系统中,默认情况下,出于安全考虑,PowerShell 可能会阻止运行未…

OpenWebUI新突破,MCPO框架解锁MCP工具新玩法

大家好,Open WebUI 迎来重要更新,现已正式支持 MCP 工具服务器,但 MCP 工具服务器需由兼容 OpenAPI 的代理作为前端。mcpo 是一款实用代理,经测试,它能让开发者使用 MCP 服务器命令和标准 OpenAPI 服务器工具&#xff…

松下SMT贴片机选型与高效应用指南

内容概要 在电子制造领域,SMT贴片机作为核心生产设备,其选型与应用直接关系到企业产能与产品质量。本文聚焦松下SMT贴片机系列,通过系统性梳理设备选型逻辑与技术特性,为制造企业提供多维度的决策参考。重点涵盖主流机型性能参数…

计算机网络(1)——概述

1.计算机网络基本概念 1.1 什么是计算机网络 计算机网络的产生背景 在计算机网络出现之前,计算机之间都是相互独立的,每台计算机只能访问自身存储的数据,无法与其他计算机进行数据交换和资源共享。这种独立的计算机系统存在诸多局限性&#…

React学习(二)-变量

也是很无聊,竟然写这玩意,毕竟不是学术研究,普通工作没那么多概念性东西,会用就行╮(╯▽╰)╭ 在React中,变量是用于存储和管理数据的基本单位。根据其用途和生命周期,React中的变量可以分为以下几类&…

完整卸载 Fabric Manager 的方法

目录 ✅ 完整卸载 Fabric Manager 的方法 1️⃣ 停止并禁用服务 2️⃣ 卸载 Fabric Manager 软件包 3️⃣ 自动清理无用依赖(可选) 4️⃣ 检查是否卸载成功 ✅ 补充(仅清除服务,不删包) ✅ 完整卸载 Fabric Mana…

ABP vNext 多租户开发实战指南

🚀 ABP vNext 多租户开发实战指南 🛠️ 环境:.NET 8.0 ABP vNext 8.1.5 (C# 11, EF Core 8) 📚 目录 🚀 ABP vNext 多租户开发实战指南🏠 一、什么是多租户?📦 二、ABP 多租户的核…

【WIN】笔记本电脑忘记密码解决办法/笔记本电脑重装系统笔记/bitlocker忘记密码的解决办法

通过安全模式下的CMD命令找回 具体的步骤就是: 首先通过笔记本的对应的一个进入安全模式的一个方式 进入安全模式之后,一直点着这个诊断,然后高级选项进去就可以看到了。 但是这种方法应该是属于安全漏洞,所以只适合老版本。如果是…

人工智能100问☞第25问:什么是循环神经网络(RNN)?

目录 一、通俗解释 二、专业解析 三、权威参考 循环神经网络(RNN)是一种通过“记忆”序列中历史信息来处理时序数据的神经网络,可捕捉前后数据的关联性,擅长处理语言、语音等序列化任务。 一、通俗解释 想象你在和朋友聊天,每说一句话都会根据之前的对话内容调整语气…

实验八 基于Python的数字图像问题处理

一、实验目的  培养利用图像处理技术解决实际问题的能力。  培养利用图像处理技术综合设计实现的能力。  掌握在Python环境下解决实际问题的能力。  熟练掌握使用cv2库对图像进行处理  熟练掌握使用区域生长法提取图片中感兴趣的区域 二、实验内容 本次实验内容为…

STM32F10xx 参考手册

6. 什么是寄存器 本章参考资料:《STM32F10xx 参考手册》、《STM32F10xx数据手册》、 学习本章时,配合《STM32F10xx 参考手册》“存储器和总线架构”及“通用I/O(GPIO)”章节一起阅读,效果会更佳,特别是涉及到寄存器说明的部分。…

TCVectorDB 向量数据库简介

简介 尽管目前大多数开源向量数据库来自海外,配置简单且性能优异,但由于网络原因,如果向量数据库部署在海外,而产品面向国内市场,网络延迟将是必须考虑的问题。因此,选择国内服务提供商的云向量数据库往往是…