On evaluating adversarial robustness of large vision language models

论文链接：https://arxiv.org/pdf/2305.16934
项目代码：https://github.com/yunqing-me/AttackVLM

On evaluating adversarial robustness of large vision language models

Abstract
1 Introduction
2 Related work
3 Methodology
- 3.1 Preliminary
- 3.2 Transfer-based attacking strategy
- 3.3 Query-based attacking strategy
4 Experiment
- 4.1 Implementation details
- 4.2 Empirical studies
- 4.3 Further analyses
5 Discussion

Abstract

GPT-4 等大型视觉语言模型 (VLM) 在响应生成方面取得了前所未有的性能，尤其是在视觉输入的情况下，与 ChatGPT 等大型语言模型相比，可以实现更具创造性和适应性的交互。尽管如此，多模态生成加剧了安全问题，因为对手可以通过巧妙地操纵最脆弱的模态（例如视觉）来成功地避开整个系统。为此，我们建议在最现实和高风险的环境中评估开源大型VLM的鲁棒性，其中对手只有黑盒系统访问，并试图欺骗模型返回目标响应。特别是，我们首先针对 CLIP 和 BLIP 等预训练模型制作目标的对抗性示例，然后将这些对抗性示例转移到其他 VLM，例如 MiniGPT-4、LLAVA、UniDiffuser、BLIP-2 和 Img2Prompt。此外，我们观察到这些VLM上的黑盒查询可以进一步提高目标规避的有效性，导致生成目标响应的成功率非常高。我们的研究结果提供了对大型VLM对抗脆弱性的定量理解，并呼吁在实践中部署之前更彻底地检查它们的潜在安全漏洞。

1 Introduction

大型视觉语言模型 (VLM) 取得了巨大成功，并在文本到图像生成、基于图像的文本生成（例如图像字幕或视觉问答）和联合生成 [5, 32, 98] 上展现了有前途的能力，鉴于数据量、计算资源和模型参数数量的增加。值得注意的是，在用指令进行微调并与人工反馈对齐后，GPT-4[58]能够与人类用户交谈，特别是能够支持视觉输入。

随着多模态学习的趋势，越来越多的大型 VLM 是公开的，这使得下游应用程序的实现了指数性扩展。然而，这带来了重大的安全挑战。例如，人们普遍认为，文本到图像模型可以用来恶意生成虚假内容[71,76]或编辑图像[73]。不幸中的万幸是对手必须操纵文本输入来实现他们的逃避目标，这需要进行广泛的搜索和工程来确定对抗性提示。此外，文本到图像的模型是公众可访问的，通常包括了一个安全检查器来过滤敏感的概念，以及一个不可见的水印模块来帮助识别虚假内容。

GPT-4 等基于图像的文本生成有更多的与人类用户的交互，可以生成命令来执行代码或控制机器人，而不同于仅返回一个图像的文本到图像生成。因此，潜在的敌手可能能够通过操纵其视觉的输入来逃避一个基于图像的文本生成模型，因为众所周知，视觉模式极容易受到人类难以察觉的对抗性扰动的影响。这引发了更严重的安全问题，因为基于图像的文本生成可以用于相当复杂和安全关键的环境。敌手可能会误导部署为插件的大型VLM，例如，绕过他们的安全/隐私检查器、注入恶意代码、或者在没有授权的情况下访问 API 和操作机器人/设备。

在这项工作中，我们根据实验评估了最先进的大型 VLM 的对抗鲁棒性，特别是针对接受视觉输入（例如，基于图像的文本生成或联合生成）的对抗鲁棒性。为了确保可重复性，我们的评估都是基于开源大型模型。我们研究了最现实和高风险的场景，其中对手只有黑盒系统访问，并试图欺骗模型返回目标响应。具体来说，我们首先使用预训练的 CLIP 和 BLIP 作为代理模型，通过匹配文本嵌入或图像嵌入来制作有针对性的对抗示例，然后将对抗性示例迁移到其他大型VLM，包括 MiniGPT-4[109]、LLAVA[46]、UniDiffuser[5]、BLIP2[42]和Img2Prompt[30]。令人惊讶的是，这些基于迁移的攻击已经可以以很高的成功率诱导有针对性的响应。此外，我们发现使用基于迁移的先验，基于查询的攻击可以进一步提高目标的规避对这些 VLM 的有效性，如图1(BLIP-2)、图2(UniDiffuser)和图3(MiniGPT-4)所示。

我们的研究结果提供了对大型 VLM 的对抗脆弱性的定量理解，并主张在部署之前更全面地检查它们的潜在安全缺陷，如第5节所述。对于更一般的多模态系统，我们的研究结果表明，系统的鲁棒性高度依赖于它们最脆弱的输入模式。

2 Related work

Language models (LMs) and their robustness BERT[21]、GPT-2[64]和T5[66]的开创性工作奠定了大型 LMs 的基础，在此基础上开发了许多其他大型LMs 并展示了各种语言基准的重大进步。最近，ChatGPT [57, 59] 和基于 LLAMA [85] 调整的几个开源模型 [18, 83, 95] 能够与人类用户进行对话交互，并且可以响应多样化和复杂的问题。然而，Alzantot et al. [4] 第一个构建了情感分析和文本蕴涵任务的对抗性示例，而 Jin et al. [36] 报告说 BERT 可以通过自然语言攻击规避。之后，提出了各种灵活的（例如，在单词替换之上的）和语义保留的方法来生成自然语言的对抗性示例 [9, 49, 50 , 52, 53, 70, 78, 102, 104 , 10]，以及基准和数据集，来更彻底地评估 LM 的对抗鲁棒性 [56, 90 –92]。还有一些红队举措，也就是使用人在循环中或自动化的框架来识别有问题的语言模型输出 [27, 63, 96]。

Vision-language models (VLMs) and their robustness 这些强大的 LMs 中包含的知识用于促进视觉语言任务 [26、33、84、93、101]。受视觉任务中观察到的对抗性脆弱性的启发，早期的工作致力于研究针对视觉问答 [6, 11, 37, 38, 43, 77, 89 , 97 , 105 ] 和图像标题 [1, 14, 99] 的对抗性攻击，其中大多数工作都集中在传统的基于 CNN-RNN 的模型上，假设白盒访问或非目标的对抗目标，并且需要人机交互。而另一方面，我们的研究检查了高级的大型 VLM 的对抗鲁棒性，并且假设黑盒访问和目标的对抗目标，并提供无需人工劳动的定量评估。

3 Methodology

在本节中，我们将首先介绍基本的初步内容，然后分别描述基于迁移和查询的攻击策略，用于基于图像的文本生成。

3.1 Preliminary

我们将 $p_{\theta}(x;c_{\text{in}})\mapsto c_{\text{out}}$ 表示为一个由 $\theta$ 参数化的基于图像的文本生成模型，其中 $x$ 是输入图像， $c_{\text{in}}$ 是输入文本， $c_{\text{out}}$ 是输出文本。例如，在图像字幕任务中， $c_{\text{in}}$ 是一个占位符 $\emptyset $，$ c_{\text{out}}$ 是字母；在视觉问答任务中， $c_{\text{in}}$ 是问题， $c_{\text{out}}$ 是答案。请注意，这里我们稍微滥用符号，因为 $p_{\theta}(x;c_{\text{in}})$ 和 $c_{\text{out}}$ 之间的映射可能是概率的或非确定性的。

Threat models 我们概述了威胁模型，其指定了对抗性条件 [12] 并将它们适应生成的范式型：（i）敌手知识描述了假设的敌手具有什么知识，通常，白盒的访问可以完全了解 $p_{\theta}$ ，包括模型架构和权重。或不同程度的黑盒访问，例如，只能从 API 获得输出文本 $c_{\text{out}}$ ； (ii) 敌手目标描述了对手寻求实现的恶意目的，包括只是简单地导致 $c_{\text{out}}$ 成为一个错误字母或答案的非目标目标，以及导致 $c_{\text{out}}$ 匹配到一个预定义的目标响应 $c_{\text{tar}}$ （通过文本匹配指标测量）的目标目标； (iii) 敌手能力描述了敌手操纵的导致伤害的约束，其中最常用的约束由 $\ell_{p}$ 预算施加，即干净图像 $x_{\text{cle}}$ 和对抗性图像 $x_{\text{adv}}$ 之间的 $\ell_{p}$ 距离小于预算 $\epsilon$ 即 $\parallel x_{\text{cle}}-x_{\text{adv}}\parallel_{p}\le \epsilon$ 。

Remark

我们的工作调查了最现实和最具挑战性的威胁模型，其中敌手对受害模型 $p_\theta$ 是黑盒访问、一个目标的目标、一个输入图像 $x$ 上小扰动的预算 $\epsilon$ 以确保人类的不可感知性，并且敌手被禁止操纵输入文本 $c_{\text{in}}$ 。

3.2 Transfer-based attacking strategy

由于我们假设受害模型是黑盒访问的，一种常见的攻击策略是基于迁移的[22，23，47，61，94，100]，它依赖于代理模型(例如，公开可用的CLIP模型)，这里敌手具有白盒访问权，并针对它们制作对抗样本，然后将对抗样本喂到到受害模型(例如，敌手试图愚弄的GPT-4)。由于受害模型是视觉和语言的，我们选择一个图像编码器 $f_{\phi}(x)$ 和一个文本编码器 $g_{\psi}(c)$ 作为代理模型，我们将 $c_{\text{tar}}$ 表示为敌手期望受害模型返回的目标响应。下面描述了两种设计基于迁移的对抗性目标的方法。

Matching image-text features (MF-it) 由于敌手期望受害模型在对抗性图像 $x_{\text{adv}}$ 为输入时返回目标响应 $c_{\text{tar}}$ ，因此很自然地想到在代理模型上匹配 $c_{\text{tar}}$ 和 $x_{\text{adv}}$ 的特征，其中 $x_{\text{adv}}$ 应该满足：

$\underset{\parallel x_{\text{cle}}-x_{\text{adv}}\parallel_{p}\le \epsilon}{\arg \max} f_{\phi}(x_{\text{adv}})^\top g_{\psi}(c_{\text{tar}})$

在这里，我们使用蓝色来突出白盒可访问性（即可以通过反向传播直接获得 $f_{\phi}$ 和 $g_{\psi}$ 的梯度），选择的图像和文本编码器具有相同的输出维度，它们的内积表示 $c_{\text{tar}}$ 和 $x_{\text{adv}}$ 的跨模态相似度。等式(1)中的约束优化问题可以通过投影梯度下降(PGD)[48]来解决。

Matching image-image features (MF-ii) 虽然对齐的图像和文本编码器已被证明在视觉语言任务上是表现良好的[65]，但最近的研究表明，VLM的行为可能类似于词袋[103]，因此可能并不能可靠地优化跨模态相似性。鉴于此，另一种方法是使用一个公共的文本到图像生成模型 $h_\xi$ （比如 Stable Diffusion[72]）并且生成一个对应于 $c_{\text{tar}}$ 目标的图片 $h_{\xi}(c_{\text{tar}})$ 。然后我们匹配 $x_{\text{adv}}$ 和 $h_{\xi}(c_{\text{tar}})$ 的图像-图像特征：

$\underset{\parallel x_{\text{cle}}-x_{\text{adv}}\parallel_{p}\le \epsilon}{\arg \max} f_{\phi}(x_{\text{adv}})^\top f_{\phi}(h_{\xi}(c_{\text{tar}}))$

其中橙色用于强调 $h_\xi$ 只需要黑盒可访问性，因为在优化对抗性图像 $x_{\text{adv}}$ 时不需要 $h_\xi$ 的梯度信息。因此，我们还可以使用高级 APIs 来实现 $h_\xi$ 比如Midjourney [51] 。

3.3 Query-based attacking strategy

基于迁移的攻击是有效的，但它们的有效性在很大程度上取决于受害模型和代理模型之间的相似度。当我们允许重复查询受害模型时，例如通过提供图像输入和获取文本输出，攻击者可以采用一个基于查询的攻击策略来估计梯度或执行自然进化算法[7，16，34]。

Matching text-text features (MF-tt) 回想一下，敌手的目标是让受害模型返回一个目标的的响应，即将 $p_\theta(x_{\text{adv}};c_{\text{in}})$ 与 $c_{\text{tar}}$ 匹配。因此，可以直接最大化 $p_\theta(x_{\text{adv}};c_{\text{in}})$ 和 $c_{\text{tar}}$ 之间的文本相似度：

$\underset{\parallel x_{\text{cle}}-x_{\text{adv}}\parallel_{p}\le \epsilon}{\arg \max} g_\psi(p_\theta(x_{\text{adv}};c_{\text{in}}))^\top g_{\psi}(c_{\text{tar}})$

请注意，我们不能直接计算方程式(3)中的优化梯度，因为我们假设受害模型 $p_\theta$ 是黑盒访问的，不能执行反向传播。为了估计梯度，我们采用了随机梯度(RGF)方法[54]。首先，我们将梯度重写为方向的导数的期望，即 $\nabla_xF(x)=\mathbb{E}[\delta^\top\nabla_x F(x)\cdot\delta]$ ，其中 $F (x)$ 表示任何可微函数， $\delta \sim P(\delta)$ 是一个随机变量，满足 $\mathbb{E}[\delta \delta^T]=\mathbf{I}$ (例如， $\delta$ 可以从超球中均匀采样)。然后通过零阶优化[16]，我们知道

$\nabla_{x_{\text{adv}}}g_\psi(p_\theta(x_{\text{adv}};c_{\text{in}}))^\top g_{\psi}(c_{\text{tar}})\approx \frac{1}{N\sigma}\sum_{n=1}^{N}[g_\psi(p_\theta(x_{\text{adv}}+\sigma\delta_n;c_{\text{in}}))^\top g_{\psi}(c_{\text{tar}})-g_\psi(p_\theta(x_{\text{adv}};c_{\text{in}}))^\top g_{\psi}(c_{\text{tar}})]\cdot\delta_n$

这里 $\delta_n \sim P(\delta)$ ， $\sigma$ 是一个控制采样方差的超参数， $N$ 是查询的数量。 $\sigma \to 0$ 并且 $N\to\infty$ 时等式(4)中的近似成为一个无偏方程。

Remark 以往的研究表明，基于迁移和基于查询的攻击策略可以协同工作，提高黑盒规避效率[17,24]。鉴于此，我们还考虑了用基于迁移的方法作为一个初始（或先验引导），并使用从基于查询的方法获得的信息来强化对抗效果，的对抗样本。这种组合是有效的，如第 4 节中经过实验验证的那样，直观地如图 4 所示。

4 Experiment

在本节中，我们展示了我们的技术在针对开源、大型 VLM 制作对抗性示例方面的有效性。附录中提供了更多结果。

4.1 Implementation details

在本文中，我们评估了开源(以确保可重复性)和先进的大型 VLMs，如UniDiffuser[5]，它使用一个基于扩散的框架来联合建模图像-文本对的分布，并且可以执行图像到文本和文本到图像的生成；BLIP[41]是一个统一的视觉-语言的预训练框架，用于从噪声的图像-文本对中学习；BLIP-2[42]添加了一个查询的transformer[87]和一个大型LM (T5[66]) 来提高基于图像的文本生成；Img2Prompt[30]提出了一个即插即用的，LM不可知的模块，该模块为大型 LM 提供了提示来使其能启用零样本 VQA 任务；MiniGPT-4[109]和 LLaVA[46]最近扩大了大型 LMs 的能力，并利用 Vicuna-13B[18]进行基于图像的文本生成任务。我们注意到 MiniGPT-4 还利用了一个高质量、对齐良好的数据集，来使用对话的模板进一步微调模型，从而产生与 GPT-4 [58] 相当的性能。

Datasets 我们使用 ImageNet-1K [20] 中的验证图像作为干净图像，从中制作对抗性示例，以定量评估大型 VLM 的对抗鲁棒性。从 MS-COCO 字幕 [44] 中，我们随机选择一个文本描述（通常是一个完整的句子，如附录所示）作为每个干净图像的对抗性目标文本。由于我们不能轻易地找到给定预定义文本的相应图像，我们使用 Stable Diffusion [72] 进行文本到图像生成，以获得每个文本描述的目标图像，以模拟真实场景。在我们的实验中还使用了 Midjourney [51] 和 DALL-E [67, 68] 来生成目标图像以进行演示。

Basic setups 为了公平比较，我们在选择基于图像的文本生成的预训练权重方面严格遵守之前的工作 [5, 30, 41, 42 , 46, 109]，包括大型 LMs（例如，T5 [66] 和 Vicuna-13B [18] 检查点）。我们对不同分辨率的原始干净图像进行了实验（见表 2）。我们设置ε = 8，默认使用ℓ∞约束为∥xcle−xadv∥∞≤8，这是对抗性文献[12]中最常用的设置，以确保对抗性扰动在视觉上是不可察觉的，其中像素值在[0,255]范围内。我们使用100步PGD来优化基于转移的攻击(Eq.(1)和Eq.(2)中的目标)。在基于查询的攻击的每个步骤中，我们在等式中设置查询时间 N = 100。 (4) 并使用估计的梯度用 8 步 PGD 更新对抗性图像。每个实验都在单个 NVIDIA-A100 GPU 上运行。

4.2 Empirical studies

我们评估了大型 VLMs 并冻结它们的参数，来使它们像文本到文本的生成 APIs 一样发挥作用。特别是，在图 1 中，我们展示了我们精心制作的对抗性图像始终欺骗了 BLIP-2，并且生成的响应与目标文本具有相同的语义。在图 2 中，我们评估能够双向联合生成的 UniDiffuser，以生成文本到图像，然后使用精心制作的 $x_{\text{adv}}$ 进行图像到文本。需要注意的是，这样的生成链将导致与原始文本描述完全不同的内容。我们简单地使用“"what is the content of this image？”作为提示回答生成，对那些需要文本指令作为输入（查询）[30]的模型。然而，对于 MiniGPT-4，我们在对话中使用了更灵活的方法，如图 3 所示。与 MiniGPT-4 具有具体正确的理解和描述的干净图像相比，我们精心制作的对抗性图像误导 MiniGPT-4 产生目标的响应并创建了在目标文本中没有显示的更意想不到的描述。

在表1中，我们研究了 MF-it 和 MF-ii 在针对CLIP[64]、BLIP[41]和ALBEF[40]等代理模型制作白盒对抗图像方面的有效性。我们从 ImageNet-1K 验证集中取 50K 干净图像 $x_{\text{cle}}$ ，并从 MS-COCO 字幕中对每个干净图像随机选择一个目标文本 $c_{\text{tar}}$ 。我们还生成目标的图像 $h_\xi(c_{\text{tar}})$ 作为参考，并通过 MF-ii 或 MF-it 制作对抗性图像 $x_{\text{adv}}$ 。正如所观察到的，MF-ii 和 MF-it 都能够在白盒设置中增加对抗性图像和目标文本之间的相似性（由 CLIP 分数测量），为黑盒可迁移性奠定了基础。具体来说，如表 2 所示，我们首先迁移用 MF-ii 或 MF-it 制作的对抗样本，来逃避大型 VLMs 并误导它们生成目标的响应。我们使用各种类型的 CLIP 文本编码器计算生成的响应 $p_\theta(x_{\text{adv}};c_{\text{in}})$ 和目标文本 $c_{\text{tar}}$ 之间的相似性。如前所述，默认的文本输入 $c_{\text{in}}$ 固定为“what is the content of this image?”。令人惊讶的是，我们发现 MF-it 的性能比 MF-ii 差，这表明直接在跨模态相似性上进行优化时过度拟合。此外，当我们使用MF-ii制作的基于迁移的对抗图像作为一个初始然后应用基于查询的MF-tt对对抗图像进行调整时，生成的响应与目标文本明显更相似，表明了高级的大型 VLMs 的脆弱性。

4.3 Further analyses

Does VLM adversarial perturbations induce semantic meanings? 先前的研究表明，针对鲁棒的模型制作的对抗性扰动将表现出语义或可感知地对齐的特征[35，60，82]。这促使我们弄清楚针对大型 VLMs 制作的对抗性扰动$ \triangle=x_{\text{adv}-x_{\text{cle}}}$ 是否具有类似的语义信息水平。在图 5 中，我们可视化了导致了一个在真实图像上成功的目标规避的 $ \triangle$，并报告了生成的文本响应。然而，我们没有观察到与对抗性扰动或其字幕中的目标文本相关的语义信息，这表明大型 VLMs 本质上是脆弱的。

The influence of perturbation budget $\epsilon$ 在我们的实验中，我们使用 $\epsilon=8$ 作为默认值，这意味着像素扰动在 [0, 255] 范围内高达 ±8。在图 6 中，我们检查了将 $\epsilon$ 设置为 {2, 4, 8, 16, 64} 的不同值的效果，并使用 LPIPS (↓)[106] 来计算干净图像 $x_{\text{cle}}$ 与其对抗性图像 $x_{\text{adv}}$ 之间的感知距离。我们强调（红色）了与目标文本最相似的生成响应。正如所观察到的，图像的质量/保真度和成功地引出目标响应之间存在一个权衡；因此，选择合适的扰动预算值至关重要。

Performance of attack with a fixed perturbation budget. 为了了解基于迁移的攻击和基于查询的攻击的各自的好处，我们进行了一项研究，分别分配不同的扰动预算给基于迁移 ( $\epsilon_t$ ) 和查询( $\epsilon_q$ ) 的攻击策略，在约束条件 $\epsilon_t + \epsilon_q=8$ 下。UniDifferuser 是我们实验中的受害模型。结果如图7所示。我们证明，基于迁移和查询的攻击的适当组合实现了最佳性能。

Interpreting the mechanism of attacking large VLMs. 为了了解我们的目标对抗性示例是如何影响响应的生成的，我们使用 GradCAM [75] 计算与输入问题相关的图像块的相关性分数，以获得干净图像和对抗性图像的视觉解释。如图 8 所示，我们的对抗性图像 $x_{\text{adv}}$ 成功地抑制了与原始文本描述的相关性（面板 (b)），并模拟了目标图像 $h_xi(c_{\text{tar}})$ 。尽管如此，我们强调使用 GradCAM 作为特征归因方法有一些已知的局限性[13]。附录中提供了其他可解释的示例。

5 Discussion

人们普遍认为，开发大型多模态模型将是一个不可抵挡的趋势。然而，在实践中部署这些大型模型之前，必须通过红队或对抗性攻击[25]等技术来理解它们的最坏情况性能。与操作可能需要人在循环的提示工程的文本输入相比，我们的结果表明，操纵视觉输入可以是自动化的，从而有效地欺骗整个大型视觉语言系统。生成的对抗效应是根深蒂固的，甚至会影响多轮的交互，如图3所示。虽然 GPT-4 模型谨慎地对待了多模态安全问题，它延迟了视觉输入[3]的释放，但开源多模态模型越来越多，如MiniGPT-4[109]和LLAVA[46,45]，其最坏情况行为尚未得到彻底检查。这些开源但对抗性未经检查的大型多模态模型作为产品插件的使用可能会带来潜在的风险。

**Broader impacts. ** 虽然我们研究的主要目标是评估和量化大型视觉语言模型的对抗鲁棒性，但所开发的攻击策略可能被滥用以逃避实际部署的系统并导致潜在的负面社会影响。具体来说，我们的威胁模型假设黑盒访问和目标响应，这涉及到为此目的操纵现有的 API，例如 GPT-4（带有视觉输入）和/或 Midjourney，从而如果这些视觉语言 API 被实现为其他产品中的插件会提高风险。

Limitations. 我们的工作主要关注数字世界，假设是输入图像会直接输入到模型中。然而，在未来，视觉语言模型更有可能部署在控制机器人或自动驾驶等复杂场景中，在这种情况下，输入图像可以从与物理环境的交互中获得，并由相机实时捕获。因此，在物理世界中执行对抗性攻击将是评估视觉语言模型安全性的未来方向之一。