On evaluating adversarial robustness of large vision language models - 论文翻译

论文链接:https://arxiv.org/pdf/2305.16934
项目代码:https://github.com/yunqing-me/AttackVLM

On evaluating adversarial robustness of large vision language models

  • Abstract
  • 1 Introduction
  • 2 Related work
  • 3 Methodology
    • 3.1 Preliminary
    • 3.2 Transfer-based attacking strategy
    • 3.3 Query-based attacking strategy
  • 4 Experiment
    • 4.1 Implementation details
    • 4.2 Empirical studies
    • 4.3 Further analyses
  • 5 Discussion

Abstract

GPT-4 等大型视觉语言模型 (VLM) 在响应生成方面取得了前所未有的性能,尤其是在视觉输入的情况下,与 ChatGPT 等大型语言模型相比,可以实现更具创造性和适应性的交互。尽管如此,多模态生成加剧了安全问题,因为对手可以通过巧妙地操纵最脆弱的模态(例如视觉)来成功地避开整个系统。为此,我们建议在最现实和高风险的环境中评估开源大型VLM的鲁棒性,其中对手只有黑盒系统访问,并试图欺骗模型返回目标响应。特别是,我们首先针对 CLIP 和 BLIP 等预训练模型制作目标的对抗性示例,然后将这些对抗性示例转移到其他 VLM,例如 MiniGPT-4、LLAVA、UniDiffuser、BLIP-2 和 Img2Prompt。此外,我们观察到这些VLM上的黑盒查询可以进一步提高目标规避的有效性,导致生成目标响应的成功率非常高。我们的研究结果提供了对大型VLM对抗脆弱性的定量理解,并呼吁在实践中部署之前更彻底地检查它们的潜在安全漏洞。

1 Introduction

大型视觉语言模型 (VLM) 取得了巨大成功,并在文本到图像生成、基于图像的文本生成(例如图像字幕或视觉问答)和联合生成 [5, 32, 98] 上展现了有前途的能力,鉴于数据量、计算资源和模型参数数量的增加。值得注意的是,在用指令进行微调并与人工反馈对齐后,GPT-4[58]能够与人类用户交谈,特别是能够支持视觉输入。

随着多模态学习的趋势,越来越多的大型 VLM 是公开的,这使得下游应用程序的实现了指数性扩展。然而,这带来了重大的安全挑战。例如,人们普遍认为,文本到图像模型可以用来恶意生成虚假内容[71,76]或编辑图像[73]。不幸中的万幸是对手必须操纵文本输入来实现他们的逃避目标,这需要进行广泛的搜索和工程来确定对抗性提示。此外,文本到图像的模型是公众可访问的,通常包括了一个安全检查器来过滤敏感的概念,以及一个不可见的水印模块来帮助识别虚假内容。

GPT-4 等基于图像的文本生成有更多的与人类用户的交互,可以生成命令来执行代码或控制机器人,而不同于仅返回一个图像的文本到图像生成。因此,潜在的敌手可能能够通过操纵其视觉的输入来逃避一个基于图像的文本生成模型,因为众所周知,视觉模式极容易受到人类难以察觉的对抗性扰动的影响。这引发了更严重的安全问题,因为基于图像的文本生成可以用于相当复杂和安全关键的环境。敌手可能会误导部署为插件的大型VLM,例如,绕过他们的安全/隐私检查器、注入恶意代码、或者在没有授权的情况下访问 API 和操作机器人/设备。

在这项工作中,我们根据实验评估了最先进的大型 VLM 的对抗鲁棒性,特别是针对接受视觉输入(例如,基于图像的文本生成或联合生成)的对抗鲁棒性。为了确保可重复性,我们的评估都是基于开源大型模型。我们研究了最现实和高风险的场景,其中对手只有黑盒系统访问,并试图欺骗模型返回目标响应。具体来说,我们首先使用预训练的 CLIP 和 BLIP 作为代理模型,通过匹配文本嵌入或图像嵌入来制作有针对性的对抗示例,然后将对抗性示例迁移到其他大型VLM,包括 MiniGPT-4[109]、LLAVA[46]、UniDiffuser[5]、BLIP2[42]和Img2Prompt[30]。令人惊讶的是,这些基于迁移的攻击已经可以以很高的成功率诱导有针对性的响应。此外,我们发现使用基于迁移的先验,基于查询的攻击可以进一步提高目标的规避对这些 VLM 的有效性,如图1(BLIP-2)、图2(UniDiffuser)和图3(MiniGPT-4)所示。

我们的研究结果提供了对大型 VLM 的对抗脆弱性的定量理解,并主张在部署之前更全面地检查它们的潜在安全缺陷,如第5节所述。对于更一般的多模态系统,我们的研究结果表明,系统的鲁棒性高度依赖于它们最脆弱的输入模式。

2 Related work

Language models (LMs) and their robustness BERT[21]、GPT-2[64]和T5[66]的开创性工作奠定了大型 LMs 的基础,在此基础上开发了许多其他大型LMs 并展示了各种语言基准的重大进步。最近,ChatGPT [57, 59] 和基于 LLAMA [85] 调整的几个开源模型 [18, 83, 95] 能够与人类用户进行对话交互,并且可以响应多样化和复杂的问题。然而,Alzantot et al. [4] 第一个构建了情感分析和文本蕴涵任务的对抗性示例,而 Jin et al. [36] 报告说 BERT 可以通过自然语言攻击规避。之后,提出了各种灵活的(例如,在单词替换之上的)和语义保留的方法来生成自然语言的对抗性示例 [9, 49, 50 , 52, 53, 70, 78, 102, 104 , 10],以及基准和数据集,来更彻底地评估 LM 的对抗鲁棒性 [56, 90 –92]。还有一些红队举措,也就是使用人在循环中或自动化的框架来识别有问题的语言模型输出 [27, 63, 96]。

Vision-language models (VLMs) and their robustness 这些强大的 LMs 中包含的知识用于促进视觉语言任务 [26、33、84、93、101]。受视觉任务中观察到的对抗性脆弱性的启发,早期的工作致力于研究针对视觉问答 [6, 11, 37, 38, 43, 77, 89 , 97 , 105 ] 和图像标题 [1, 14, 99] 的对抗性攻击,其中大多数工作都集中在传统的基于 CNN-RNN 的模型上,假设白盒访问或非目标的对抗目标,并且需要人机交互。而另一方面,我们的研究检查了高级的大型 VLM 的对抗鲁棒性,并且假设黑盒访问和目标的对抗目标,并提供无需人工劳动的定量评估。

3 Methodology

在本节中,我们将首先介绍基本的初步内容,然后分别描述基于迁移和查询的攻击策略,用于基于图像的文本生成。

3.1 Preliminary

我们将 p θ ( x ; c in ) ↦ c out p_{\theta}(x;c_{\text{in}})\mapsto c_{\text{out}} pθ(x;cin)cout 表示为一个由 θ \theta θ 参数化的基于图像的文本生成模型,其中 x x x 是输入图像, c in c_{\text{in}} cin 是输入文本, c out c_{\text{out}} cout 是输出文本。例如,在图像字幕任务中, c in c_{\text{in}} cin 是一个占位符 $\emptyset , , c_{\text{out}}$ 是字母;在视觉问答任务中, c in c_{\text{in}} cin 是问题, c out c_{\text{out}} cout 是答案。请注意,这里我们稍微滥用符号,因为 p θ ( x ; c in ) p_{\theta}(x;c_{\text{in}}) pθ(x;cin) c out c_{\text{out}} cout 之间的映射可能是概率的或非确定性的。

Threat models 我们概述了威胁模型,其指定了对抗性条件 [12] 并将它们适应生成的范式型:(i)敌手知识描述了假设的敌手具有什么知识,通常,白盒的访问可以完全了解 p θ p_{\theta} pθ,包括模型架构和权重。或不同程度的黑盒访问,例如,只能从 API 获得输出文本 c out c_{\text{out}} cout; (ii) 敌手目标描述了对手寻求实现的恶意目的,包括只是简单地导致 c out c_{\text{out}} cout 成为一个错误字母或答案的非目标目标,以及导致 c out c_{\text{out}} cout 匹配到一个预定义的目标响应 c tar c_{\text{tar}} ctar (通过文本匹配指标测量)的目标目标; (iii) 敌手能力描述了敌手操纵的导致伤害的约束,其中最常用的约束由 ℓ p \ell_{p} p 预算施加,即干净图像 x cle x_{\text{cle}} xcle 和对抗性图像 x adv x_{\text{adv}} xadv 之间的 ℓ p \ell_{p} p 距离小于预算 ϵ \epsilon ϵ ∥ x cle − x adv ∥ p ≤ ϵ \parallel x_{\text{cle}}-x_{\text{adv}}\parallel_{p}\le \epsilon xclexadvpϵ

Remark

我们的工作调查了最现实和最具挑战性的威胁模型,其中敌手对受害模型 p θ p_\theta pθ 是黑盒访问、一个目标的目标、一个输入图像 x x x 上小扰动的预算 ϵ \epsilon ϵ 以确保人类的不可感知性,并且敌手被禁止操纵输入文本 c in c_{\text{in}} cin

3.2 Transfer-based attacking strategy

由于我们假设受害模型是黑盒访问的,一种常见的攻击策略是基于迁移的[22,23,47,61,94,100],它依赖于代理模型(例如,公开可用的CLIP模型),这里敌手具有白盒访问权,并针对它们制作对抗样本,然后将对抗样本喂到到受害模型(例如,敌手试图愚弄的GPT-4)。由于受害模型是视觉和语言的,我们选择一个图像编码器 f ϕ ( x ) f_{\phi}(x) fϕ(x) 和一个文本编码器 g ψ ( c ) g_{\psi}(c) gψ(c) 作为代理模型,我们将 c tar c_{\text{tar}} ctar 表示为敌手期望受害模型返回的目标响应。下面描述了两种设计基于迁移的对抗性目标的方法。

Matching image-text features (MF-it) 由于敌手期望受害模型在对抗性图像 x adv x_{\text{adv}} xadv 为输入时返回目标响应 c tar c_{\text{tar}} ctar ,因此很自然地想到在代理模型上匹配 c tar c_{\text{tar}} ctar x adv x_{\text{adv}} xadv 的特征,其中 x adv x_{\text{adv}} xadv 应该满足:

arg ⁡ max ⁡ ∥ x cle − x adv ∥ p ≤ ϵ f ϕ ( x adv ) ⊤ g ψ ( c tar ) \underset{\parallel x_{\text{cle}}-x_{\text{adv}}\parallel_{p}\le \epsilon}{\arg \max} f_{\phi}(x_{\text{adv}})^\top g_{\psi}(c_{\text{tar}}) xclexadvpϵargmaxfϕ(xadv)gψ(ctar)

在这里,我们使用蓝色来突出白盒可访问性(即可以通过反向传播直接获得 f ϕ f_{\phi} fϕ g ψ g_{\psi} gψ 的梯度),选择的图像和文本编码器具有相同的输出维度,它们的内积表示 c tar c_{\text{tar}} ctar x adv x_{\text{adv}} xadv 的跨模态相似度。等式(1)中的约束优化问题可以通过投影梯度下降(PGD)[48]来解决。

Matching image-image features (MF-ii) 虽然对齐的图像和文本编码器已被证明在视觉语言任务上是表现良好的[65],但最近的研究表明,VLM的行为可能类似于词袋[103],因此可能并不能可靠地优化跨模态相似性。鉴于此,另一种方法是使用一个公共的文本到图像生成模型 h ξ h_\xi hξ(比如 Stable Diffusion[72])并且生成一个对应于 c tar c_{\text{tar}} ctar 目标的图片 h ξ ( c tar ) h_{\xi}(c_{\text{tar}}) hξ(ctar) 。然后我们匹配 x adv x_{\text{adv}} xadv h ξ ( c tar ) h_{\xi}(c_{\text{tar}}) hξ(ctar) 的图像-图像特征:

arg ⁡ max ⁡ ∥ x cle − x adv ∥ p ≤ ϵ f ϕ ( x adv ) ⊤ f ϕ ( h ξ ( c tar ) ) \underset{\parallel x_{\text{cle}}-x_{\text{adv}}\parallel_{p}\le \epsilon}{\arg \max} f_{\phi}(x_{\text{adv}})^\top f_{\phi}(h_{\xi}(c_{\text{tar}})) xclexadvpϵargmaxfϕ(xadv)fϕ(hξ(ctar))

其中橙色用于强调 h ξ h_\xi hξ 只需要黑盒可访问性,因为在优化对抗性图像 x adv x_{\text{adv}} xadv 时不需要 h ξ h_\xi hξ 的梯度信息。因此,我们还可以使用高级 APIs 来实现 h ξ h_\xi hξ 比如Midjourney [51] 。

3.3 Query-based attacking strategy

基于迁移的攻击是有效的,但它们的有效性在很大程度上取决于受害模型和代理模型之间的相似度。当我们允许重复查询受害模型时,例如通过提供图像输入和获取文本输出,攻击者可以采用一个基于查询的攻击策略来估计梯度或执行自然进化算法[7,16,34]。

Matching text-text features (MF-tt) 回想一下,敌手的目标是让受害模型返回一个目标的的响应,即将 p θ ( x adv ; c in ) p_\theta(x_{\text{adv}};c_{\text{in}}) pθ(xadv;cin) c tar c_{\text{tar}} ctar 匹配。因此,可以直接最大化 p θ ( x adv ; c in ) p_\theta(x_{\text{adv}};c_{\text{in}}) pθ(xadv;cin) c tar c_{\text{tar}} ctar 之间的文本相似度:

arg ⁡ max ⁡ ∥ x cle − x adv ∥ p ≤ ϵ g ψ ( p θ ( x adv ; c in ) ) ⊤ g ψ ( c tar ) \underset{\parallel x_{\text{cle}}-x_{\text{adv}}\parallel_{p}\le \epsilon}{\arg \max} g_\psi(p_\theta(x_{\text{adv}};c_{\text{in}}))^\top g_{\psi}(c_{\text{tar}}) xclexadvpϵargmaxgψ(pθ(xadv;cin))gψ(ctar)

请注意,我们不能直接计算方程式(3)中的优化梯度,因为我们假设受害模型 p θ p_\theta pθ 是黑盒访问的,不能执行反向传播。为了估计梯度,我们采用了随机梯度(RGF)方法[54]。首先,我们将梯度重写为方向的导数的期望,即 ∇ x F ( x ) = E [ δ ⊤ ∇ x F ( x ) ⋅ δ ] \nabla_xF(x)=\mathbb{E}[\delta^\top\nabla_x F(x)\cdot\delta] xF(x)=E[δxF(x)δ],其中 F ( x ) F(x) F(x) 表示任何可微函数, δ ∼ P ( δ ) \delta \sim P(\delta) δP(δ) 是一个随机变量,满足 E [ δ δ T ] = I \mathbb{E}[\delta \delta^T]=\mathbf{I} E[δδT]=I (例如, δ \delta δ 可以从超球中均匀采样)。然后通过零阶优化[16],我们知道

∇ x adv g ψ ( p θ ( x adv ; c in ) ) ⊤ g ψ ( c tar ) ≈ 1 N σ ∑ n = 1 N [ g ψ ( p θ ( x adv + σ δ n ; c in ) ) ⊤ g ψ ( c tar ) − g ψ ( p θ ( x adv ; c in ) ) ⊤ g ψ ( c tar ) ] ⋅ δ n \nabla_{x_{\text{adv}}}g_\psi(p_\theta(x_{\text{adv}};c_{\text{in}}))^\top g_{\psi}(c_{\text{tar}})\approx \frac{1}{N\sigma}\sum_{n=1}^{N}[g_\psi(p_\theta(x_{\text{adv}}+\sigma\delta_n;c_{\text{in}}))^\top g_{\psi}(c_{\text{tar}})-g_\psi(p_\theta(x_{\text{adv}};c_{\text{in}}))^\top g_{\psi}(c_{\text{tar}})]\cdot\delta_n xadvgψ(pθ(xadv;cin))gψ(ctar)Nσ1n=1N[gψ(pθ(xadv+σδn;cin))gψ(ctar)gψ(pθ(xadv;cin))gψ(ctar)]δn

这里 δ n ∼ P ( δ ) \delta_n \sim P(\delta) δnP(δ) σ \sigma σ 是一个控制采样方差的超参数, N N N 是查询的数量。 σ → 0 \sigma \to 0 σ0 并且 N → ∞ N\to\infty N 时等式(4)中的近似成为一个无偏方程。

Remark 以往的研究表明,基于迁移和基于查询的攻击策略可以协同工作,提高黑盒规避效率[17,24]。鉴于此,我们还考虑了用基于迁移的方法作为一个初始(或先验引导),并使用从基于查询的方法获得的信息来强化对抗效果,的对抗样本。这种组合是有效的,如第 4 节中经过实验验证的那样,直观地如图 4 所示。

4 Experiment

在本节中,我们展示了我们的技术在针对开源、大型 VLM 制作对抗性示例方面的有效性。附录中提供了更多结果。

4.1 Implementation details

在本文中,我们评估了开源(以确保可重复性)和先进的大型 VLMs,如UniDiffuser[5],它使用一个基于扩散的框架来联合建模图像-文本对的分布,并且可以执行图像到文本和文本到图像的生成;BLIP[41]是一个统一的视觉-语言的预训练框架,用于从噪声的图像-文本对中学习;BLIP-2[42]添加了一个查询的transformer[87]和一个大型LM (T5[66]) 来提高基于图像的文本生成;Img2Prompt[30]提出了一个即插即用的,LM不可知的模块,该模块为大型 LM 提供了提示来使其能启用零样本 VQA 任务;MiniGPT-4[109]和 LLaVA[46]最近扩大了大型 LMs 的能力,并利用 Vicuna-13B[18]进行基于图像的文本生成任务。我们注意到 MiniGPT-4 还利用了一个高质量、对齐良好的数据集,来使用对话的模板进一步微调模型,从而产生与 GPT-4 [58] 相当的性能。

Datasets 我们使用 ImageNet-1K [20] 中的验证图像作为干净图像,从中制作对抗性示例,以定量评估大型 VLM 的对抗鲁棒性。从 MS-COCO 字幕 [44] 中,我们随机选择一个文本描述(通常是一个完整的句子,如附录所示)作为每个干净图像的对抗性目标文本。由于我们不能轻易地找到给定预定义文本的相应图像,我们使用 Stable Diffusion [72] 进行文本到图像生成,以获得每个文本描述的目标图像,以模拟真实场景。在我们的实验中还使用了 Midjourney [51] 和 DALL-E [67, 68] 来生成目标图像以进行演示。

Basic setups 为了公平比较,我们在选择基于图像的文本生成的预训练权重方面严格遵守之前的工作 [5, 30, 41, 42 , 46, 109],包括大型 LMs(例如,T5 [66] 和 Vicuna-13B [18] 检查点)。我们对不同分辨率的原始干净图像进行了实验(见表 2)。我们设置ε = 8,默认使用ℓ∞约束为∥xcle−xadv∥∞≤8,这是对抗性文献[12]中最常用的设置,以确保对抗性扰动在视觉上是不可察觉的,其中像素值在[0,255]范围内。我们使用100步PGD来优化基于转移的攻击(Eq.(1)和Eq.(2)中的目标)。在基于查询的攻击的每个步骤中,我们在等式中设置查询时间 N = 100。 (4) 并使用估计的梯度用 8 步 PGD 更新对抗性图像。每个实验都在单个 NVIDIA-A100 GPU 上运行。

4.2 Empirical studies

我们评估了大型 VLMs 并冻结它们的参数,来使它们像文本到文本的生成 APIs 一样发挥作用。特别是,在图 1 中,我们展示了我们精心制作的对抗性图像始终欺骗了 BLIP-2,并且生成的响应与目标文本具有相同的语义。在图 2 中,我们评估能够双向联合生成的 UniDiffuser,以生成文本到图像,然后使用精心制作的 x adv x_{\text{adv}} xadv 进行图像到文本。需要注意的是,这样的生成链将导致与原始文本描述完全不同的内容。我们简单地使用“"what is the content of this image?”作为提示回答生成,对那些需要文本指令作为输入(查询)[30]的模型。然而,对于 MiniGPT-4,我们在对话中使用了更灵活的方法,如图 3 所示。与 MiniGPT-4 具有具体正确的理解和描述的干净图像相比,我们精心制作的对抗性图像误导 MiniGPT-4 产生目标的响应并创建了在目标文本中没有显示的更意想不到的描述。

在表1中,我们研究了 MF-it 和 MF-ii 在针对CLIP[64]、BLIP[41]和ALBEF[40]等代理模型制作白盒对抗图像方面的有效性。我们从 ImageNet-1K 验证集中取 50K 干净图像 x cle x_{\text{cle}} xcle,并从 MS-COCO 字幕中对每个干净图像随机选择一个目标文本 c tar c_{\text{tar}} ctar。我们还生成目标的图像 h ξ ( c tar ) h_\xi(c_{\text{tar}}) hξ(ctar) 作为参考,并通过 MF-ii 或 MF-it 制作对抗性图像 x adv x_{\text{adv}} xadv。正如所观察到的,MF-ii 和 MF-it 都能够在白盒设置中增加对抗性图像和目标文本之间的相似性(由 CLIP 分数测量),为黑盒可迁移性奠定了基础。具体来说,如表 2 所示,我们首先迁移用 MF-ii 或 MF-it 制作的对抗样本,来逃避大型 VLMs 并误导它们生成目标的响应。我们使用各种类型的 CLIP 文本编码器计算生成的响应 p θ ( x adv ; c in ) p_\theta(x_{\text{adv}};c_{\text{in}}) pθ(xadv;cin) 和目标文本 c tar c_{\text{tar}} ctar 之间的相似性。如前所述,默认的文本输入 c in c_{\text{in}} cin 固定为“what is the content of this image?”。令人惊讶的是,我们发现 MF-it 的性能比 MF-ii 差,这表明直接在跨模态相似性上进行优化时过度拟合。此外,当我们使用MF-ii制作的基于迁移的对抗图像作为一个初始然后应用基于查询的MF-tt对对抗图像进行调整时,生成的响应与目标文本明显更相似,表明了高级的大型 VLMs 的脆弱性。

4.3 Further analyses

Does VLM adversarial perturbations induce semantic meanings? 先前的研究表明,针对鲁棒的模型制作的对抗性扰动将表现出语义或可感知地对齐的特征[35,60,82]。这促使我们弄清楚针对大型 VLMs 制作的对抗性扰动$ \triangle=x_{\text{adv}-x_{\text{cle}}}$ 是否具有类似的语义信息水平。在图 5 中,我们可视化了导致了一个在真实图像上成功的目标规避的 $ \triangle$,并报告了生成的文本响应。然而,我们没有观察到与对抗性扰动或其字幕中的目标文本相关的语义信息,这表明大型 VLMs 本质上是脆弱的。

The influence of perturbation budget ϵ \epsilon ϵ 在我们的实验中,我们使用 ϵ = 8 \epsilon=8 ϵ=8 作为默认值,这意味着像素扰动在 [0, 255] 范围内高达 ±8。在图 6 中,我们检查了将 ϵ \epsilon ϵ 设置为 {2, 4, 8, 16, 64} 的不同值的效果,并使用 LPIPS (↓)[106] 来计算干净图像 x cle x_{\text{cle}} xcle 与其对抗性图像 x adv x_{\text{adv}} xadv 之间的感知距离。我们强调(红色)了与目标文本最相似的生成响应。正如所观察到的,图像的质量/保真度和成功地引出目标响应之间存在一个权衡;因此,选择合适的扰动预算值至关重要。

Performance of attack with a fixed perturbation budget. 为了了解基于迁移的攻击和基于查询的攻击的各自的好处,我们进行了一项研究,分别分配不同的扰动预算给基于迁移 ( ϵ t \epsilon_t ϵt) 和查询( ϵ q \epsilon_q ϵq) 的攻击策略,在约束条件 ϵ t + ϵ q = 8 \epsilon_t + \epsilon_q=8 ϵt+ϵq=8 下。UniDifferuser 是我们实验中的受害模型。结果如图7所示。我们证明,基于迁移和查询的攻击的适当组合实现了最佳性能。

Interpreting the mechanism of attacking large VLMs. 为了了解我们的目标对抗性示例是如何影响响应的生成的,我们使用 GradCAM [75] 计算与输入问题相关的图像块的相关性分数,以获得干净图像和对抗性图像的视觉解释。如图 8 所示,我们的对抗性图像 x adv x_{\text{adv}} xadv 成功地抑制了与原始文本描述的相关性(面板 (b)),并模拟了目标图像 h x i ( c tar ) h_xi(c_{\text{tar}}) hxi(ctar)。尽管如此,我们强调使用 GradCAM 作为特征归因方法有一些已知的局限性[13]。附录中提供了其他可解释的示例。

5 Discussion

人们普遍认为,开发大型多模态模型将是一个不可抵挡的趋势。然而,在实践中部署这些大型模型之前,必须通过红队或对抗性攻击[25]等技术来理解它们的最坏情况性能。与操作可能需要人在循环的提示工程的文本输入相比,我们的结果表明,操纵视觉输入可以是自动化的,从而有效地欺骗整个大型视觉语言系统。生成的对抗效应是根深蒂固的,甚至会影响多轮的交互,如图3所示。虽然 GPT-4 模型谨慎地对待了多模态安全问题,它延迟了视觉输入[3]的释放,但开源多模态模型越来越多,如MiniGPT-4[109]和LLAVA[46,45],其最坏情况行为尚未得到彻底检查。这些开源但对抗性未经检查的大型多模态模型作为产品插件的使用可能会带来潜在的风险。

**Broader impacts. ** 虽然我们研究的主要目标是评估和量化大型视觉语言模型的对抗鲁棒性,但所开发的攻击策略可能被滥用以逃避实际部署的系统并导致潜在的负面社会影响。具体来说,我们的威胁模型假设黑盒访问和目标响应,这涉及到为此目的操纵现有的 API,例如 GPT-4(带有视觉输入)和/或 Midjourney,从而如果这些视觉语言 API 被实现为其他产品中的插件会提高风险。

Limitations. 我们的工作主要关注数字世界,假设是输入图像会直接输入到模型中。然而,在未来,视觉语言模型更有可能部署在控制机器人或自动驾驶等复杂场景中,在这种情况下,输入图像可以从与物理环境的交互中获得,并由相机实时捕获。因此,在物理世界中执行对抗性攻击将是评估视觉语言模型安全性的未来方向之一。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/829997.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux的压缩与备份

一、打包 格式&#xff1a;tar -参数 <打包文件名> <打包的目标> 作用&#xff1a;将文件或者目录打包 重要参数&#xff1a;-f 使用归档文件&#xff0c;一定要加上这个参数 -c 新建打包文件 -x 解包文件 -t 可以不用解包就能查看包文件内容 -v 打包和解包时显…

JVM的垃圾回收机制(GC机制)

在Java代码运行的过程中&#xff0c;JVM发现 某些资源不需要再使用的时候&#xff0c;就会自动把资源所占的内存给回收掉&#xff0c;就不需要程序员自行操作了。“自动回收资源”就是JVM的“垃圾回收机制”&#xff0c;“垃圾回收机制”也称"GC机制"。 对于Java代码…

C语言指针进阶_字符指针、指针数组、数组指针、函数指针等的介绍

文章目录 前言一、字符指针二、指针数组三、 数组指针1. 数组名和 & 数组名2. 数组指针3. 数组指针解引用 四、数组指针的使用二维数组的传参说明数组指针使用小测验 五、数组传参和指针传参1. 一维数组传参总结2. 二维数组传参总结3. 一级指针传参4. 二级指针传参 六、函数…

java案例-服务端与客户端(传输对象)

需求 代码 SysUser 用户类Operation 操作类Client 客户端Server 服务端ServerReaderThread 服务端线程类 SysUser 用户类 需要实现Serializable 方便序列化&#xff0c;传输对象 public class SysUser implements Serializable {private String username;private String passwo…

kerberos-hive-dbeaver问题总结

一、kerberos安装windows客户端 1、官方下载地址 http://web.mit.edu/kerberos/dist/ 2、环境变量配置 下载msi安装包&#xff0c;无需重启计算机&#xff0c;调整环境变量在jdk的前面&#xff0c;尽量靠前&#xff0c;因为jdk也带了kinit、klist等命令 C:\Program Files\…

【Node.js工程师养成计划】之原生node开发web服务器

一、使用node创建http服务器 var http require(http);// 获取到服务器实例对象 var server http.createServer() server.listen(8080, function() {console.log(http://127.0.0.1:8080); })server.on(request, function(req, res){console.log(request);res.write(6666666688…

如何利用 GPT 自我提高写作能力

GPT革命&#xff1a;如何用AI技术重新定义写作 介绍 在我们的数字时代&#xff0c;了解自我提高写作的必要性至关重要。 随着 GPT 的兴起&#xff0c;我们正在见证书写的变革时代。 这篇扩展文章深入探讨了 GPT 如何显着提高写作技能。 拥抱未来&#xff1a; 人工智能时代的写…

Maven介绍 主要包括Maven的基本介绍,作用,以及对应的Maven模型,可以对Maven有一个基本的了解

1、Maven介绍 1.1 什么是Maven Maven是Apache旗下的一个开源项目&#xff0c;是一款用于管理和构建java项目的工具。 官网&#xff1a;https://maven.apache.org/ Apache 软件基金会&#xff0c;成立于1999年7月&#xff0c;是目前世界上最大的最受欢迎的开源软件基金会&…

Elasticsearch实现hotel索引库自动补全、拼音搜索功能

Elasticsearch实现hotel索引库自动补全、拼音搜索功能 在这里边我们有两个字段需要用拼音分词器&#xff0c;一个name字段&#xff0c;一个all字段。 然后我们还需要去实现自动补全&#xff0c;而自动补全对应的字段必须使用completion类型。目前我们酒店里面所有的字段都采用的…

【SpringBoot】00 Maven配置及创建项目

一、Maven配置 1、下载Maven 进入官网下载&#xff1a;Maven – Welcome to Apache MavenMaven – Download Apache Maven 本文以最新版为例&#xff0c;可按需选择版本 Maven – Welcome to Apache Maven 2、解压下载好的安装包 将安装包解压到自己设置的空文件夹中 3、…

AI视频教程下载:构建一个ChatGPT股票配对交易机器人

ChatGPT及其后续版本GPT-4已经开始改变世界。人们对新机会感到兴奋&#xff0c;同时对我们社会可能受到的影响感到恐惧。这门课程结合了两个主题&#xff1a;AI和财务&#xff08;算法交易&#xff09;。 你将会学到的&#xff1a; 使用ChatGPT构建一个Python配对交易机器人 …

(Linux)Centos7.*版本安装配置Java环境、Tomcat、Nginx并打包部署SSM框架web系统

一、准备软件与安装包 (一)、必须的软件 1、点击下载Xshell 2、点击下载FileZilla (二)、准备安装包 1、点击下载JDK1.8Linux版本 2、点击下载Nginx 3、点击下载Tomcat 二、关于FileZilla软件的使用说明 (一)、FileZilla软件的打开和说明 (二)、配置服务器地址去连…

理解ROS2的动作

​ 1. 创建一个动作 目标&#xff1a; 在ROS 2软件包中定义一个动作。 1.1 新建包 设置一个 workspace 并创建一个名为 action_tutorials_interfaces 的包&#xff1a; mkdir -p ros2_ws/src #you can reuse existing workspace with this naming convention cd ros2_ws/s…

NLP发展及其详解

一、RNN(循环神经网络) 在这里附上一个很好的笔记 零基础入门深度学习(5) - 循环神经网络 RNN(循环神经网络)的结构特点在于其循环单元的设计,这种设计允许网络在处理序列数据时保持对之前信息的记忆。下面详细解释RNN的结构: 循环单元:RNN的循环单元是网络的核心,它…

基于Springboot的爱心商城系统(有报告)。Javaee项目,springboot项目。

演示视频&#xff1a; 基于Springboot的爱心商城系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层体系结构&…

[BT]BUUCTF刷题第25天(4.28)

第25天&#xff08;共3题&#xff09; Web [CISCN 2019 初赛]Love Math 打开网站就是一段泄露的源代码&#xff1a; <?php error_reporting(0); //听说你很喜欢数学&#xff0c;不知道你是否爱它胜过爱flag if(!isset($_GET[c])){show_source(__FILE__); }else{//例子 c…

【LeetCode刷题记录】简单篇-70-爬楼梯

【题目描述】 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢&#xff1f; 【测试用例】 示例1&#xff1a; 输入&#xff1a;n 2 输出&#xff1a;2 解释&#xff1a;有两种方法可以爬到楼顶。 1.1阶 1阶…

C语言-------实现贪吃蛇小游戏

目录 一、预备知识 1.1 Win32 API介绍 Windows 这个多作业系统除了协调应用程序的执行、分配内存、管理资源之外&#xff0c; 它同时也是一个很大的服务中心&#xff0c;调用这个服务中心的各种服务&#xff08;每一种服务就是一个函数&#xff09;&#xff0c;可以帮应用程…

PyVista 3D数据可视化 Python 库 简介

Pyvista是一个用于科学可视化和分析的Python库 &#xff1b;我认为它适合做一些网格数据的处理&#xff1b; 它封装了VTK&#xff08;Visualization Toolkit&#xff09;之上&#xff0c;提供了一些高级接口&#xff0c; 3D数据可视化变得更加简单和易用。 1.安装 pyvista&…

SpringMVC进阶(自定义拦截器以及异常处理)

文章目录 1.自定义拦截器1.基本介绍1.说明2.自定义拦截器的三个方法3.流程图 2.快速入门1.Myinterceptor01.java2.FurnHandler.java3.springDispatcherServlet-servlet.xml配置拦截器4.单元测试 3.拦截特定路径1.拦截指定路径2.通配符配置路径 4.细节说明5.多个拦截器1.执行流程…