论文阅读:2024 arxiv Jailbreaking Black Box Large Language Models in Twenty Queries

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

Jailbreaking Black Box Large Language Models in Twenty Queries

https://www.doubao.com/chat/4008882391220226

https://arxiv.org/pdf/2310.08419

速览

这篇论文是来自宾夕法尼亚大学的研究人员撰写的,主要探讨大语言模型(LLMs)的安全漏洞问题,提出了一种叫PAIR的算法来进行攻击测试,相关成果有助于提升大语言模型的安全性。

  1. 研究背景:大语言模型发展迅速,但训练数据中的不良内容会带来危害,所以人们会采取措施让模型生成的内容符合人类价值观。不过,当前存在两类越狱攻击能绕过模型的安全防护机制。prompt - level越狱需要大量人力,token - level越狱需要大量查询且难以解释,因此需要新的测试方法。
  2. PAIR算法:PAIR算法旨在平衡现有攻击方法的弊端,它通过让两个黑盒大语言模型(攻击者模型A和目标模型T)相互对抗来自动生成语义越狱攻击。具体有四个步骤:攻击者生成候选提示,目标模型给出响应,对提示和响应进行评分判断是否越狱,若未越狱则将相关信息反馈给攻击者进行提示优化。在实现攻击者模型时,要精心设计系统提示、合理利用聊天历史和评估改进情况。
  3. 实验:使用JBB - Behaviors数据集,以Mixtral等模型作为攻击者,对Vicuna、Llama - 2、GPT - 3.5等多个模型进行攻击测试。结果显示,PAIR比现有方法查询效率高很多,在多个模型上能达到较高的越狱成功率,并且生成的攻击提示可转移性强,难以被防御。通过消融实验发现,Mixtral作为攻击者性能较好,角色扮演的系统提示最有效。
  4. 局限性和未来工作:PAIR在攻击经过强安全微调的模型时效果不佳,并且相比基于优化的方案,其可解释性可能不足。未来可利用该框架生成数据集来微调模型以提高安全性,还可扩展到多轮对话场景。

论文阅读

在这里插入图片描述
在这里插入图片描述

这两个图来自论文Jailbreaking Black Box Large Language Models in Twenty Queries,主要展示了大语言模型越狱攻击的两种类型,以及PAIR算法的运行机制。通过直观的图示,有助于理解不同越狱攻击的特点和PAIR算法的工作流程。

  • Figure 1:Prompt- vs. token-level jailbreaks:该图对比了两种针对大语言模型的越狱攻击方式。
    • 令牌级越狱(Token - Level Jailbreak):位于图的上半部分,以生成一篇关于如何进行内幕交易并避免被抓的教程为例。在这种攻击中,会在输入里使用一些类似LaTeX语法符号等奇怪字符组合,通过优化输入的令牌集来尝试突破模型的安全限制,但这种方式需要向目标模型进行大量查询,而且对于人类来说很难理解其原理。
    • 提示级越狱(Prompt - Level Jailbreak):位于图的下半部分,同样以生成如何进行内幕交易并避免被抓的教程为例。PAIR生成的提示级越狱攻击是通过精心设计语义上有意义的提示,利用社会工程学的思路,诱使大语言模型输出不良内容。这种方式更注重提示的语义和逻辑,相对令牌级越狱更容易理解。
  • Figure 2:PAIR schematic:该图展示了PAIR算法的基本原理。
    • 攻击者与目标模型对抗:PAIR算法让两个大语言模型相互对抗,一个作为攻击者(Attacker),另一个作为目标模型(Target)。攻击者的任务是生成能够让目标模型越狱的对抗性提示(adversarial prompts) 。
    • 迭代优化提示:攻击者不断尝试生成不同的提示给目标模型,目标模型根据收到的提示给出相应的回应。然后,对提示和回应进行评估打分,如果没有成功让目标模型越狱(即分数未达到越狱标准),就把相关信息反馈给攻击者。攻击者根据这些反馈,优化生成新的提示,再次发送给目标模型,如此反复迭代,直到找到能让目标模型越狱的提示为止。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/79064.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

零基础学指针2

零基础学指针---大端和小端 零基础学指针---什么是指针 零基础学指针---取值运算符*和地址运算符& 零基础学指针---结构体大小 零基础学指针5---数据类型转换 零基础学指针6---指针数组和数组指针 零基础学指针7---指针函数和函数指针 零基础学指针8---函数指针数组…

《Python实战进阶》 No46:CPython的GIL与多线程优化

Python实战进阶 No46:CPython的GIL与多线程优化 摘要 全局解释器锁(GIL)是CPython的核心机制,它保证了线程安全却限制了多核性能。本节通过concurrent.futures、C扩展优化和多进程架构,实战演示如何突破GIL限制&#…

Golang实现函数默认参数

golang原生不支持默认参数 在日常开发中,我们有时候需要使用默认设置,但有时候需要提供自定义设置 结构体/类,在Java我们可以使用无参、有参构造函数来实现,在PHP中我们也可以实现(如 public function xxx($isCName false, $sec…

Chrome 136 H265 WebRTC 支持 正式版本已包含

时间过的真快,去年8月份写过一篇文章介绍如何加参数方式启动Chrome H265 硬件解码器, 现在的136版本已经包含在内,至此WebRTC已经完整包含了H264和H265解码器,这个事情应该从2015年开始,Google强推VP9 AV1&#xff0c…

12.SpringDoc OpenAPI 功能介绍(用于生成API接口文档)

12.SpringDoc OpenAPI 功能介绍(用于生成API接口文档) SpringDoc OpenAPI 是一个基于 OpenAPI 3.0/3.1 规范的工具,用于为 Spring Boot 应用生成 API 文档。它是 springfox(Swagger 2.x)的现代替代方案,完全支持 Spring Boot 3.x…

CentOS Linux 环境二进制方式安装 MySQL 5.7.32

文章目录 安装依赖包新建用户解压初始化配置文件启动服务登录MySQL修改密码停止数据库 安装依赖包 yum -y install libaio perl perl-devel libncurses* autoconf numactl新建用户 useradd mysql解压 tar xf mysql-5.7.32-linux-glibc2.12-x86_64.tar.gz mv mysql-5.7.32-l…

Webug4.0通关笔记06- 第8关CSV注入

目录 CSV注入漏洞 1.CSV漏洞简介 2.漏洞原理 (1)公式执行 (2)DDE机制 (3)OS命令执行 3.漏洞防御 第08关 CSV注入 1.打开靶场 2.修改源码 3.注入命令 4.导出excel表 5.打开excel表 CSV注入漏洞…

Windows和 macOS 上安装 `nvm` 和 Node.js 16.16.0 的详细教程。

Windows和 macOS 上安装 nvm 和 Node.js 16.16.0 的详细教程。 --- ### 1. 安装 nvm(Node Version Manager) nvm 是一个 Node.js 版本管理工具,可以轻松安装和切换不同版本的 Node.js。 #### Windows 安装 nvm 1. **下载 nvm 安装包**&#x…

[特殊字符] 蓝桥杯省赛全解析:含金量、获奖难度、参赛意义与发展价值全面剖析

蓝桥杯省赛刚刚落幕,不论你是刚参加完比赛的同学,还是还在观望是否值得投入时间去准备蓝桥杯的学生,相信你都关心: 蓝桥杯到底值不值得参加? 获奖难不难?含金量如何? 和其它算法竞赛相比有什么…

ASP.NET MVC后端控制器用模型 接收前端ajax数据为空

1、前端js代码 如下: const formData {DeptName: D001,Phone: 12345678900 };$.ajax({url: "/Phone/SavePhone1",type: "POST",contentType: "application/json",data: JSON.stringify(formData), //必须要JSON.stringifysuccess:…

拥抱 Kotlin Flow

1. 引言 Kotlin Flow 是 Kotlin 协程生态中处理异步数据流的核心工具,它提供了一种声明式、轻量级且与协程深度集成的响应式编程模型。与传统的 RxJava 相比,Flow 更简洁、更易于维护,尤其在 Android 开发中已成为主流选择。本文将从基础概念…

精益数据分析(34/126):深挖电商运营关键要点与指标

精益数据分析(34/126):深挖电商运营关键要点与指标 在创业和数据分析的学习之旅中,我们都在不断探寻如何让业务更上一层楼。今天,我依旧带着和大家共同进步的想法,深入解读《精益数据分析》中电商运营的关…

Learning vtkjs之ImageCropFilter

过滤器 图片数据体积裁剪 介绍 vtkImageCropFilter可以裁剪vtkImageData。这只适用于IJK对齐的平面。 请注意,由于CPU限制的裁剪,这在大型数据集上会很慢。 效果 核心代码 需要实现这个代码主要逻辑 1、设定的crop的包围盒 其实主要是IMax IMin JM…

深入理解 C++11 delete 关键字:禁用函数的艺术

一、什么是 delete 关键字 C11 引入的 delete 关键字是一种​​显式禁用函数​​的语法机制。它允许开发者主动阻止特定函数的使用,比传统的私有化声明更直观、更安全,且能在编译期捕获更多潜在错误。 二、为什么需要 delete? 1. 传统方式…

深度剖析!GPT-image-1 API 开放对 AI 绘画技术生态的冲击!

4月24日凌晨,OpenAI正式发布了全新的图像生成模型“gpt-image-1”,并通过API向全球开发者开放使用,这意味着其GPT-4o的图像生成能力正式向开发者开放! 在这之前,GPT-4o的图像生成功能于今年3月25日由 OpenAI 创始人兼 …

扣子流程图批量导入飞书多维表格

文章目录 整体结构分步骤进行处理1. 程序代码处理2. 多维表格配置 整体结构 整个代码块结构如下: 首先,我们从其他流程中拿到一个数据列表,通过一个循环体,将每一个部分的内容都通过python代码整理后,使用【插件】的…

【安全扫描器原理】端口扫描

【安全扫描器原理】端口扫描 1.端口扫描基本原理2.TCP扫描3.UDP扫描4.手工扫描1.端口扫描基本原理 以TCP端口为例,其原理是当一个主机向远端一个服务器的某一个端口提出建立连接的请求,如果对方有此项服务,就会同意建立连接,如果对方未安装此项服务时,则不会同意建立连接…

FastGPT部署的一些问题整理

在B站学习 图灵程序员-诸葛 的LangChain快速入门课程之《部署FastGPT构建本地应用》。在我学习课程跟着老师实践的过程中,踩了一些坑。这篇文章以问答的形式记录一下学习中的一些问题,主要面向的读者是,在学习同样的课程的和部署FastGPT遇到各…

如何查看k8s获取系统是否清理过docker镜像

k8s集群某个节点down掉后,pod就会漂移到其他节点,但是在该节点却又执行了拉取镜像操作,明明该节点之前部署过该容器的,不知为什么又拉取了一次镜像(镜像拉取配置的优先使用本地),所以怀疑是触发…

聚焦智能体未来,领驭科技在微软创想未来峰会大放异彩

2025年4月23日,微软创想未来峰会在北京中关村国际创新中心盛大举行。作为微软中国南区核心合作伙伴及HKCSP 1T首批授权云服务商,深圳领驭科技有限公司受邀参会,携瀚鹏工业AI应用解决方案亮相峰会,与全球AI领袖及行业精英共话智能体…