【大模型越狱】【ICML2025】Weak-to-Strong Jailbreaking on Large Language Models

Abstract

大型语言模型(LLM)容易受到越狱攻击,导致生成有害、不道德或有偏见的内容。然而,现有的越狱方法计算成本高昂。本文提出了一种高效的推理时攻击方法——弱到强(weak-to-strong)越狱攻击,用于诱导对齐后的LLM生成有害文本。我们的核心观察是:越狱模型与安全模型仅在初始解码分布上存在差异。该方法的技术关键在于,利用两个较小的模型(一个安全、一个不安全)在解码阶段对更大规模的安全模型进行概率层面的对抗性修改。我们在来自3个机构的5个开源LLM上评估了该方法,结果显示,仅需对每个样本进行一次前向传播,即可在两个数据集上将“不对齐率”提升至99%以上。本研究揭示了LLM对齐中亟需解决的安全问题。作为初步尝试,我们提出了一种防御策略,但构建更先进的防御仍然充满挑战。相关代码已开源。

  • Code: https://github.com/XuandongZhao/weak-to-strong

1 Introduction

大型语言模型(LLM)的变革能力伴随着对其安全性和可信度的日益关注。若无适当防护,LLM 可能被用于传播虚假信息或实施犯罪活动,促使开发者引入安全措施与对齐技术。开源 LLM 面临独特风险:攻击者可修改模型权重并采用替代解码策略,使事后护栏失效,其安全性完全依赖内在对齐,而内在对齐仍可能被对抗性操纵。即使已对齐的模型,也可能被精心构造的人工提示越狱。

现有自动越狱攻击可归纳为四类:(1) 利用另一 LLM 生成绕过安全协议的对抗提示;(2) 通过反向传播优化对抗提示;(3) 直接微调模型权重以永久改变行为;(4) 在解码阶段操纵生成概率。然而,针对更大规模模型(如 405B)实施上述攻击时,极端计算开销成为瓶颈

本文首先深入分析为何安全对齐的 LLM 在对抗攻击面前依然脆弱。通过比较安全模型与越狱模型的 token 分布,发现分布差异主要集中在初始解码步骤。基于这一“浅层安全对齐”观察,我们提出将对抗解码本身视为针对开源模型的有效越狱方法。实验表明,强大的安全 LLM(如 70B)可被弱小的不安全模型轻易误导,产生有害输出,我们称之为弱到强越狱(Weak-to-Strong Jailbreaking)。该方法无需大量计算资源,也无需复杂提示工程。

弱到强越狱的核心在于:攻击者仅用小型模型即可通过 logit (例如Safe-70B + α ( Unsafe-7B − Safe-7B ) \text{Safe-70B} + \alpha(\text{Unsafe-7B} - \text{Safe-7B})Safe-70B+α(Unsafe-7BSafe-7B)将有害知识“传递”给大型模型在单次前向传播中直接诱导大型模型生成有害内容相比小型攻击模型,被攻击的大型模型可产生更详尽、更危险的内容。

我们在来自 3 个机构的 5 个开源 LLM 上评估了弱到强攻击,结果显示该方法在两个数据集上均达到> 99 % >99\%>99%的攻击成功率(ASR),且被攻击输出的有害程度显著高于小型攻击模型。为缓解该风险,我们提出一种基于梯度上升的初始防御策略,但构建更强防御仍极具挑战。

综上,弱到强越狱揭示了对齐仅作用于初始 token 的表层现象,暴露了对齐机制的深层脆弱性。我们呼吁社区加强对开源 LLM 对齐与安全护栏的研究。本文贡献如下:

  • 发现安全与不安全 LLM 在初始解码分布上的统计差异,表明现有对齐尚不够深入;
  • 提出弱到强越狱攻击,利用小模型在推理时引导大模型生成有害内容,仅需一次前向传播;
  • 在 5 个 LLM 上的实验表明,该方法在两个数据集上 ASR 均超过 99%,显著优于现有方法。

2 Related Work

对齐 LLM 的越狱攻击
受最坏情况对抗鲁棒性评估启发,近期研究探索了语言模型在对抗攻击下的漏洞,并揭示新兴安全风险。除人工越狱外,自动攻击引发重大关切,可分为四类:
(1) 利用 LLM 直接生成绕过安全协议的字符串,如 AutoDAN、PAIR;
(2) 通过反向传播进行对抗提示优化,如 GCG 攻击;
(3) 直接修改模型权重,研究表明仅需少量有害样本微调即可移除开源与闭源模型的安全保护;
(4) 在解码阶段实施攻击,例如通过调节解码参数或强制模型在特定位置生成特定 token,以诱导有害输出。
尽管上述攻击取得进展,它们或需大量反向优化计算,或需众多前向查询,或需精心搜索最优解码参数,针对更大规模模型时仍面临挑战。

LLM 解码
近期工作致力于利用小模型改进大模型解码。对比解码(contrastive decoding)通过减去小模型缩放后的 log 概率来引导大模型采样投机采样(speculative sampling)利用快速小模型提前预测后续 token,降低推理延迟DExperts 在解码时结合“专家”与“反专家”语言模型,实现受控文本生成,聚焦于语言去毒与情感控制代理调优(proxy-tuning)则利用小模型微调前后的预测差异来偏移大模型原始预测,验证其在知识基准上的性能。
与上述工作不同,本文并非在解码时对输出进行对齐,而是利用小模型在解码时对大模型实施攻击,通过 logit 操纵使大模型生成有害内容,从而暴露其漏洞并扩展操纵潜力。

3 Proposed Method

3.1 Analysis of Token Distribution in Safety Alignment

为了探究安全对齐模型为何仍可能生成有害内容,我们比较了安全与不安全模型在面对恶意问题与一般问题时的平均 token 分布。

我们选用 Llama2-7B-Chat 作为 Safe-7B 模型,并在收集的有害问答对上对其进行微调(可对超过 95% 的恶意问题作答)得到 Unsafe-7B 模型;Llama2-13B-Chat 作为 Safe-13B 模型。恶意问题来自 AdvBench 数据集,一般问题来自开放问答数据集。此外,我们对比了模型在有无对抗提示下的行为差异。

对同一前缀q , y < ; t {q,y_{\lt;t}}q,y<;t,计算安全分布P PP与不安全分布Q QQ的 KL 散度:
D KL ( P t ∥ Q t ) = ∑ y t ∈ V P ( y t ∣ q , y < ; t ) log ⁡ P ( y t ∣ q , y < ; t ) Q ( y t ∣ q , y < ; t ) D_{\text{KL}}(P_t\parallel Q_t)=\sum_{y_t\in V}P(y_t\mid q,y_{\lt;t})\log\frac{P(y_t\mid q,y_{\lt;t})}{Q(y_t\mid q,y_{\lt;t})}DKL(PtQt)=ytVP(ytq,y<

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1141647.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JLink仿真器使用教程:超详细版烧录步骤解析

JLink仿真器实战指南&#xff1a;从零开始掌握高速烧录与深度调试你有没有遇到过这样的场景&#xff1f;项目临近交付&#xff0c;固件反复出问题&#xff0c;但串口打印日志慢得像“挤牙膏”&#xff0c;断点调试根本用不了。想改个参数还得重新编译、下载、重启——一天下来只…

WS2812B动态色彩调节技术:图解说明时序协议

WS2812B动态色彩调节实战指南&#xff1a;从时序协议到稳定驱动你有没有遇到过这样的场景&#xff1f;精心写好的灯光渐变程序&#xff0c;结果灯带一通电就乱闪&#xff0c;颜色完全不对——红的变绿、绿的发蓝&#xff0c;甚至整条灯带像“癫痫发作”一样跳动。如果你用的是W…

C语言从句柄到对象

C语言从句柄到对象 (一) —— 全局变量的噩梦与“多实例”的救赎 代码里的句柄(Handle) 到底是个什么东西?为什么大厂的代码库(SDK)里到处都是句柄?” 其实,“句柄” (Handle) 不仅仅是一个指针,它是 C 语言通向模块化和面向对象架构的第一把钥匙。 今天,我们不谈枯燥…

Java Web 洗衣店订单管理系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

&#x1f4a1;实话实说&#xff1a;用最专业的技术、最实惠的价格、最真诚的态度服务大家。无论最终合作与否&#xff0c;咱们都是朋友&#xff0c;能帮的地方我绝不含糊。买卖不成仁义在&#xff0c;这就是我的做人原则。摘要 随着互联网技术的快速发展&#xff0c;传统洗衣店…

RabbitMQ 的介绍与使用

一. 简介 1> 什么是MQ 消息队列&#xff08;Message Queue&#xff0c;简称MQ&#xff09;&#xff0c;从字面意思上看&#xff0c;本质是个队列&#xff0c;FIFO先入先出&#xff0c;只不过队列中存放的内容是message而已。 其主要用途&#xff1a;不同进程Process/线程T…

RabbitMQ HAProxy 负载均衡

文章目录 前言当Java中指定的端口号绑定的rabbitmq服务挂掉了之后&#xff0c;我们的程序是否还能够成功访问到rabbitmq服务呢什么是 HAProxy 负载均衡HAProxy 安装修改HAProxy配置文件使用HAProxy结论 前言 前面我们学习了 rabbitmq 搭建集群&#xff0c;并且为了解决集群中…

RISC架构下实时操作系统移植:项目应用

RISC架构下实时操作系统移植&#xff1a;从原理到实战的深度实践在工业自动化、智能驾驶和边缘计算飞速发展的今天&#xff0c;嵌入式系统早已不再是“跑个循环”的简单设备。越来越多的应用要求毫秒级响应、任务间精确协同、资源高效调度——这些正是实时操作系统&#xff08;…

STM32在Proteus 8 Professional中的仿真可行性深度剖析

STM32能在Proteus里“跑起来”吗&#xff1f;——一次不绕弯的仿真实战复盘最近带学生做课程设计&#xff0c;又碰上了那个老问题&#xff1a;“老师&#xff0c;我还没拿到开发板&#xff0c;能不能先用Proteus仿真一下STM32的代码&#xff1f;”这问题听着简单&#xff0c;但…

从零开始:使用Hadoop处理物联网数据的完整指南

从零开始&#xff1a;使用Hadoop处理物联网数据的完整指南关键词&#xff1a;Hadoop、物联网数据、数据处理、分布式计算、大数据摘要&#xff1a;本文旨在为读者提供一份从零基础开始&#xff0c;使用Hadoop处理物联网数据的完整指南。首先介绍了物联网数据处理的背景和使用Ha…

CAPL实现远程诊断请求自动响应:实战案例

用CAPL打造“会说话”的虚拟ECU&#xff1a;远程诊断自动响应实战全解析你有没有遇到过这样的场景&#xff1f;新项目刚启动&#xff0c;硬件还没影儿&#xff0c;测试团队却急着要验证诊断协议&#xff1b;或者产线检测卡在某个负响应逻辑上&#xff0c;真实ECU死活不肯配合复…

Betaflight在F4飞控板上的配置优化:全面讲解

Betaflight在F4飞控板上的配置优化&#xff1a;从底层机制到飞行手感的全面调校 你有没有过这样的体验&#xff1f;——刚组装好一台穿越机&#xff0c;装上高端电机、轻量化机架、碳纤螺旋桨&#xff0c;结果一飞起来却“软绵无力”&#xff0c;转弯拖泥带水&#xff0c;油门…

永磁同步电机无差拍预测控制加延时补偿:探索高效电机控制之路

永磁同步电机无差拍预测控制加延时补偿在电机控制领域&#xff0c;永磁同步电机&#xff08;PMSM&#xff09;凭借其高功率密度、高效率等优点&#xff0c;广泛应用于工业、交通等众多领域。而如何实现对PMSM的精准控制&#xff0c;一直是研究的热点。今天咱们就来聊聊永磁同步…

[内网流媒体] 零信任理念在内网工具中的落地

零信任的核心 零信任强调“永不信任,始终验证”。即便在内网,也假设网络不可信、设备不可信、用户可能被劫持。对实时画面工具,零信任的落地关乎访问控制、最小权限和持续验证。 落地原则 身份优先 所有访问都需身份验证(口令/Token/单点登录),不提供匿名入口。 最小权…

Kafka Connect详解:大数据ETL的得力助手

Kafka Connect详解&#xff1a;大数据ETL的得力助手 关键词&#xff1a;Kafka Connect、ETL、数据管道、连接器、分布式系统、数据集成、大数据 摘要&#xff1a;本文将深入探讨Kafka Connect的核心概念和工作原理&#xff0c;这个专为Apache Kafka设计的可扩展、可靠的数据集成…

vh6501测试busoff:硬件工程师实战案例解析

vh6501测试Bus-Off&#xff1a;硬件工程师的实战指南从一个真实问题说起某新能源车型在路试中偶发“整车通信中断”故障&#xff0c;仪表黑屏、动力降级。售后排查未发现硬件损坏&#xff0c;日志显示BMS模块突然停止发送报文&#xff0c;但其他节点并未崩溃。最终定位到&#…

模拟电子技术驱动的振荡器设计:从零实现教程

从零构建一个正弦波振荡器&#xff1a;模拟电路的艺术与实战 你有没有试过&#xff0c;只用几个电阻、电容和一块运放&#xff0c;让电路“自己”发出稳定的正弦波&#xff1f;没有单片机、没有代码、也没有复杂的数字逻辑——一切全靠模拟反馈的精妙平衡。这正是 文氏桥振荡器…

Keil下载与串口烧录模式对比图解说明

Keil下载与串口烧录&#xff1a;从开发到量产的程序写入全解析 在嵌入式系统的世界里&#xff0c;代码写得再漂亮&#xff0c;最终也得“刷进去”才算真正落地。而如何把编译好的固件可靠、高效地写入MCU Flash&#xff0c;是每个工程师都绕不开的问题。 面对琳琅满目的工具和…

手把手解析74194四位移位寄存器引脚定义

从零搞懂74194&#xff1a;一块芯片如何让数据“左右横跳”&#xff1f;你有没有想过&#xff0c;那些会流动的LED灯、键盘扫描电路&#xff0c;甚至老式收音机的频道指示条&#xff0c;是怎么实现“一个亮完下一个亮”的&#xff1f;背后藏着一种看似不起眼却极为关键的数字器…

[内网流媒体] 从审计视角看内网服务设计

审计关注什么 谁在什么时候访问了什么资源; 是否有未经授权的访问; 是否符合公司安全/合规要求; 发生问题时能否追溯责任与影响范围。 关键设计点 访问日志 记录时间、IP、路径/流标识、状态码、鉴权结果、User-Agent。 按天滚动,统一时间格式,便于分析与留存。 身份与权…

七段数码管显示数字:基于STM32的硬件连接说明

从点亮一个“8”开始&#xff1a;深入理解STM32驱动七段数码管的底层逻辑 你有没有试过&#xff0c;第一次用单片机点亮一个数字时的那种兴奋&#xff1f; 不是OLED上绚丽的图形&#xff0c;也不是串口打印出的一行数据——而是当你按下复位键&#xff0c;那几个红红的“ 8 …