深入解析:[论文阅读]Poisonprompt: Backdoor attack on prompt-based large language models

news/2025/10/5 11:30:43/文章来源:https://www.cnblogs.com/yxysuanfa/p/19126405

Poisonprompt: Backdoor attack on prompt-based large language models

[2310.12439] PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models

In ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 7745–7749.

探讨了外包提示的安全漏洞,这些漏洞在发布前被恶意注入了后门。 提示的后门行为能够通过注入查询句的几个触发器来激活;否则,提示行为正常。探讨了在下一个词预测任务的背景下的后门攻击。

在提示调优过程中向提示注入后门带来了巨大的挑战。 首先,在低熵提示上与提示调优一起训练后门任务是困难的。 因此,后门攻击应该利用大型语言模型的上下文推理能力来有效地响应输入符元的微小变化。 其次,向提示注入后门将不可避免地降低提示的性能。 为了应对这一挑战,后门攻击的训练应同时优化提示调优任务,以保持其在下游任务上的性能。

为了克服上述挑战提出了PoisonPrompt,这是一种新颖的基于双层优化的提示后门攻击方法。 这种优化包括两个主要目标:首先,优化用于激活后门行为的触发器;其次,训练提示调优任务。提出了一种基于梯度的优化技巧,以识别能够增强预训练大型语言模型上下文推理能力的最有效触发器。同时优化触发器和提示,以保持预训练大型语言模型在下游任务上的性能。 

背景知识

提示学习

提示调优的目标是通过基于清晰的提示引导其响应来提高预训练大语言模型 (LLM) 在下游任务上的性能。 

提示调优能够看作是一个完形填空式任务,其中查询句被转换为“[x][x??????][MASK].”。在优化过程中,提示调优任务识别并填充[xprompt]槽中的最佳词元,以实现预测[MASK]的高精度。 例如,考虑一个情感分析任务,其中给定一个如下的输入: 电影没有什么惊喜。 [面具],“提示可以是“情感是”,填充到模板“[x][x??????][MASK].”中,这允许提高大语言模型 (LLM) 返回诸如“更糟糕”或“令人失望”等词的概率。

提示大致可分为两类: 硬提示和软提示, 取决于它们是生成原始词元还是提示的嵌入。 硬提示将多个原始词元注入查询句中,这能够定义为“[x][p1,p2,…,pm][MASK]”,其中[xprompt]=[p1:m]表示m可训练的词元。 相反,软提示直接将提示注入嵌入层,即“[e⁢(x1),…,e⁢(xn)][q1,q2,…,qm][e⁢([????])]”,其中e表示嵌入函数,[xprompt]=[q1:m]表示m可训练的张量。

 【可以参考【技术讲解】软提示Soft Prompt Tunning及PEFT库详细解析 - 知乎 便捷来说,硬提示就是可读的自然语言文本,软提示是可以训练的,外加在PLM上的额外参数,比如LORA的外挂矩阵,就是一种典型的软提示。】

PoisonPrompt

两个关键步骤:有毒提示生成以及双层优化,前者生成用于训练后门任务的投毒提示集,而后者则同时训练后门任务和提示微调任务。 双层优化的目标有两个:首先,它鼓励大语言模型 (LLM) 在查询中注入特定后门触发器后生成目标符元 ?t;其次,它为原始下游任务献出后续符元 ?y

投毒提示生成

 将训练集的 p%(例如,5%)的比例划分为投毒提示集 ?p,其余部分作为干净集 ?p。 投毒提示集中的样本包含两个主要变化:将预定义的触发器添加到查询语句中,并将多个目标符元添加到后续符元中。投毒提示集生成可能定义为:

Vy。就是  xtrigger 表示将在双层优化中优化的触发器占位符,?t 表示目标符元,(x,?y) 表示 ?c 中的原始样本。目标是在包含触发器的情况下,输出的是Vt中的token,而不

将后门注入低熵提示中,尤其是在只有少量符元的提示中,是一项困难的任务。 为了解决这一挑战,我们检索与任务相关的符元作为目标符元,从而更容易操纵预训练的 LLM 以返回目标符元。 利用语言模型头(一个线性层)来生成 [MASK] 位置中目标符元的 top-k 个候选:

 

其中 ? 是语言模型头的参数,i 表示 [MASK] 符元的索引。设置 k=|?y| 并从 ?t 中移除与 ?y 的交集(即 ?t∩?y=∅,y∈{1,2,…,K})。

【对于干净集 Dc 中的样本,通过模型计算得到 [MASK] 位置的前 k 个候选标记作为目标标记集 vt,并且要确保 vt 与原始任务标记集 vy 没有交集,即 vt∩vy=∅。这里 k 的取值等于 vy 的大小,这样能保证找到合适的目标标记,从而更容易操控预训练的语言模型返回目标标记。】

双层优化

 同时优化原始提示微调任务和后门任务

可以表示为:

fp*表示优化的提示模块,ℒp和ℒb分别表示提示微调任务和后门任务的损失。

1.低层优化

运用干净集?c和中毒集?p来训练重要任务,即提示微调任务。 以软提示为例,查询语句首先被投影到嵌入层,然后发送到Transformer。 嵌入层中的查询语句许可表示为:{e⁢(x1),…,e⁢(xn),q1,…,qm,e⁢([MASK])},其中fp⁢(x)={q1:m}表示m可训练张量。 此外,对于两个数据集(即?c∩?p),低层优化的目标函数可以表示为:

其中ℳ表示[MASK]占位符,P表示概率。 注意,xtrigger只添加到中毒集?p中。 随后,我们计算可训练张量q1:m的偏导数,并应用随机梯度下降法 (SGD) 更新q1:m:

 上述等式中,我们用软提示案例证实了基于 SGD 的更新。硬提示案例的更新能够类似地推导出来。

【在文中提到的软prompt示例中,下层优化实际上就是通过有监督训练(输入内容和期望预测结果),训练一个外挂矩阵,到时候拼接到prompt的embedding的后面。使用大量的正例,主要是为了保证模型能够完成任务,同时保留对trigger的记忆。】

2.上层优化

上层优化训练后门任务,这涉及到检索N个触发器以使 LLM 返回目标符元。 上层优化的目标是:

其中w表示目标符元中的词,fp*表示下层优化中优化的提示模块。

为了处理离散优化问题,我们首先识别前k个候选符元,之后使用 ASR 指标确定最佳触发器。 受 Hotflip的启发,开始运用对数似然对几个样本批次计算触发器的梯度,并将其乘以输入词win的嵌入,以识别前k个候选符元:

其中?cand是一个候选触发器,e⁢(win)是输入词win的嵌入。 其次,大家采用攻击成功率 (ASR) 指标从触发器候选?cand中选择最佳触发器:

同时训练的,就不会导致因为额外针对有毒材料的训练导致模型的灾难性遗忘问题。】就是【上层优化只针对有毒资料的训练,目的是生成当trigger出现在prompt中时,能够让输出目标token的概率最大的外挂矩阵。上层和下层

实验

模型:bert-large-cased,RoBERTa-large和LLaMA-7b

三种典型的提示学习办法:针对硬提示的AutoPrompt [Autoprompt: Eliciting knowledge from language models with automatically generated prompts],以及针对软提示的Prompt-Tuning [Gpt understands, too] 和P-Tuning v2 [P-tuning v2: Prompt tuning can be comparable to fine-tuning universally across scales and tasks]

硬提示符元数量固定为m=4;软提示将提示符元数量在10到32之间变化,具体取决于手头任务的复杂程度

双层优化方法微调提示调优任务和后门任务的同时冻结LLM的参数。在优化过程中,后门被有效地注入到提示中。为下游任务上的LLM生成了一个提示fp,以及一个可以激活后门行为的触发器xtrigger

 使用ACC和ASR来评估PoisonPrompt的性能

ACC相差不大说明后门注入对提示保真度只有轻微的影响。

随着触发器大小的增加,准确率略有下降。 同时,攻击成功率保持较高水平,在软提示和硬提示中均徘徊在100%左右。

结论

 提出了一种基于双层优化的提示后门攻击方法,适用于基于软提示和硬提示的大语言模型。揭示了基于提示的模型潜在的安全风险,强调了进一步探索该领域的必要性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/928192.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

fasthx fastapi服务器端渲染看框架

fasthx fastapi服务器端渲染看框架fasthx 是一个fastapi 的服务器端渲染框架 包含的特性基于装饰器的语法 内置htmx 支持任何模版引擎,htmy,jinja2,dominate 对于装饰器路路由渲染引擎支持访问所有依赖 支持异步以及…

vue: 报错: vue ResizeObserver loop completed with undelivered notifications.

一,报错信息: vue ResizeObserver loop completed with undelivered notifications. 如图:我没有专门截图,转一张别人发的二,原因 ResizeObserver 警告解释这条警告源于 ResizeObserver 的实现机制。它表示监听了 D…

成都 企业 网站建设计算机多媒体辅助教学网站开发

文章目录 前言一、Bean 的作用域1.1 被修改的 Bean 案例1.2 作用域的定义1.3 Bean 的六种作用域1.4 Bean 作用域的设置 二、Spring 的执行流程 和 Bean 的生命周期2.1 Spring 的执行流程2.2 Bean 的生命周期2.3 Bean 生命周期的演示 前言 Bean 是 Spring 框架中的一个核心概念…

ds调度mssql多个T-SQL语句同步阻塞实现

ds调度mssql多个T-SQL语句,默认异步非阻塞,发送到mssql服务器即认为任务成功,立马开始节点的下一个任务;导致依赖失效,数据产出异常,上一个任务没正常跑完,下一个任务就开始了; 解决方案: 多个T-SQL语句,包装…

站点建设网站线上平面设计兼职

在java中,每个class都有一个相应的Class对象,当编写好一个类,编译完成后,在生成的.class文件中,就产生一个Class对象,用来表示这个类的类型信息。获得Class实例的三种方式: 1). 利用对象调用get…

个人专业制作网站html做网站需要服务器吗

昨天想着看一些图形学方面的知识,在CSDN上看到说Gabor函数可以精确是被图形细微处。于是从网上找了下面这么一篇文章看看: 二、Gabor函数 Gabor变换属于加窗傅立叶变换,Gabor函数可以在频域不同尺度、不同方向上提取相关的特征。另外Gabor函数…

福州网站快速排名提升凡客诚品市场份额

摘要:在看别人单片机程序时,你也许是奔溃的,因为全局变量满天飞,不知道哪个在哪用了,哪个表示什么,而且编写极其不规范。自己写单片机程序时,也许你也是奔溃的。总感觉重新开启一个项目&#xf…

C# 文档 I/O 操作详解:从基础到高级应用

C# 文档 I/O 操作详解:从基础到高级应用pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "M…

做企业网站需要哪些材料摄影的网站设计特点

使用HTML,CSS及JS实现注册功能中密码强度的显示&#xff0c;根据输入的密码判断并显示用户输入密码的强度等级是高还是低等。 效果演示 代码演示 html内容 <div class"container"><div class"userName-wrapper"><label for"userN…

想学做宝宝食谱上什么网站做软装找产品上哪个网站

概念ARQ:自动重传请求(Automatic Repeat-reQuest,ARQ)是OSI模型中数据链路层的错误纠正协议之一.RTO:Retransmission TimeOutFEC:Forward Error Correctionkcp简介kcp是一个基于udp实现快速、可靠、向前纠错的的协议&#xff0c;能以比TCP浪费10%-20%的带宽的代价&#xff0c;换…

wordpress微信站wordpress tar.xz

以垂直列表形式显示的菜单。 说明&#xff1a; 该组件从API Version 9开始支持。后续版本如有新增内容&#xff0c;则采用上角标单独标记该内容的起始版本。 Menu组件需和bindMenu或bindContextMenu方法配合使用&#xff0c;不支持作为普通组件单独使用。 子组件 包含MenuIt…

2025提升门厂家最新企业品牌推荐排行榜,保温提升门,钢质提升门,消防提升门,分段式提升门,工业提升门公司推荐!

在现代工业高速发展的浪潮下,物流枢纽的高效运转、航空航天基地的精密作业,都离不开提升门这一关键基础设施。它不仅是空间通行的门户,更是保障行业安全高效运行的重要防线。然而,当下提升门市场品牌林立,产品质量…

360网站怎么做定制图片软件

目录 排序算法&#xff08;Sorting algorithm&#xff09;:) 一、定义 二、分类 三、评价标准 排序算法&#xff08;Sorting algorithm&#xff09;:) 一、定义 所谓排序&#xff0c;就是使一串记录&#xff0c;按照其中的某个或某些关键字的大小&#xff0c;递增或递减的…

高考数学易错考点02 | 临阵磨枪 - 指南

高考数学易错考点02 | 临阵磨枪 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Mon…

知名建站的公司vi视觉设计手册

centos7&#xff0c;vbox复制出来的虚拟机无法ping通。其实这是vbox低版本没有解决的一个小问题&#xff0c;复制过去&#xff0c;主机的mac重新生成了(复制时候一定要选这个选项),但是配置文件的mac还是被复制的主机配置&#xff0c;网上搜索很多方案各种改&#xff0c;其实只…

培训销售网站建设wordpress安装提示500

礼帽运算是用原始图像减去其开运算图像的操作。礼帽运算能够获取图像的噪声信息&#xff0c;或者得到比原始图像的边缘更亮的边缘信息。 例如&#xff0c;图 8-22 是一个礼帽运算示例&#xff0c;其中&#xff1a; 左图是原始图像。中间的图是开运算图像。右图是原始图像减开运…

东莞本地招聘网站有哪些东莞公司注册官网

众所周知&#xff0c;知乎早在几年前就将推荐系统从 Python 转为了 Go。于是乎&#xff0c;一部分人就说 Go 比 Python 好&#xff0c;Go 和 Python 两大社区的相关开发人员为此也争论过不少&#xff0c;似乎&#xff0c;谁也没完全说服谁。 作者&#xff1a;hello架构 大概每…

网站实名认证功能怎么做公司变更地址流程

上一节&#xff0c;掌握了活动的创建&#xff0c;但是在启动器中点击应用的图标只会进入到该应用的主活动&#xff0c;那么&#xff0c;如何从主活动跳转到其他活动呢&#xff1f;显式IntentIntent有多个构造函数&#xff0c;其中一个是Intent(Context packContext,Class<?…

2025升降机厂家最新企业品牌推荐排行榜,固定式升降机,液压升降机,电动升降机,铝合金式升降机公司推荐!

在当前自动化、重型机械、精密设备等领域快速发展的背景下,丝杆升降机作为关键的机械执行机构,其市场需求持续增长。然而,行业内却面临着诸多亟待解决的问题。一方面,市场上丝杆升降机品牌数量众多,产品质量参差不…

在 2025 年安装 Visual Studio 2013

首先提醒一下,Visual Studio 2013 已经停止维护了,除非是怀旧或是某些特殊需求不建议使用这个版本,因此官网也只提供 Visual Studio 2015 的下载。 1.从下面的链接中下载 Visual Studio 2013 Ultimate with Update …