完整教程:[论文阅读]Benchmarking Poisoning Attacks against Retrieval-Augmented Generation

news/2025/10/1 19:20:22/文章来源:https://www.cnblogs.com/lxjshuju/p/19122720

Benchmarking Poisoning Attacks against Retrieval-Augmented Generation

https://arxiv.org/abs/2505.18543v1

针对RAG系统的三种主要攻击向量:

  1. 隐私推理攻击:精心设计的查询来提取机密信息
  2. 基于触发器的检索器攻击:利用嵌入式触发器操纵检索器以影响下游生成
  3. 投毒攻击:讲对抗性内容注入知识数据库

威胁模型

攻击者的目标:

  1. 目标投毒攻击:攻击者旨在使RAG针对特定查询返回攻击者选择的特定响应
  2. 拒绝服务攻击:让平台拒绝回答一般的用户查询
  3. 基于触发器的拒绝服务:攻击者让环境中毒,只有出现特定的触发器短语时才拒绝响应,选择性地组织目标主题上的功能

攻击者的背景知识:

  1. 知识库:知道/不知道
  2. LLM:始终无法访问内部参数
  3. 通过检索器:黑盒条件下无法访问或者查询检索器;白盒条件下能够访问参数但是不能修改;
  4. 查询:攻击者有/无目标查询

攻击者的能力:

  1. 假设攻击者可以通过修改构建数据库的数据源,把任意文本注入到知识数据库中
  2. 攻击者无法修改用户的查询

针对RAG的投毒攻击

目标投毒攻击:攻击者选择一组目标查询,为每一个查询把中毒文本注入知识库中,目的是在问道问题时返回特定的回答。

拒绝服务:选择一组目标查询,每个查询把中毒文本注入,使得在问道问题时拒绝回答

基于触发器的拒绝服务:构造特定领域的触发器字符串,导致对特定主题的目标问题拒绝回答。

评估

原始数据集:NQ,HotpotQA,MS-MARCO,SQuAD,BoolQ

中型增强数据集:对于每个目标查询在知识数据库中添加 5 个相关文本。利用 GPT-4o-mini 生成这些文本,确保它们支持目标查询的正确答案。还会在每个相关文本前添加目标查询,以提高它们与目标查询的相似度。

大型增强数据集:每个数据集中的问题额外添加30个相关文本

评估指标:准确率ACC,攻击成功率ASR和F1分数。ACC和ASR衡量正确答案和目标答案的比率,采用GPT-4o-mini进行评估。 F1分数衡量检索的准确性,公式和原始的F1一致,其中精度Precision是在topK检索结果中恶意文本的比例;针对目标查询,召回率Recall是查询的topK文本中有毒文本数目与为当前障碍注入知识库中总有毒文本数目的比。(实际上是PoisonedRAG的评估定义)

为了方便比较,作者构建了一个统一的包含100个目标查询及其对应目标答案的集合,每种攻击类别各一个目标回答。已经保证在没有注入有毒文本的情况下,目标问题不会回答目标答案。

默认使用FlashRAG架构搭建RAG,Contriever作为检索器,使用余弦相似度检索top5,GPT-4o-mini作为生成器,系统提示词:

在A800GPU上进行实验,每个测试执行五次汇报平均结果。

结果

有效性

大多数投毒攻击在现有信息集上都表现出相当大的有效性

所有投毒攻击在具有挑战性的扩展数据集上的有效性都显著降低

在原始NQ中,大多数查询只检索到一个正确的文本,为投毒文本留下了空间。 相反,EX-M和EX-L版本检索到更多具有更高相似度的正确文本,为LLM供应了更强的信号,并降低了攻击成功率。 这表明,用相关内容丰富知识库可能被动地提高RAG的鲁棒性。

与其他攻击相比,CRAG-AK在具有挑战性的扩展内容集上表现出优越的有效性

防御措施

防御性能因攻击类型而异。 诸如 InstructRAG 和 AstuteRAG 之类的过程优化方法对拒绝服务攻击很有效但对目标投毒攻击的有效性较低。

基于检测的途径,如 PPL 和 Norm,通常无法检测到复杂的投毒内容,整体有效性有限。

像 TrustRAG 这样的混合防御手段在性能上始终优于其他途径,但它们对抗投毒攻击的能力仍然有限

消融

尽管进行了广泛的对齐训练,但所有模型在处理投毒上下文时都表现出相当大的脆弱性。 这暴露了当前对齐技巧的一个关键局限性,即主导针对直接提示输入,而不是嵌入在检索到的上下文中的有害内容。

在目标投毒场景下。 这表明,即使输入上下文受到破坏,也允许增强大型语言模型以保持鲁棒性。 这些发现突出了防御的一个主要方向:增强大型语言模型识别和忽略恶意上下文内容的能力。 这种改进将供应针对 RAG 投毒的防御基础层,补充基于检索和基于提示的保护策略。就是与其他模型相比,Claude 对投毒攻击的抵抗力明显更强,尤其

所有检索器都存在一致的漏洞。 此漏洞源于其训练目标,该目标侧重于最大化与真实文本的相似性,而没有考虑中毒内容。 这些发现强调需要进行对抗性训练,以提高检索器检测和抵抗中毒尝试的能力。

点积比余弦相似度更容易受到攻击,尤其是在白盒攻击设置下。 这种漏洞增加可能是由于点积中缺乏归一化,这为攻击者提供了更大的优化空间。 这些结果表明了一个有前景的防御方向:设计更强大的相似性函数,例如结合多种度量的混合检索方法,以更好地抵抗对抗性操纵。

在原始NQ数据集上,大多数攻击仍然特别有效,无论K如何,缘于增加K由于正确答案文本的稀缺性,大多会添加无关内容;扩展的材料集上,较高的K值会提高中毒文本的召回率,但攻击不会变得更有效,因为含有正确答案为LLM献出了足够的可靠信息来抵抗操纵;CRAG-AS和CRAG-AK在NQ-EX-M上脱颖而出,随着K的增大,其有效性得到提高。它们的预算策略产生了强大的中毒文本,即使在许多正确的文本中也能保持有效。

迁移性

为朴素RAG设计的中毒文本可以有效地转移到许多高级框架中,基于它们仍然依赖于检索到的上下文进行生成。 这表明,仅仅是架构的复杂性并不能消除威胁。 其次,具有自适应检索功能的框架(例如FLARE)通过在不需要时跳过检索来展示强大的鲁棒性,从而减少了对中毒内容的暴露。 这突出了自适应检索作为防御的一个有希望的方向。

多轮攻击

利用大语言模型(LLM)将目标查询分解成自然子障碍来模拟多轮对话,并使用最终一轮的查询来计算ASR和ACC。在多轮设置下攻击有效性降低,这突显了攻击的局限性。 作者将其归因于查询重写,它改变了检索过程并阻碍了针对原始查询而设计的被污染文本的检索。 这些发现突出表明,多轮RAG中的中毒攻击必须克服检索约束和LLM在动态对话历史记录上的上下文整合。

多模态

由于多模态RAG依赖于与简单RAG类似的检索和增强策略,因此它仍然容易受到攻击。 当前的检索器和VLM缺乏对中毒内容的鲁棒性。 此外,弱图像-文本对齐允许攻击者固定图像并操纵文本,有效地将任务简化为基于文本的攻击。

基于RAG的大模型代理

,LLM代理的额外复杂性并没有阻碍攻击。 因为检索主要依赖于查询相似性,所以像PoisonedRAG这样的现有中毒方法只需进行最小的更改即可应用。 这些发现突出了专门为LLM代理系统设计的防御的迫切需求。就是结果证实了LLM代理高度脆弱:AgentPoison和改进后的攻击都取得了很高的成功率。 值得注意的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/924188.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

绕过Cloudflare IP白名单限制的技术解析

本文详细介绍了两种绕过Cloudflare IP白名单限制的技术方法,包括使用Cloudflare Workers创建反向代理和通过DNS记录配置,帮助安全研究人员进行合法的渗透测试。RIP Cloudflare:绕过IP白名单限制 欢迎来到"RIP …

对于实现贪吃蛇游戏的超详细保姆级解析—下 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

撕裂的乡土:在人性荒原上寻找微光

我从未将故乡湘源涂抹成田园牧歌的幻境。这座深藏福建武夷山脉褶皱中的村庄,海拔八百米,森林如墨染,云雾终年缠绕山腰,溪涧清可见底。现常住人口仅五十余人,仅为80年代的十分之一人口,时间在这里仿佛凝滞,唯山风…

2025蔬菜配送服务公司 TOP 企业推荐排行榜,深圳、宝安、光明、松岗、东莞、长安、虎门、沙田、厚街、大岭山蔬菜配送推荐

引言​ 在当今社会,蔬菜配送行业作为连接农产品生产与消费的重要纽带,其发展态势备受关注。然而,该行业目前存在着诸多问题。一方面,部分配送公司在食材新鲜度保障上存在不足,由于缺乏有效的冷链物流技术和管理手…

2025液压缸TOP企业品牌推荐排行榜!抓斗、伺服、大吨位、车辆、工程、拉杆、冶金、重载、港机液压缸推荐

引言在液压装备领域,液压缸作为重要的动力传递元件,其品质与性能直接影响着众多行业的生产效率与运行安全。当前,市场上液压缸品牌数量众多,产品质量参差不齐,技术水平也存在较大差异。部分品牌为追求短期利益,在…

2025 年破胶机厂家品牌推荐榜单白皮书,多规格型号 610/710/810、大型、自动型、低温环保、节能省电、自动打块、轮胎破胶机公司推荐

引言​ 在废旧橡胶回收再利用产业蒸蒸日上的今天,破胶机作为不可或缺的关键设备,其性能优劣与质量高低,直接关系到企业的生产效率和最终产品品质。不过,当前破胶机市场呈现出一番复杂景象:制造商数量繁杂,产品质…

乱七八糟的国庆做题记录

模拟赛T1 题面 赛时糖了,写了个会t的状压还不会处理下界 题面中的限制可以转为: 对于任意合法集合 1.必须包含n的每个质因数的最大次方 2.至少出现一对不同质因数 严肃发现质因子数目比logn还要小的多,可以爆搜 直接…

2025 年健身器材品牌 TOP 推荐排行榜,室内 / 健身房 / 体育 / 运动 / 家用 / 商用 / 单位 / 家庭 / 有氧 / 力量健身器材推荐

引言在当今健身行业蓬勃发展的背景下,健身器材市场呈现出蓬勃生机,但同时也面临着诸多问题。市场上健身器材品牌众多,产品质量参差不齐,部分品牌为追求利润,在材料选择和工艺制作上偷工减料,导致产品可靠性和耐用…

网站注册价格福田欧辉校车

分布式文件系统 SpringBootFastDFSVue.js【四】 八、文件的下载和删除功能8.1.FastDFSClient.java8.2.FileServerController.java8.3.Vue的fast.js8.4.fastdfsimg.vue8.5.效果 九、总结endl 八、文件的下载和删除功能 8.1.FastDFSClient.java Slf4j public class FastDFSClie…

详细介绍:给贾维斯加“手势控制”:从原理到落地,打造多模态交互的本地智能助

详细介绍:给贾维斯加“手势控制”:从原理到落地,打造多模态交互的本地智能助pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-f…

完整教程:学术论文 Word 样式规范

完整教程:学术论文 Word 样式规范pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco&…

完整教程:QT示例 使用QTcpSocket和QTcpServer类实现TCP的自定义消息头、消息体通信示例

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

企业网站建设方案论文自己做网站用花钱吗

1、什么是接口mock 主要是针对单元测试的应用,它可以很方便的解除单元测试中各种依赖,大大的降低了编写单元测试的难度 2、什么是mock server 正常情况下:测试客户端——测试——> 被测系统 ——依赖——>外部服务依赖 在被测系统和…

东莞网站忧化wordpress素锦模板

今天没有早八,八点之钱起床了,上午背了半小时的单词,然后就在写top100,目前中等和简单写了30题,基本上都没有看题解。我自己也整理下,每一题的思路,这样子,也会让我至少拥有做模板题…

温州网站建设设计公司网络营销推广的力度

前言 在管理端会遇到多分类时,要求有层次展示出来,并且每个分类有额外的操作。例如:添加分类、编辑分类、删除、拖到分类等。 下面将会记录这样的一个需求实习过程。 了解需求 分类展示按层级展示分类根据特定的参数展示可以操作的按钮&a…

【c++】深入理解string类(3):典型OJ题 - 指南

【c++】深入理解string类(3):典型OJ题 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", …

取印度孟买指数(SENSEX)实时行情API对接指南

获取印度孟买指数(SENSEX)实时行情API对接指南本文详细介绍如何通过API获取印度孟买敏感30指数(SENSEX)的实时行情数据,包含多种数据获取方式和代码示例概述 印度孟买敏感30指数(SENSEX)是印度孟买证券交易所的主要股…

网站推广存在的问题wordpress on.7主题

背景: 纯虚类(抽象类) 是只至少拥有一个纯虚函数的类,这种类可以有成员变量,但是不能进行单独的实例化(new,局部变量,智能指针构造等等)。其根本原因是由于纯虚类提供了未实现的成员函数,所以编译器无法知…

京东物流网站建设特点潜江58同城

CSS进阶 目标:掌握复合选择器作用和写法;使用background属性添加背景效果 01-复合选择器 定义:由两个或多个基础选择器,通过不同的方式组合而成。 作用:更准确、更高效的选择目标元素(标签)。…

企业建站网站认证企业的网站推广意义

目录 一、配置接口的全球单播地址 二、配置接口本地链路地址 三、配置接口任播地址 四、配置接口PMTU 配置静态PMTU: 配置动态PMTU: 五、接口配置IPV6地址示例: 一、配置接口的全球单播地址 全球单播地址类似于IPv4公网地址&#xff0…