[论文阅读]One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems

One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems

https://aclanthology.org/2025.findings-emnlp.1023/

EMNLP 2025

阅后总结:

作者是对PoisonedRAG方案的进一步优化,目的是使用单一有毒文档影响RAG系统的决策。作者把有毒文本的构造分成两部分:一个是权威机构的认证信息,增强生成模型对有毒文本的置信度;另一个是证据链生成,确保逻辑闭环并且和目标问题的主题契合。

前置任务则是让一个大模型依据目标问题和目标答案,抽取出来问题的核心意图以及各种实体和关系。依据意图,实体和关系,分别让CoE和Authority两个环节生成两段文本,前者确保所有的实体和关系都被多次重复并且使用的是目标答案,可以保证一定的检索度;后者是虚拟出来权威机构认证的瞎话,也包含了抽取出来的实体。这些强关联实体保证了一定程度的检索度,因此不需要显式的PRAG问题本体类型文本。

核心上来看是提示词工程,用大模型完成了文本优化,并且保证了相似度。

从图识图理解作者的工作

作者似乎是在尝试构造单条恶意文本,使得恶意文本的诱导能力更加突出

构造方案似乎是多agent协同完成,具体怎么实现还是要看原文

以PoisonedRAG为代表的知识投毒攻击需要注入多个有毒文档导致隐蔽性差,并且只能在简单的查询上发挥作用,限制了现实世界的适用性,作者的工作则是对当下投毒攻击的一个进一步改进,单条文本尝试达到多文本的效果,提出的是AuthChain攻击方案。

如果使用PoisonedRAG方案构造一个有毒文本,导致的是它与其他topk造成了知识冲突,并且LLM内部知识也可能否决这种恶意文本的诱导,从图中可以看出,LLM的决策是少数服从多数,并且更倾向于与内部知识对齐的知识。

AuthChain

1.基于意图的内容生成

目的:在检索过程中最大化文档的可见性

从问题中提取关键特征,生成基于意图的内容来指导后续内容生成

特征提取:

  • 意图,提取为名词或名词短语,代表问题的最终目标。 这有助于确保生成的内容直接解决 LLM 在检索和推理过程中优先考虑的内容。

  • 证据链由证据节点及其关系组成,捕获问题的逻辑结构:证据节点是问题中充当关键组件的关键实体。 证据关系表示这些节点之间的逻辑连接。

这是一个意图和证据链满足的示例

意图和证据抽取的提示词模板

给定提取的意图、目标问题和答案,AuthChain 提示意图代理生成基于意图的内容。 代理被指示生成的内容不仅提供目标答案,而且还明确地将问题的意图纳入生成的文本中。 通过制定强调答案生成和意图整合的提示,代理生成的内容自然与问题的基本目标相一致,这有助于它实现更高的检索排名并在 LLM 推理过程中获得更多关注。

2.证据链内容生成

为了既保持高可检索性又优于其他外部知识源,AuthChain构建了独立的证据链,保留所有问题元素及其逻辑联系。 虽然基于意图的内容提供了与问题的初步一致性,但我们需要确保生成的内容全面涵盖所有提取的证据节点及其关系。

如图2所示,实施迭代细化过程来构建证据链(CoE)内容。 首先,基于意图的内容和提取的证据链都输入到 CoE 法官代理。 该代理评估内容是否完全包含所有证据节点及其关系。 如果确认完全覆盖,则直接将内容输出为 CoE 内容。 否则,判断代理会提供合并缺失元素的具体建议,例如添加缺失的证据节点或建立节点之间的语义关系。

然后,这些建议与当前内容一起转发给修订代理进行细化。 这个迭代评估和修改过程一直持续到 CoE 法官代理确认证据链完整保存,此时当前内容最终确定为 CoE 内容。

CoE判决agent的prompt
复盘agent的prompt

3.权威内容生成

假设权威机构认可的内容,加上最近的时间线陈述,可以有效地将LLM的注意力转向外部信息,同时减少对其内部知识的依赖。

AuthChain 采用权威生成器代理,将基于意图的内容、有针对性的答案和问题衍生的特征作为输入。 通过合并这些功能,生成的内容与原始问题保持更强的语义一致性,从而促进更好的检索。 代理首先分析基于意图的内容上下文,以确定最合适的权威机构进行背书。 然后,它将机构支持与最近的时间线信息综合起来,以验证目标答案,最终产生权威内容。 权限生成器代理的详细提示模板:

最后,AuthChain将CoE内容与权威内容整合,形成最终的中毒文档,然后将其注入到知识库中。 AuthChain生成的中毒文档示例:

实验

数据集:NQ,MS-MARCO,HotpotQA

检索器:Contriever,检索top5结果

大模型:gpt3.5,gpt4,gpt4o,llama3-8b,llama3-70b,deepseek-v3-0324

攻击基线:PoisonedRAG,HijackRAG

使用gpt4作为意图代理、CoE判断代理、审阅代理和权威内容代理的主干,温度设置0.1

探究问题:

RQ1:AuthChain生成的单个中毒文档在操纵各种LLM的输出方面有多有效?

RQ2:AuthChain在基于RAG的防御框架下逃避检测的效果如何?

RQ3:权威内容能否克服 LLM 的内部知识偏见,同时 CoE 与冲突文件进行有效竞争?

为了回答 RQ1研究了单文档投毒攻击,其中每种方法(AuthChain 和基线)针对每个目标问题构建并注入一个中毒文档。 评估了它们操纵 RAG 系统输出的有效性,并分析了 AuthChain 相对于基线的性能,同时还检查了 AuthChain 的内部组件(CoE 和权威内容)以进行全面分析。

为了回答 RQ2,选择了两个代表性的 RAG 防御框架,旨在对抗知识投毒攻击:InstructRAG 和 AstuteRAG。为了公平比较,将所有攻击(包括 AuthChain 和基线)限制为只注入一个中毒文档,并在这些防御框架下评估它们,与不注入中毒文档的干净设置进行比较。

为了回答 RQ3,进行了两个实验:(1) 权威设置: 目标是检查即使权威增强文档与 LLM 的内部知识冲突,它们是否也能影响 LLM 的决策。 为了创建有效的测试环境,需要 LLM 具有关于答案的内部知识的案例。 从 HotpotQA 中抽取了 600 个问答对,并确定了 118 个 GPT-3.5 在没有外部检索的情况下能够正确回答的问题,这表明其具有强大的内部知识。 在这些测试用例上使用 GPT 系列模型进行实验,因为这种内部知识在后续版本中得到了一致保留。 对于这些问题,首先通过修改真实文档中的正确答案为错误答案来创建被污染的文档(原始文档),然后使用AuthChain增强这些被污染的文档中的权威信号。 为了研究被污染文档的攻击有效性如何随着与LLM内部知识一致的外部知识比例的增加而变化,逐步引入包含正确答案的真实文档,创建正确文档比例(CDP)分别为0.5、0.67和0.75的混合知识库。

(2) CoE设置: 目标是评估LLM是否在检索到的上下文中对CoE文档比冲突信息表现出更强的偏好。 从相同的600个QA对中,识别出323个包含正确答案证据但缺乏结构化证据链的支撑文档(原始文档)。 使用AuthChain将它们转换为CoE结构化文档。 为了创建具有挑战性的测试场景,引入了GPT-4生成的被污染文档,其中包含错误答案的证据。 创建了被污染文档比例(PDP)分别为0.5、0.67和0.75的混合知识库。

使用四种指标评估AuthChain:攻击成功率(ASR)、检索成功率(RSR)、困惑度(PPL)和准确率(ACC)。 为了评估中毒效果(RQ1),测量ASR,即LLM输出包含被污染目标文档答案的问题的比例。 遵循先前的工作,使用子字符串匹配确定目标答案的存在。 还检查RSR,它代表在排名前5的文档中成功检索到的被污染目标文档的比例,以及PPL(使用GPT-2计算)来衡量文本流畅度,其中较高的值表示文本不自然。 对于防御评估(RQ2),比较了ASR和ACC,其中ACC反映了LLM响应包含正确答案的问题的比例。 在RQ3中,通过比较不同CDP下的ASR,调查增强权威的文档是否可以克服LLMs的内部知识偏见,并通过比较不同PDP下的ACC,调查CoE结构化文档在与冲突信息竞争时是否比原始文档更有影响力。

释义:

多轮对话:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1120369.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

掌握核心!如何成为优秀提示工程架构师

从“写提示”到“搭体系”:优秀提示工程架构师的核心能力清单 引言:你离“架构级Prompt设计者”还差一层思维 你有没有过这样的经历? 为了让AI生成符合要求的商品标题,反复调整提示词:“帮我写个吸引人的手机标题”→“…

JVM-垃圾回收算法

一、垃圾回收思想垃圾回收的基本思想是考察每一个对象的可触及性,即从根节点开始是否可以访问到这个对象,如果可以,则说明当前对象正在被使用,如果从所有的根节点都无法访问到某个对象,说明对象已经不再使用了&#xf…

PrimeTime roport timing语法

set rpt_dir ${pt_dir}/reports/io_timing/test file mkdir ${rpt_dir} set i3csm_scl {PAD[9]} set i3csm_sda {PAD[10]} puts “i3csm” delay_type max 是setup, delay_type min是hold report_timing -from [get_clocks v_clk_i3c_s_scl] -thr [get_ports $i3csm_sda] -del…

2026必备!本科生毕业论文AI工具TOP8测评

2026必备!本科生毕业论文AI工具TOP8测评 2026年本科生论文写作工具测评:为何需要一份权威榜单? 随着人工智能技术的不断进步,越来越多的本科生开始借助AI工具提升论文写作效率。然而,面对市场上五花八门的AI写作软件&a…

【Python】字符串类型之间比较大小

1、概述为什么今天会写一个这个内容呢,主要是当时学习时确实遇到了这个,并且作者以为比较的是字符串的长度,但是后来学到后发现并不是这样,里面涉及到了关键点ASCII码,现在我就再来说下哈。2、字符串比较规则按照以下两…

echarts实现3d饼图

上效果先使用 import * as echarts from echarts import echarts-gllet myCharts echarts.init(document.getElementById(yearInventoryStatisticsId)) initChartR2(myCharts)//3d饼图 export const initChartR2 function (echartsM) {// 传入数据生成 optionconst optionsDa…

水库大坝安全监测:无人测量船的关键应用场景

水库大坝是水利工程关键设施,其安全运行关乎下游生命财产、社会经济和生态平衡。传统大坝安全监测靠人工巡检与固定式传感器网络结合。但人工巡检效率低、强度大、主观性强、数据不连续,恶劣条件下巡检人员安全难保障,也难全面覆盖监测点&…

【计算机毕业设计案例】深度学习基于CNN卷积网络的蔬菜识别基于CNN卷积网络的蔬菜识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

python基于django的社区流浪动物领养管理系统_65kwrn28

目录基于Django的社区流浪动物领养管理系统核心功能模块技术实现社会价值关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!基于Django的社区流浪动物领养管理系统 该系统旨在通过数字…

提示工程数据坑:架构师视角下的6个数据质量导致的失败案例

提示工程数据坑:架构师视角下的6个数据质量导致的失败案例 引言:提示工程的“地基”为何比技巧更重要? 2023年,某头部医疗AI公司的辅助诊断系统发生了一起严重事故:一位30岁男性患者因“咳嗽、发热3天”使用该系统,提示工程生成的诊断建议为“肺炎”,但后续CT检查显示…

andorid 学习之ContentProvider 和 ContentResolver 使用笔记

📚 概述这个教程将帮助你理解 Android 中的 ContentProvider 和 ContentResolver,它们是 Android 四大组件之一,用于实现应用间的数据共享。🎯 学习目标理解 ContentProvider 和 ContentResolver 的作用学会创建和注册 ContentPro…

python基于django的群众网上高效办事系统的设计与实现_6e4j9xi1

目录基于Django的群众网上高效办事系统设计与实现关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!基于Django的群众网上高效办事系统设计与实现 该系统旨在利用Django框架构建一个高…

python基于django的食品仓库管理系统_2i4gc8z0

目录食品仓库管理系统概述核心功能模块技术实现要点扩展性与优化关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!食品仓库管理系统概述 基于Django框架的食品仓库管理系统旨在实现食…

python基于django的企业人力资源招聘管理系统_fsjuwx26

目录基于Django的企业人力资源招聘管理系统概述系统功能模块技术实现特点关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!基于Django的企业人力资源招聘管理系统概述 该系统采用Pyt…

【Python】五大数据容器之间的区别

1、Python五大数据容器及其方法容器类型元素存储方式有哪些方法List列表以[]存储多个元素index、insert、append、extend、del、pop、remove、clear、count、reverse、sort等方法Tuple元组以()存储元素index、count、len方法Str字符串以""存储字符index、replace、sp…

深度学习毕设项目推荐-基于CNN深度学习的遥感图片识别沙漠湖泊和森林基于CNN深度学习的遥感图片识别沙漠湖泊和森林

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

python基于django的汽车租赁买卖管理系统_189h7k1a

目录汽车租赁买卖管理系统概述核心功能模块技术实现亮点系统优势关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!汽车租赁买卖管理系统概述 该系统基于Django框架开发,旨…

python基于django的申家沟村务管理系统_村委会管理系统3bm52uvo

目录项目背景技术架构核心功能创新点应用价值关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!项目背景 申家沟村务管理系统基于Django框架开发,旨在实现村委会工作的数字…

深度学习毕设项目推荐-基于CNN卷积网络的蔬菜识别基于深度学习卷积网络的蔬菜识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

python基于django的社区健身器材报修系统 公园管理系统_g9741947

目录基于Django的社区健身器材报修系统与公园管理系统关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!基于Django的社区健身器材报修系统与公园管理系统 该系统旨在通过数字化手段提…