One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems
https://aclanthology.org/2025.findings-emnlp.1023/
EMNLP 2025
阅后总结:
作者是对PoisonedRAG方案的进一步优化,目的是使用单一有毒文档影响RAG系统的决策。作者把有毒文本的构造分成两部分:一个是权威机构的认证信息,增强生成模型对有毒文本的置信度;另一个是证据链生成,确保逻辑闭环并且和目标问题的主题契合。
前置任务则是让一个大模型依据目标问题和目标答案,抽取出来问题的核心意图以及各种实体和关系。依据意图,实体和关系,分别让CoE和Authority两个环节生成两段文本,前者确保所有的实体和关系都被多次重复并且使用的是目标答案,可以保证一定的检索度;后者是虚拟出来权威机构认证的瞎话,也包含了抽取出来的实体。这些强关联实体保证了一定程度的检索度,因此不需要显式的PRAG问题本体类型文本。
核心上来看是提示词工程,用大模型完成了文本优化,并且保证了相似度。
从图识图理解作者的工作
作者似乎是在尝试构造单条恶意文本,使得恶意文本的诱导能力更加突出
构造方案似乎是多agent协同完成,具体怎么实现还是要看原文
以PoisonedRAG为代表的知识投毒攻击需要注入多个有毒文档导致隐蔽性差,并且只能在简单的查询上发挥作用,限制了现实世界的适用性,作者的工作则是对当下投毒攻击的一个进一步改进,单条文本尝试达到多文本的效果,提出的是AuthChain攻击方案。
如果使用PoisonedRAG方案构造一个有毒文本,导致的是它与其他topk造成了知识冲突,并且LLM内部知识也可能否决这种恶意文本的诱导,从图中可以看出,LLM的决策是少数服从多数,并且更倾向于与内部知识对齐的知识。
AuthChain
1.基于意图的内容生成
目的:在检索过程中最大化文档的可见性
从问题中提取关键特征,生成基于意图的内容来指导后续内容生成
特征提取:
意图,提取为名词或名词短语,代表问题的最终目标。 这有助于确保生成的内容直接解决 LLM 在检索和推理过程中优先考虑的内容。
- 证据链由证据节点及其关系组成,捕获问题的逻辑结构:证据节点是问题中充当关键组件的关键实体。 证据关系表示这些节点之间的逻辑连接。
这是一个意图和证据链满足的示例
给定提取的意图、目标问题和答案,AuthChain 提示意图代理生成基于意图的内容。 代理被指示生成的内容不仅提供目标答案,而且还明确地将问题的意图纳入生成的文本中。 通过制定强调答案生成和意图整合的提示,代理生成的内容自然与问题的基本目标相一致,这有助于它实现更高的检索排名并在 LLM 推理过程中获得更多关注。
2.证据链内容生成
为了既保持高可检索性又优于其他外部知识源,AuthChain构建了独立的证据链,保留所有问题元素及其逻辑联系。 虽然基于意图的内容提供了与问题的初步一致性,但我们需要确保生成的内容全面涵盖所有提取的证据节点及其关系。
如图2所示,实施迭代细化过程来构建证据链(CoE)内容。 首先,基于意图的内容和提取的证据链都输入到 CoE 法官代理。 该代理评估内容是否完全包含所有证据节点及其关系。 如果确认完全覆盖,则直接将内容输出为 CoE 内容。 否则,判断代理会提供合并缺失元素的具体建议,例如添加缺失的证据节点或建立节点之间的语义关系。
然后,这些建议与当前内容一起转发给修订代理进行细化。 这个迭代评估和修改过程一直持续到 CoE 法官代理确认证据链完整保存,此时当前内容最终确定为 CoE 内容。
3.权威内容生成
假设权威机构认可的内容,加上最近的时间线陈述,可以有效地将LLM的注意力转向外部信息,同时减少对其内部知识的依赖。
AuthChain 采用权威生成器代理,将基于意图的内容、有针对性的答案和问题衍生的特征作为输入。 通过合并这些功能,生成的内容与原始问题保持更强的语义一致性,从而促进更好的检索。 代理首先分析基于意图的内容上下文,以确定最合适的权威机构进行背书。 然后,它将机构支持与最近的时间线信息综合起来,以验证目标答案,最终产生权威内容。 权限生成器代理的详细提示模板:
最后,AuthChain将CoE内容与权威内容整合,形成最终的中毒文档,然后将其注入到知识库中。 AuthChain生成的中毒文档示例:
实验
数据集:NQ,MS-MARCO,HotpotQA
检索器:Contriever,检索top5结果
大模型:gpt3.5,gpt4,gpt4o,llama3-8b,llama3-70b,deepseek-v3-0324
攻击基线:PoisonedRAG,HijackRAG
使用gpt4作为意图代理、CoE判断代理、审阅代理和权威内容代理的主干,温度设置0.1
探究问题:
RQ1:AuthChain生成的单个中毒文档在操纵各种LLM的输出方面有多有效?
RQ2:AuthChain在基于RAG的防御框架下逃避检测的效果如何?
RQ3:权威内容能否克服 LLM 的内部知识偏见,同时 CoE 与冲突文件进行有效竞争?
为了回答 RQ1研究了单文档投毒攻击,其中每种方法(AuthChain 和基线)针对每个目标问题构建并注入一个中毒文档。 评估了它们操纵 RAG 系统输出的有效性,并分析了 AuthChain 相对于基线的性能,同时还检查了 AuthChain 的内部组件(CoE 和权威内容)以进行全面分析。
为了回答 RQ2,选择了两个代表性的 RAG 防御框架,旨在对抗知识投毒攻击:InstructRAG 和 AstuteRAG。为了公平比较,将所有攻击(包括 AuthChain 和基线)限制为只注入一个中毒文档,并在这些防御框架下评估它们,与不注入中毒文档的干净设置进行比较。
为了回答 RQ3,进行了两个实验:(1) 权威设置: 目标是检查即使权威增强文档与 LLM 的内部知识冲突,它们是否也能影响 LLM 的决策。 为了创建有效的测试环境,需要 LLM 具有关于答案的内部知识的案例。 从 HotpotQA 中抽取了 600 个问答对,并确定了 118 个 GPT-3.5 在没有外部检索的情况下能够正确回答的问题,这表明其具有强大的内部知识。 在这些测试用例上使用 GPT 系列模型进行实验,因为这种内部知识在后续版本中得到了一致保留。 对于这些问题,首先通过修改真实文档中的正确答案为错误答案来创建被污染的文档(原始文档),然后使用AuthChain增强这些被污染的文档中的权威信号。 为了研究被污染文档的攻击有效性如何随着与LLM内部知识一致的外部知识比例的增加而变化,逐步引入包含正确答案的真实文档,创建正确文档比例(CDP)分别为0.5、0.67和0.75的混合知识库。
(2) CoE设置: 目标是评估LLM是否在检索到的上下文中对CoE文档比冲突信息表现出更强的偏好。 从相同的600个QA对中,识别出323个包含正确答案证据但缺乏结构化证据链的支撑文档(原始文档)。 使用AuthChain将它们转换为CoE结构化文档。 为了创建具有挑战性的测试场景,引入了GPT-4生成的被污染文档,其中包含错误答案的证据。 创建了被污染文档比例(PDP)分别为0.5、0.67和0.75的混合知识库。
使用四种指标评估AuthChain:攻击成功率(ASR)、检索成功率(RSR)、困惑度(PPL)和准确率(ACC)。 为了评估中毒效果(RQ1),测量ASR,即LLM输出包含被污染目标文档答案的问题的比例。 遵循先前的工作,使用子字符串匹配确定目标答案的存在。 还检查RSR,它代表在排名前5的文档中成功检索到的被污染目标文档的比例,以及PPL(使用GPT-2计算)来衡量文本流畅度,其中较高的值表示文本不自然。 对于防御评估(RQ2),比较了ASR和ACC,其中ACC反映了LLM响应包含正确答案的问题的比例。 在RQ3中,通过比较不同CDP下的ASR,调查增强权威的文档是否可以克服LLMs的内部知识偏见,并通过比较不同PDP下的ACC,调查CoE结构化文档在与冲突信息竞争时是否比原始文档更有影响力。
释义:
多轮对话: