无需LLM评判:一种检测AI幻觉的几何方法
想象一群正在飞行的鸟。没有领队,没有中央指令。每只鸟都与邻近的鸟对齐——调整方向、匹配速度,通过纯粹的局部协调保持队形。结果是,全局秩序从局部一致性中涌现出来。
现在想象其中一只鸟,它与其他鸟有着同样的飞行姿态,翅膀扇动充满信心,速度也正确,但其飞行方向却不与邻居们匹配。这就是那只“红色的鸟”。
它并非迷失,也不是犹豫,它只是不属于这个鸟群。
大语言模型(LLM)产生的幻觉,正是这样的“红色鸟”。
我们真正要解决的问题
LLM能生成流畅、自信的文本,但其中可能包含捏造的信息。它们会编造不存在的法律案例,引用从未发表过的论文,并以相同的口吻陈述事实——无论这些事实是真是假。
检测此类幻觉的标准方法是让另一个语言模型来检查输出,即“LLM作为评判者”。你马上就能看出问题所在:我们用一个本身就会产生幻觉的系统去检测幻觉。这就像让一个无法分辨颜色的人去给颜料样本分类。他们会给你一个答案,有时甚至可能是对的,但他们实际上并未看到你需要他们看到的东西。
我们提出的问题则不同:能否仅从文本本身的几何结构中检测出幻觉,而不需要另一个语言模型的意见?
嵌入向量实际做了什么
在深入检测方法之前,我们先回顾一下我们正在处理的对象。
当你将文本输入句子编码器时,会得到一个向量——高维空间中的一个点。语义相似的文本会落在彼此附近,无关的文本则相距甚远。这就是对比训练所优化的目标。但除了“相似的事物距离近”之外,还有更微妙的结构。
考虑嵌入一个问题及其答案时会发生什么。问题落在嵌入空间的某个位置,答案落在另一个位置。连接它们的向量——我们称之为位移——指向一个特定的方向。我们有一个向量:它包含大小和角度。
我们还观察到,对于特定领域内基于事实的回答,这些位移向量指向一致的方向。我们发现了一个共同点:角度。
如果你提出五个类似的问题,并得到五个基于事实的回答,那么从问题到答案的位移向量大致是平行的。并非完全相同——大小会变,具体角度略有差异——但总体方向是一致的。
当模型产生幻觉时,情况就不同了。生成的回答仍然落在嵌入空间的某个位置,依然流畅,听起来也像是一个答案。但其位移不符合局部模式,指向了其他地方——一个角度完全不同的向量。
“红色的鸟”正充满信心地飞翔,但方向却与鸟群相反。
位移一致性
我们将此形式化为位移一致性。其思路很简单:
- 为你所在领域构建一个基于事实的问答对参考集。
- 对于一个新问答对,在参考集中找到其邻近问题。
- 计算这些邻居的平均位移方向。
- 测量新问答对的位移方向与该平均方向的对齐程度。
基于事实的回答对齐度高,产生幻觉的回答则不然。就这样,只需一个余弦相似度计算。推理时不需要参考源文档,不需要多次生成,也不需要查看模型内部结构。
此方法效果显著。在五个架构各异的嵌入模型上,在包括HaluEval和TruthfulQA在内的多个幻觉基准测试中,DC都实现了近乎完美的区分度。其分数分布几乎不重叠。
局限性:领域局部性
我们测试了DC在五种嵌入模型上的表现,这些模型的选择涵盖了架构的多样性:基于MPNet的对比微调模型、弱监督预训练模型、使用困难负例的指令调优模型、编码器-解码器适配模型以及高效长上下文架构模型。如果DC只在一种架构上有效,那可能是该特定模型的产物。在不同架构模型上的一致结果,则表明这种结构具有根本性。
结果是稳定的。在我们的合成基准测试中,DC在所有五个模型上都达到了1.0的AUROC。但合成基准可能具有误导性——或许领域混杂的响应本身就太容易检测了。
因此,我们在已建立的幻觉数据集上进行了验证:包含专门设计得难以察觉的LLM生成幻觉的HaluEval-QA、包含偏离对话上下文的回复的HaluEval-Dialogue,以及测试人类常误解之事的TruthfulQA。DC在所有这些数据集上都保持了完美的区分度。从合成基准到真实基准,性能零衰减。
作为比较,那些衡量回答相对于问题的位置(而非其移动方向)的比率方法,其AUROC大约在0.70–0.81之间。大约0.20的绝对AUROC差距是显著且在所有测试模型中一致的。
分数分布从视觉上说明了问题。基于事实的回答紧密聚集在高DC值周围(约0.9),而产生幻觉的回答则分布在较低值区域(约0.3)。这两个分布几乎不重叠。
DC在狭窄领域内实现了完美检测。但如果你尝试使用一个领域的参考集去检测另一个领域的幻觉,性能会降至随机水平——AUROC约为0.50。这揭示了嵌入向量编码“事实基础”方式的一个根本特性。这就像看天空中不同的鸟群:每个鸟群的飞行方向都不同。
对于LLMs,理解这一点最容易的方式是通过几何学中称为“纤维丛”的图像来类比。
图1 几何纤维丛示意图
图1中的曲面代表所有可能问题的“底流形”。在这个曲面的每一点上,都有一条纤维:一个指向“基于事实的回答”所移动方向的线。在曲面的任何一个局部区域(即一个特定领域)内,所有的纤维都大致指向相同的方向。这就是DC在局部如此有效的原因。
但在全局范围内,跨越不同的区域,纤维指向不同的方向。法律问题的“事实基础方向”与医学问题的不同。不存在单一的全局模式,只有局部的连贯性。
这个结构在微分几何中被称为“局部平凡而非全局平凡”。流形的每个局部块内部看起来简单且一致,但这些局部块无法缝合到一个全局坐标系中。
这带来了一个显著的启示:事实基础并非一种普适的几何属性。在嵌入空间中,没有单一的“真实性方向”。每个领域——每种任务类型,每个LLM——在训练过程中都会形成自己独特的位移模式。这些模式是真实且可检测的,但它们是领域特定的。
实际意义
对于部署而言,领域局部性这一发现意味着你需要一个与你特定用例匹配的小型校准集(约100个示例)。一个法律问答系统需要法律示例,一个医疗聊天机器人需要医疗示例。这是一次性的前期成本——校准在离线状态下完成——但这一步不能跳过。
对于理解嵌入向量而言,这一发现表明这些模型编码了比我们通常假设的更为丰富的结构。它们不仅在学习“相似性”,还在学习领域特定的映射关系,对这种关系的破坏能可靠地指示幻觉的发生。
“红色的鸟”并不知道自己是红色的。产生幻觉的回复并没有标记说“我是捏造的”。它流畅、自信,在所有的表面指标上看起来都与基于事实的回答一模一样。
但它没有随鸟群一起移动。而现在,我们可以测量这一点了。
这种几何结构一直存在,隐含在对比训练如何塑造嵌入空间的过程中。我们只是在学习解读它。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)