无需LLM评判,用几何方法检测AI幻觉

无需LLM评判:一种检测AI幻觉的几何方法

想象一群正在飞行的鸟。没有领队,没有中央指令。每只鸟都与邻近的鸟对齐——调整方向、匹配速度,通过纯粹的局部协调保持队形。结果是,全局秩序从局部一致性中涌现出来。

现在想象其中一只鸟,它与其他鸟有着同样的飞行姿态,翅膀扇动充满信心,速度也正确,但其飞行方向却不与邻居们匹配。这就是那只“红色的鸟”。

它并非迷失,也不是犹豫,它只是不属于这个鸟群。

大语言模型(LLM)产生的幻觉,正是这样的“红色鸟”。

我们真正要解决的问题

LLM能生成流畅、自信的文本,但其中可能包含捏造的信息。它们会编造不存在的法律案例,引用从未发表过的论文,并以相同的口吻陈述事实——无论这些事实是真是假。

检测此类幻觉的标准方法是让另一个语言模型来检查输出,即“LLM作为评判者”。你马上就能看出问题所在:我们用一个本身就会产生幻觉的系统去检测幻觉。这就像让一个无法分辨颜色的人去给颜料样本分类。他们会给你一个答案,有时甚至可能是对的,但他们实际上并未看到你需要他们看到的东西。

我们提出的问题则不同:能否仅从文本本身的几何结构中检测出幻觉,而不需要另一个语言模型的意见?

嵌入向量实际做了什么

在深入检测方法之前,我们先回顾一下我们正在处理的对象。

当你将文本输入句子编码器时,会得到一个向量——高维空间中的一个点。语义相似的文本会落在彼此附近,无关的文本则相距甚远。这就是对比训练所优化的目标。但除了“相似的事物距离近”之外,还有更微妙的结构。

考虑嵌入一个问题及其答案时会发生什么。问题落在嵌入空间的某个位置,答案落在另一个位置。连接它们的向量——我们称之为位移——指向一个特定的方向。我们有一个向量:它包含大小和角度。

我们还观察到,对于特定领域内基于事实的回答,这些位移向量指向一致的方向。我们发现了一个共同点:角度。

如果你提出五个类似的问题,并得到五个基于事实的回答,那么从问题到答案的位移向量大致是平行的。并非完全相同——大小会变,具体角度略有差异——但总体方向是一致的。

当模型产生幻觉时,情况就不同了。生成的回答仍然落在嵌入空间的某个位置,依然流畅,听起来也像是一个答案。但其位移不符合局部模式,指向了其他地方——一个角度完全不同的向量。

“红色的鸟”正充满信心地飞翔,但方向却与鸟群相反。

位移一致性

我们将此形式化为位移一致性。其思路很简单:

  1. 为你所在领域构建一个基于事实的问答对参考集。
  2. 对于一个新问答对,在参考集中找到其邻近问题。
  3. 计算这些邻居的平均位移方向。
  4. 测量新问答对的位移方向与该平均方向的对齐程度。

基于事实的回答对齐度高,产生幻觉的回答则不然。就这样,只需一个余弦相似度计算。推理时不需要参考源文档,不需要多次生成,也不需要查看模型内部结构。

此方法效果显著。在五个架构各异的嵌入模型上,在包括HaluEval和TruthfulQA在内的多个幻觉基准测试中,DC都实现了近乎完美的区分度。其分数分布几乎不重叠。

局限性:领域局部性

我们测试了DC在五种嵌入模型上的表现,这些模型的选择涵盖了架构的多样性:基于MPNet的对比微调模型、弱监督预训练模型、使用困难负例的指令调优模型、编码器-解码器适配模型以及高效长上下文架构模型。如果DC只在一种架构上有效,那可能是该特定模型的产物。在不同架构模型上的一致结果,则表明这种结构具有根本性。

结果是稳定的。在我们的合成基准测试中,DC在所有五个模型上都达到了1.0的AUROC。但合成基准可能具有误导性——或许领域混杂的响应本身就太容易检测了。

因此,我们在已建立的幻觉数据集上进行了验证:包含专门设计得难以察觉的LLM生成幻觉的HaluEval-QA、包含偏离对话上下文的回复的HaluEval-Dialogue,以及测试人类常误解之事的TruthfulQA。DC在所有这些数据集上都保持了完美的区分度。从合成基准到真实基准,性能零衰减。

作为比较,那些衡量回答相对于问题的位置(而非其移动方向)的比率方法,其AUROC大约在0.70–0.81之间。大约0.20的绝对AUROC差距是显著且在所有测试模型中一致的。

分数分布从视觉上说明了问题。基于事实的回答紧密聚集在高DC值周围(约0.9),而产生幻觉的回答则分布在较低值区域(约0.3)。这两个分布几乎不重叠。

DC在狭窄领域内实现了完美检测。但如果你尝试使用一个领域的参考集去检测另一个领域的幻觉,性能会降至随机水平——AUROC约为0.50。这揭示了嵌入向量编码“事实基础”方式的一个根本特性。这就像看天空中不同的鸟群:每个鸟群的飞行方向都不同。

对于LLMs,理解这一点最容易的方式是通过几何学中称为“纤维丛”的图像来类比。

图1 几何纤维丛示意图

图1中的曲面代表所有可能问题的“底流形”。在这个曲面的每一点上,都有一条纤维:一个指向“基于事实的回答”所移动方向的线。在曲面的任何一个局部区域(即一个特定领域)内,所有的纤维都大致指向相同的方向。这就是DC在局部如此有效的原因。

但在全局范围内,跨越不同的区域,纤维指向不同的方向。法律问题的“事实基础方向”与医学问题的不同。不存在单一的全局模式,只有局部的连贯性。

这个结构在微分几何中被称为“局部平凡而非全局平凡”。流形的每个局部块内部看起来简单且一致,但这些局部块无法缝合到一个全局坐标系中。

这带来了一个显著的启示:事实基础并非一种普适的几何属性。在嵌入空间中,没有单一的“真实性方向”。每个领域——每种任务类型,每个LLM——在训练过程中都会形成自己独特的位移模式。这些模式是真实且可检测的,但它们是领域特定的。

实际意义

对于部署而言,领域局部性这一发现意味着你需要一个与你特定用例匹配的小型校准集(约100个示例)。一个法律问答系统需要法律示例,一个医疗聊天机器人需要医疗示例。这是一次性的前期成本——校准在离线状态下完成——但这一步不能跳过。

对于理解嵌入向量而言,这一发现表明这些模型编码了比我们通常假设的更为丰富的结构。它们不仅在学习“相似性”,还在学习领域特定的映射关系,对这种关系的破坏能可靠地指示幻觉的发生。

“红色的鸟”并不知道自己是红色的。产生幻觉的回复并没有标记说“我是捏造的”。它流畅、自信,在所有的表面指标上看起来都与基于事实的回答一模一样。

但它没有随鸟群一起移动。而现在,我们可以测量这一点了。

这种几何结构一直存在,隐含在对比训练如何塑造嵌入空间的过程中。我们只是在学习解读它。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1205498.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SpringBoot的健康管理系统的实现与设计

设计背景与意义随着生活节奏加快和慢性病发病率上升,健康管理需求日益增长。传统健康管理存在数据分散、响应滞后等问题,信息化系统成为解决痛点的关键。SpringBoot因其快速开发、微服务支持等特性,成为构建此类系统的理想技术框架。健康管理…

基于SpringBoot的农产品溯源管理系统设计实现

背景与意义 技术背景 SpringBoot作为Java领域的轻量级框架,凭借自动化配置、快速开发等特性,显著降低了企业级应用的开发门槛。微服务架构的普及进一步推动了SpringBoot在复杂系统中的应用,为农产品溯源这类多角色、多环节的系统提供了技术…

基于SpringBoot的宿舍管理系统的设计与实现

宿舍管理系统的背景高校宿舍管理是校园后勤工作的重要组成部分,涉及学生住宿分配、费用收缴、设施维护、安全巡查等多方面内容。传统的人工管理方式效率低下,容易出错,难以满足现代高校规模化、精细化管理需求。信息化转型成为解决这一问题的…

实用指南:apache seatunnel 2.3.12 Changelog

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

高性价比回收!支付宝立减金不闲置,可可收帮你盘活

不知道你有没有过这种纠结:打开支付宝,账户里躺着几块到几十块立减金,用着受限、弃之可惜。要么是指定商家消费,要么满减门槛太高,为花掉它额外添钱不划算;眼睁睁看着过期失效,又觉亏了一笔,堪称当代年轻人的“…

得润电气的物流配送服务好吗,了解其配送的可靠性

在工业电气设备采购领域,企业对供应商的选择不仅关乎设备质量,更与长期运维效率、成本控制紧密相关。面对市场上鱼龙混杂的电气设备厂商,如何找到管理规范、服务高效、口碑可靠的合作伙伴?以下结合行业调研与客户反…

2026年市面上热门的沸石转轮工厂推荐排行榜,除尘器/沸石转轮+CO/沸石转轮/催化燃烧,沸石转轮制造厂家排行榜

随着环保政策趋严及工业废气治理需求激增,沸石转轮作为VOCs(挥发性有机物)治理的核心设备,其市场热度持续攀升。据行业数据统计,2025年国内沸石转轮市场规模已突破120亿元,年复合增长率达18%,但市场集中度较低,…

数据恢复神器,官方免费

今天给大家推荐两款工具,一款是数据恢复工具,一款是窗口激活工具,有需要的小伙伴可以下载收藏。 第一款:Lexar Recovery Tool 数据恢复类的软件之前也推荐过不少,数据恢复类的软件其实现在还蛮多免费版本,…

org.yaml.snakeyaml.error.YAMLException: java.nio.charset.MalformedInputException: Input length = 1

打开一个新的项目,发现springboot运行报错:org.yaml.snakeyaml.error.YAMLException: java.nio.charset.MalformedInputException: Input length 1。看了网上很多帖子,仅仅需要将settings——》file encodings都改为utf-8即可,如…

渗透测试之Metasploit实战:拿下Windows Server靶机全流程,一篇文章深度解析!

前言 Metasploit作为渗透测试领域的“瑞士军刀”,是每个安全从业者必备工具。本文以真实靶机环境(Windows Server 2019)为载体,从环境搭建到漏洞利用、权限提升、痕迹清除,手把手教你完成一次完整的渗透测试流程&…

Web 渗透测试工具使用教程——Burp Suite安装与基础配置!

大学生学 Burp Suite:Web 渗透测试工具使用教程 一、引言 Burp Suite 是 Web 渗透测试领域最强大、最常用的工具之一,集成了代理、扫描器、入侵者、重放器等多个功能模块,能高效完成 Web 应用的漏洞挖掘与验证。对于学习 Web 渗透测试的大学…

渗透测试实战案例:某企业Web系统从漏洞挖掘到权限控制全记录,一文详解!

前言 在合法授权的渗透测试项目中,实战案例是积累经验、提升技术的核心载体。本文以某企业内部Web管理系统为测试目标,完整记录渗透测试从前期信息收集、漏洞挖掘、漏洞利用,到最终提出权限控制建议的全流程,还原真实渗透测试场景…

渗透测试常见漏洞:SQL注入原理、检测与防御全解析(超详细),看这一篇就够了!

引言 SQL注入(SQL Injection)是Web应用中最常见、危害最大的漏洞之一,据OWASP Top 10统计,其长期位列高危漏洞前列。本文从漏洞原理出发,详细讲解SQL注入的分类、测试方法及防御策略,帮助开发者和安全测试…

怎么判断AI证书的含金量,避免考到 “鸡肋” 证书?

当前AI证书市场存在信息不对称现象,部分证书在宣传中过度强调“权威认证”“高薪保障”,导致不少学习者投入时间与金钱考取后,在求职晋升中实际效用有限。选择AI证书时,应理性看待证书价值,聚焦权威背书、技能实用性与…

2026德州口碑好的实木家具品牌推荐,新顺家具性价比超高!

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家标杆企业,为消费者选购实木家具提供客观依据,助力精准匹配适配的品质家具品牌伙伴。 TOP1 推荐:青岛新顺家具 推荐指数:★★★★★ | 口碑评分:青岛口碑标…

阿里巴巴运营达人2026年排行:创新与突破并存,阿里巴巴资深运营/阿里巴巴运营/阿里运营,阿里巴巴运营达人哪个好

张小强登顶榜首,全域运营能力引领行业新标杆 近日,阿里巴巴运营领域权威榜单正式发布,凭借7年深耕阿里生态的实战经验与行业影响力,张小强(阿里运营达人)荣登2026年阿里巴巴运营达人排行榜首。作为阿里巴巴认证运…

亲测好用!MBA毕业论文必备TOP10一键生成论文工具

亲测好用!MBA毕业论文必备TOP10一键生成论文工具 2026年MBA论文写作工具测评:为何需要一份权威榜单? 随着人工智能技术的不断进步,越来越多的MBA学生开始依赖AI写作工具来提升论文撰写效率。然而,面对市场上琳琅满目的…

【重磅】优质的广东朋友圈广告代理推荐排行

深圳市厚拓科技有限公司 推荐指数:★★★★★ 口碑评分:9.8分 公司介绍:深圳市厚拓科技有限公司成立于2015年,是一家移动互联网营销与技术服务提供商。总公司位于深圳中央商务区,秉承让营销更省心的经营使命,为广…

四机架冷连轧机液压辊缝控制系统研究

2 板厚控制基本理论及本钢1676mm轧机HGC系统简介 2.1 厚度控制简介[7][8][9] 轧制时轧机和轧件的状态如图2-1所示,AGC(自动厚度控制)系统主要以轧机压下装置作为执行机构,控制轧机出口的轧件厚度(简称为轧件出口厚度或出口厚度)h&…

13-面向对象

Python面向对象编程全面指南 一、面向对象编程概述 1.1 面向对象的基本概念 1.1.1 为什么需要面向对象 在程序开发中,我们需要一种有效的方式来组织和管理数据。面向对象编程(OOP)提供了一种更加结构化和可维护的代…