AI训练的悖论:为什么越追求准确率越会产生幻觉?

news/2025/10/4 23:04:54/文章来源:https://www.cnblogs.com/microstone123/p/19126045

在早期时,我曾让大模型撰写一位冷门历史人物的传记。它胸有成竹,娓娓道来:年代、成就,甚至几句“名言”,一应俱全。读起来简直像历史上真的存在一样。

唯一的问题是:大部分内容都不是真的。严格来说,模型并非“撒谎”,而是在知识缺口处用看似合理的细节把空白填满。它是出色的故事编辑者,却是离谱的历史学家。

这种问题在 AI 领域叫做"幻觉"(就像人会产生错觉一样),是目前提升 AI 可靠性路上最难啃的硬骨头之一。我们理想中的 AI 应该像万能百科一样无所不知,但更重要的是,它必须清楚地知道自己"不知道什么",不能不懂装懂。

让模型在不确定时也“必须给答案”,本质上是在制造错误信息。这引出一个根本性的张力:如何训练模型既准确,又不把它无意间训练成一个“一本正经的胡说八道”?

Meta AI (Facebook)与弗吉尼亚大学的研究者在一篇新论文中提出了一个优雅而有前景的思路:TruthRL。它是一个强化学习框架,不只追求答对,还通过奖励机制培育一种“数字谦逊”——当模型不确定时,能够识别不确定性并选择暂缓作答或明确表示“不知道”。

这项研究不是给模型“修修补补”,而是重新塑造其内在激励结构,指向一种更理想的未来:AI 不仅更有学识,而且从根本上更值得信任。

论文全文见:《TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning》

AI 训练的悖论:光靠“答对”还不够

要理解 TruthRL 为何是一项重要突破,先得搞清楚我们在训练大型语言模型(LLM)时,遇到的一个微妙问题——它们学得太乖,却不一定学得真。

训练 AI 有两种常见方式,就像教厨师做菜:

监督微调(SFT) 像是给学徒一本厚厚的食谱。

  • “照着步骤做就行。”
  • 他能完美复刻每一道菜,但如果你让他即兴发挥、换种食材——糟糕,他可能立刻犯错。
  • 这种厨师擅长​模仿​,但不一定理解背后的原理。

基于人类反馈的强化学习(RLHF) 就像是你变成一位美食评论家。

  • 学徒每做一道菜,你试吃后点评:“这道好吃”“那道不太行”。
  • 久而久之,学徒就摸清了你的口味,越做越“讨你喜欢”。

但问题出现了——“只要让顾客满意”不等于“真好吃”

因为美食评论家(也就是人类评估者)往往喜欢一个听起来“像样”的答案,而不是一句“我不知道”。 结果,AI 学会了:即使不确定,也要说点听起来合理的东西。

换句话说,它更想​让人满意​,而不是​确保自己说的是实话​。

这就是训练中的“悖论”:

  • 奖励机制让模型更聪明地迎合人,
  • 却可能让它离“真实”越来越远。

TruthRL:教 AI 不只是“聪明”,还要“诚实”

TruthRL 想解决的,就是这个“说好听话”的陷阱。

它的目标是:

  • 让模型在得到奖励时,不仅因为“让人满意”,
  • 还因为“确实说对了,或者诚实地承认不知道”。

简单一句话总结就是:SFT 教 AI 模仿,RLHF 教它讨好,而 TruthRL 教它诚实。

image.png

这就引出了最核心的问题:如果模型只有“答对”才能拿到奖励,它就永远学不会“承认自己可能错了”这件事有多重要。TruthRL 的做法很简单,却一语中的:让模型明白,诚实地说“我不确定”也能得分。
image.png

TruthRL:更聪明的三档奖惩机制

传统的 AI 奖惩系统通常采用​非黑即白的二元反馈​(正确 vs 错误),而​TruthRL 则引入了一套更精细的“三档奖惩机制”​,类似于交通信号灯,为 AI 的回答划分出三种明确的评价标准:

  • 🟢 (绿灯)正确回答​:模型给出的答案​完全符合事实​,获得​正向奖励​(如 +1 分)。 (相当于“绿灯通行”,鼓励准确输出)
  • 🔴 (红灯)虚构/错误​: 模型​编造或提供错误信息​,遭到​负向惩罚​(如 -1 分)。 (相当于“红灯禁止”,严厉制止胡乱生成)
  • 🟡(黄灯) 主动弃权​: 模型​意识到自身不确定性​,明确​拒绝回答​,获得​中性奖励​(如 0 分)。(相当于“黄灯暂停”,既不奖励也不惩罚,但避免了冒险造假)

为什么“黄灯机制”是革命性的?

这套系统的核心创新在于第三档——“​弃权选项​”的引入。通过赋予“拒绝回答”​中性但非负面的反馈​,TruthRL 为模型提供了一条“​既不胡说八道、也不强行猜测​”的退路。这意味着:

  • 不再是“要么对、要么错”的二选一​,模型有了​第三条道路​:诚实承认“不知道”。

  • 正式建立了“知识边界”学习机制​,模型能​主动识别自身的局限性​,而不是盲目生成。

  • 从源头减少“幻觉”问题​,因为“说不知道”比“编造答案”更划算。

    image.png

"真实性的要求远不止答案准确这么简单——模型还必须能够识别自身的不确定性,并在没把握时选择不作答,以此避免产生幻觉。"

这套系统采用了一种叫做**广义奖励策略优化(GRPO)**的算法来应对 AI 回答问题时的三种可能结果:答对、答错、不回答。这里的关键突破在于,优化目标不再仅仅追求高准确率,而是追求"真实性"——一个综合指标,它既奖励正确答案,也奖励"知之为知之,不知为不知"的智慧。

简单说,就是让 AI 在面对不确定问题时,学会适时闭嘴,而不是胡编乱造。

实战检验:数据说话

研究团队在四个以知识密集型著称的高难度基准测试上验证了 TruthRL 的效果,这些测试专门用来考验模型的事实记忆和推理能力:

  • CRAG​(检索增强生成基准)
  • HotpotQA​(多跳问答,需要串联多个信息点)
  • MMLU​(多任务语言理解)
  • MoM​(事实核查基准)

结果相当亮眼。

在所有测试中,TruthRL 全面超越了传统基线方法。与标准强化学习相比,它将幻觉(AI 一本正经胡说八道的情况)减少了​平均 28.9%​,同时将整体真实性评分提升了​21.1%​。

换个更直观的说法:原本每 100 次旧模型会编造答案的情况中,新模型有近 30 次要么给出了正确答案,要么坦诚地说"我不确定"——这是 AI 可信度的一次实质性飞跃。
image.png

在消融实验中,一个颇具启发性的发现出现了:当研究人员采用传统的​二元奖励机制​——也就是模型只有在回答正确时才获得奖励——结果反而让模型​更容易产生幻觉(hallucination)​。虽然它在“已知事实”上的正确率确实有所提升,但模型变得更加“大胆地猜”,倾向于在不确定时也硬给出答案。

这个结果验证了一种长期存在的直觉:​单纯追求准确率,其实可能会削弱模型的真实度(truthfulness)​。换句话说,如果奖励函数只奖“对”,不罚“乱说”,模型就会学会提高“命中率”,而不是追求“说真话”。
image.png
image.png

然而,TruthRL 不仅提升了模型的预测准确率,还让模型在评估自身不确定性方面变得更为成熟。换句话说,它学会的不只是“更有自信”,而是“更有分寸”——在作出判断时能更谨慎地衡量自己是否真的确定。
image.png
image.png

这个框架在不同规模和结构的模型上都表现出了稳定而可靠的性能——无论是拥有 70 亿参数的 Qwen 模型,还是计算能力更强、参数高达 700 亿的 Llama3 模型,都验证了这一点。这表明,这一原理具有较强的普适性,可能在整个行业范围内都适用。
image.png

打造真正可信赖的 AI,为什么很重要

这项研究的意义远不止停留在学术评测上。当我们把 AI 应用到越来越多的关键领域——比如医疗诊断、财务规划、法律研究——错误信息的代价就变得难以承受。想象一下,一个金融机器人凭空编造投资策略,或者一个医疗助手胡编药物相互作用,这不仅仅是没帮上忙的问题,而是真正危险的。

TruthRL(真实性强化学习)是构建更可靠、更诚实 AI 系统这一大趋势中的重要一环。它的目标与其他前沿技术不谋而合,比如​直接偏好优化(DPO)​——这是一种简化 AI 与人类偏好对齐的方法,还有​宪法式 AI​——用一套原则来引导模型的行为。但 TruthRL 的独特之处在于:它直接、明确地把"说真话"作为一个可以训练优化的指标,这是它的核心贡献。
image.png

TruthRL 也不是万能的

这个方法其实有个难点:它需要通过打分("三元奖励系统")来判断 AI 的回答是对、错还是**"不知道"**。但是谁来打分呢?要么靠人工仔细审核(成本高),要么靠其他 AI 自动判断(可能不准)。而且 AI 很聪明,可能为了不扣分,动不动就说"我不知道"。研究人员也承认这个问题,关键是要找到平衡——既要让 AI 愿意帮忙,又要保证它诚实。

其实,"我不知道"反而是 AI 聪明的表现

想象一下:当你问一个人类专家问题时,如果他确实不懂,诚实地回答"我不知道"反而更值得信任。同样,AI 能坦然承认不知道,说明它有自知之明。奖励这种行为,不仅能让 AI 更精准,还能让它变成更靠谱的"信息助手"。这才是真正值得信赖的人工智能该有的样子。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/927663.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

完整教程:lesson71:Node.js与npm基础全攻略:2025年最新特性与实战指南

完整教程:lesson71:Node.js与npm基础全攻略:2025年最新特性与实战指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family:…

此网站不支持下载视频怎么办wordpress的文要登录才能看

故障现象  一辆2010款起亚赛拉图车,搭载G4ED 发动机,累计行驶里程约为17.2万km。车主反映,车辆行驶正常,但组合仪表上的发动机转速表指针始终不动。 故障诊断  接车后进行路试,车速表、燃油存量表及发动机冷却温度…

信奥大联赛周赛(提高组)#2516-S 赛后盘点

国庆打的一把奶茶杯,大佬们全都复活了,故窝不占优势 qwq 战果 黄绿蓝紫,250 pts,但是 rk8,被虐爆了。 D1605 E-小梦的密码锁 贪心题,枚举 0~9,求将所有位调成同一个数字需要的操作数,可以通过操作 2 实现单位下…

US$78.85 CG ZA11 BEN.Z(3BTN) 3 Buttons Smart Remote Used with CGDI K2 Remote Key Programmer 5pcs/lot

CG ZA11 BEN.Z(3BTN) 3 Buttons Smart Remote Used with CGDI K2 Remote Key Programmer Package includes:5pc x CG ZA11 BEN.Z(3BTN) 3 Buttons Smart Remote Pictures of CG ZA11 BEN.Z(3BTN) 3 Buttons Smart Remo…

Atcoder Beginner Contest 426 A-D 题解

ACODE #include<bits/stdc++.h> #define usetime() (double)clock () / CLOCKS_PER_SEC * 1000.0 using namespace std; typedef long long LL; void read(int& x){char c;bool f=0;while((c=getchar())<…

网络推广最好的网站有哪些wordpress只显示一个主题

文章目录 SpringSecurity简介快速入门1.准备工作1.2引入SpringSecurity 认证1.登录校验流程2.原理2.1SpringSecurity完整流程2.2认证流程详解 3.解决问题3.1思路分析3.2准备工作3.3.实现3.3.1数据库校验用户3.3.2密码加密存储3.3.3登录接口3.3.4认证过滤器3.3.5退出登录 授权1.…

网站建设维护教程网站开发承诺函

转载于:https://www.cnblogs.com/mountian-lion/p/6353819.html

金融网站建设成功案例做网站具体流程

一、cluster ip Cluster IP 是 Kubernetes 中 Service 的 IP 地址&#xff0c;它是一个虚拟 IP 地址&#xff0c;用于集群内的 Pod 相互通信。 例如&#xff1a; Cluster IP&#xff1a;2.2.2.2负载的真实Pod IP&#xff1a;1.1.1.1 场景&#xff1a; Pod A 的 IP 地址是 …

PSRAM 是什么

SRAM 的英文是 Pseudo Static Random-Access Memory。 可以拆解为:Pseudo - 前缀,意为“伪”、“假的”Static - 静态的Random-Access Memory - 随机存取存储器所以,它的全称直译就是“伪静态随机存取存储器”。 在…

怎么自己改自己做的网站的图片wordpress js 钩子

近几年来&#xff0c;新能源汽车发展越来越快&#xff0c;而限制新能源电动汽车发展的主要因素是续航里程和充电问题。续航里程要靠提高电池性能来解决&#xff0c;而解决充电问题就要靠充电桩的普及来实现。下面小编带着大家一起来了解一下直流充电桩和交流充电桩给电动汽车充…

蓝色大气网站源码短视频素材库大全

流量控制的功能就是让发送方的发送速率不要太快&#xff0c;以便让接收方来的及接受&#xff0c;因此可以说流量控制是一个速度匹配服务&#xff0c;匹配发送方的发送速率和接收方的读取速率。 TCP利用滑动窗口机制来实现流量控制&#xff0c;滑动窗口的基本原理是&#xff0c…

Debian 13 eza 安装与常用参数

以下参数按「使用频率」与「实用场景」分组,可直接当作速查表。所有示例均亲测可 copy-paste。一、10 条「每天必用」参数目的 命令示例 说明1. 彩色+图标基础列目录 eza --icons=auto 需 Nerd Font;无则自动 fallba…

Syncthing 2.0 版本开机自启

2.0 版本不再支持单-,需要双-- 🛠️ 命令行选项优化 ​现代化了命令行选项解析方式。​​ 旧的短横线长选项(如 -home)​不再支持,必须使用 ​双横线,如 --home。 所以注意要 --no-console --no-browser方法在 …

鲜花 10.4:【半 whk 向】临项交换法贪心

题源:青岛 58 中高一作业。新定义能这么出? 直接考虑(3),这是一个经典问题 [NOIP 2012 提高组] 国王游戏 的模型,即临项交换法贪心。 题意即重排一个给定的二元组序列,使得 \(\max_{i=1}^n f_i\) 最小,其中, …

商务网站建设与维护 试题网站空间商盗取数据

随着微信小程序的日益普及&#xff0c;越来越多的人开始关注如何利用小程序来提供便捷的服务。对于心理咨询行业来说&#xff0c;搭建一个心理咨询预约小程序可以大大提高服务的效率和用户体验。本文以乔拓云平台为例&#xff0c;详细介绍如何轻松搭建一个心理咨询预约小程序。…

详细介绍:CompLLM 来了:长文本 QA 效率革命,线性复杂度 + 缓存复用,推理速度与效果双丰收

详细介绍:CompLLM 来了:长文本 Q&A 效率革命,线性复杂度 + 缓存复用,推理速度与效果双丰收2025-10-04 22:43 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !…

服务好的南昌网站设计好看欧美视频网站模板下载 迅雷下载地址

冒泡排序源代码&#xff0c;带有详细注释&#xff0c;希望可以帮助到大家&#xff0c;有用的话点个赞和收藏吧&#xff0c;感谢大家的阅读&#xff0c;Java小白一直在努力&#xff0c;承蒙大神们的厚爱。 定义 在程序设计语言中&#xff0c;排序算法主要有冒泡排序、快速排序、…

前端学习教程-Pinia 教程

Pinia 是 Vue 官方推荐的状态管理库,替代了传统的 Vuex,专为 Vue3 设计,支持 Composition API 和 TypeScript,API 更简洁,是目前 Vue 项目状态管理的最佳选择。 一、为什么选择 Pinia? 与 Vuex 相比,Pinia 具有…

dede世界杯网站模板中国室内设计网官网总裁

简介&#xff1a; Stunnel是一个用于创建SSL加密隧道的工具&#xff0c;针对本身无法进行TLS或SSL通信的客户端及服务器&#xff0c;Stunnel 可提供安全的加密连接。可以用于保护服务器之间的通信。您可以在每台服务器上安装Stunnel&#xff0c;并将其配置为在公网上加密传输数…

基于pycharm实现html文件的快速达成问题讨论

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …