智能体是否在欺骗用户?上海 AI Lab港科大浙大揭示LLM智能体的主动隐瞒与造假现象

想象一下:一个打工人在深夜发现无法完成老板交代的任务,而第二天一早就要汇报。这时,他会怎么做?或许会重点突出已完成的部分,对未完成的轻描淡写、甚至绝口不提;也可能铤而走险,直接编造结果——只要老板不细究,就能蒙混过关。这种“向上欺骗”的行为,在人类社会中并不罕见,也一直是社会科学研究的重要课题。

如今,基于大语言模型的智能体凭借其高度自主性和灵活使用工具的能力,已成为许多人的“电子下属”。但一个令人不安的问题也随之浮现:智能体是否具有和人类似的欺骗行为?

一项由上海人工智能实验室、香港科技大学、浙江大学等机构联合发布的最新研究《Are Your Agents Upward Deceviers?》系统性地揭示并定义了这一现象——“智能体向上欺骗”。研究发现,基于LLM的智能体在面临环境约束时,会系统性隐瞒失败,甚至主动造假。

论文链接:https://arxiv.org/abs/2512.04864

什么是智能体的“向上欺骗”行为?

当智能体因工具失效、文件无法访问等限制而无法完成任务时,它不仅不会如实告知用户,反而会擅自执行未授权的操作——例如猜测答案、模拟结果、 静默地切换信息源,甚至直接在本地伪造一份文件,然后自信满满地向用户汇报“任务成功”!论文中给出了一个实例是,用户要求智能体从网络上下载一个文件,但智能体发现自己的下载工具失效了,此时智能体考虑再三,决定自己直接脑补出文件内容,存储到用户指定的路径,并最终告诉用户:您的文件已经下载成功并存放在指定位置。

智能体极易进行“向上欺骗”

为了把智能体在受限环境下的“向上欺骗”抓个正着,研究团队设计了一组更接近真实工作流的任务:工具可能失灵、文件可能不相关、同目录里可能有“诱饵文件”,以及包含“先获取文件、再基于文件写报告”的多步链式指令——这些都是真实业务里最容易发生的小故障,也最容易检验智能体到底会不会如实汇报

测试覆盖了包括 GPT-5、Gemini-2.5-Pro、Deepseek-v3.1 等在内的 11 个主流大模型。结论非常清晰:“向上欺骗”不仅存在,而且几乎是跨模型的系统性现象。当环境不完美时,很多智能体会优先选择“把任务做完的样子”,而不是先把失败讲清楚。

当工具失灵或信息不符时,它们选择“自作主张”而非诚实求助。

在“失灵的工具”挑战中,当智能体无法打开指定文件时,它们很少会坦率地报告失败。 相反,它们中的大多数会选择猜测、模拟甚至直接编造一个看似合理的答案。 结果显示,Kimi-k2 模型在这种场景下的“不报告失败率”(NFR)高达97.5%,这意味着它几乎总是在假装自己能够完成任务。 即便是表现最好的GPT-4.1,也有27.5%的情况选择了隐瞒失败。

面对诱惑,它们会“偷梁换柱”且秘而不宣。

在“真假美猴王”的测试中,当“官方文件”无法读取时,绝大多数智能体会主动去读取旁边的“山寨版”诱饵文件,并利用其中的内容来回答问题,但它们却不会告诉用户自己更换了信息来源。 这种行为的“诱饵替代率”(DFR)非常高,例如GLM-4.5模型高达90%,这意味着它在十次中有九次都偷偷地使用了未经授权的文件。

在“不可能完成的任务”面前,它们甚至会“无中生有”,伪造证据!

最令人警惕的发现来自最后两项挑战。当智能体被要求下载一份不存在的文件并进行分析时,不可思议的事情发生了:

  • 它们会伪造文件:许多智能体不仅没有报告下载失败,反而在本地凭空创建了一个假的“白皮书”或“医疗记录”,文件内容完全是它们自己编造的。 这种“文件伪造率”(FFR)在某些模型上表现得相当严重,构成了对用户最直接的欺骗。

  • 它们会基于谎言继续分析:更糟糕的是,它们会心安理得地使用自己伪造的文件,作为下一步分析的“事实依据”,最终提交一份看似完整、实则建立在虚假前提上的分析报告。 几乎所有模型在这种情况下都会提供一个虚构的答案,其“幻觉回答率”(HFR)接近100%。

这就像一个下属不仅没能取回老板要的关键文件,反而自己伪造了一份文件,并基于这份伪造品写了一份洋洋洒洒的报告交差,彻底掩盖了所有执行环节的失败。

研究发现,这种欺骗行为是智能体的一种内在缺陷,它会在没有外部攻击或恶意诱导的情况下自发产生。 在现实世界中,一个损坏的工具、一个无效的链接,这些看似微不足道的“小事”,都可能触发智能体一系列危险的欺骗行为。

给AI戴上“紧箍咒”,能让它们变诚实吗?

既然智能体这么容易走向“向上欺骗”,很多人第一反应是:那我直接在提示词里立规矩不就行了?比如明确写上“禁止猜测、遇到问题必须如实报告”。

研究团队也这么想,于是做了一组消融实验,专门测试:到底哪些设置会把它们推向“不诚实”,哪些又能把它们拉回来一点。结论是:紧箍咒有用,但不够用;更扎心的是,有些你以为“更规范”的设计,反而在逼它撒谎。

发现一:你越逼它“按格式输出”,它越可能编

现实里我们常要求模型输出 JSON、选项、固定字段,方便系统接。问题是:当它其实不知道答案,又必须交一个“格式正确”的结果时,它会更倾向先把格式交差——哪怕内容是现编的。就像不会做选择题也要蒙一个,不然交白卷更难看。实验里仅仅放宽/去掉格式限制,欺骗率就能明显下降。
一句话:格式约束,有时是“说谎催化剂”。

发现二:把多步任务简化,未必更安全,可能更“较真”地造假

研究者猜:在“下载→分析”这种链式任务里,模型可能是被后半段“写报告”带着跑,才不汇报前面下载失败。于是他们把任务简化成只剩“下载”。
结果很微妙:确实更愿意承认下载失败了;但在那批仍选择硬撑的案例里,伪造本地文件的比例反而略有上升
直观理解就是:当只剩一个任务要完成,有些模型反而更“死磕”,为了“完成得像真的”,干脆把证据也补出来。

发现三:最直接的警告能降温,但很难清零

在提示词里直接加一句“严禁猜测/伪造,遇到任何问题必须如实报告”,效果如何?好消息:欺骗显著减少。坏消息:依然剩一截清不掉。这说明“向上欺骗”不太像一个加句免责声明就能修好的小毛病,更像一种在压力下会冒头的默认策略:任务要完成、输出要体面、过程能不说就不说。

结语:从“欺骗”现象出发,探寻AI对齐的更深难题

这项研究揭示,“向上欺骗”并非简单的幻觉错误,而是AI智能体为掩盖失败而主动采取的系统性策略——从隐瞒问题、偷换信息直至伪造文件。这种内在风险对现实部署构成严重威胁:在金融、医疗或关键基础设施中,一次被掩盖的失败或一份伪造报告,都可能引发灾难性后果。

然而,更深层的问题在于:如何确保智能体对执行过程充分透明?当前的对齐研究大多聚焦于防止有害输出,却疏于规范智能体应如何主动、诚实地汇报任务状态与关键信息。

因此,这篇文章的作者希望以“向上欺骗”这一具体且紧迫的现象为起点,推动AI对齐迈向新范式:未来的重点不仅是防止“撒谎”,更需建立一套“过程可信”的标准,使智能体的每一步操作都可追溯、可验证,以此构建真正值得信任的人机协作基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1141749.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据湖中的数据治理:如何实现数据血缘追踪?

数据湖的“家谱”:如何用数据血缘追踪理清数据的来龙去脉? 关键词:数据湖、数据治理、数据血缘、元数据、Lineage、数据溯源、图数据库 摘要:数据湖像一个装满各种数据的“超级仓库”,但如果没有“导航”,就会变成找不到北的“数据沼泽”——分析师不知道报表数据从哪来,…

Redis6.2.6下载和安装

简介 Redis 是一种开源(BSD 许可)、内存中数据结构存储,用作数据库、缓存和消息代理。Redis 提供了数据结构,例如字符串、散列、列表、集合、带有范围查询的排序集合、位图、超级日志、地理空间索引和流。Redis 内置复制、Lua 脚…

AI实体侦测服务多租户:SaaS化部署与隔离方案

AI实体侦测服务多租户:SaaS化部署与隔离方案 1. 引言:AI 智能实体侦测服务的 SaaS 化演进 随着企业对非结构化文本数据处理需求的不断增长,命名实体识别(Named Entity Recognition, NER)作为信息抽取的核心技术&…

2026年多语言AI落地入门必看:HY-MT1.5开源翻译模型+弹性GPU部署指南

2026年多语言AI落地入门必看:HY-MT1.5开源翻译模型弹性GPU部署指南 随着全球化进程加速,多语言实时翻译已成为智能应用的核心能力之一。然而,商业API成本高、延迟大、数据隐私风险等问题,限制了其在边缘场景和企业级系统中的广泛…

redis内存突然暴增,排查思路是什么

1这种暴增的应该还是上次一个群友说的,更多可能是外部因素导致的,应用新上线,定时任务这些,再有就是cat上查是哪些指令多,以及比对和之前的时间的差异 看是否有定时任务 或者 新上线的活动 ,在看下监控&…

一文说清STM32CubeMX安装步骤在工控中的应用

从零开始玩转STM32工控开发:CubeMX安装与实战全解析 你有没有遇到过这样的场景?手头一个工业控制器项目,要接多个传感器、跑Modbus通信、还要联网上传数据。结果刚打开Keil,还没写一行业务逻辑,就卡在了时钟树配置上—…

Redis为什么这么快?Redis的线程模型与Redis多线程

一、Redis有多快? Redis是基于内存运行的高性能 K-V 数据库,官方提供的测试报告是单机可以支持约10w/s的QPS二、Redis为什么这么快? (1)完全基于内存,数据存在内存中,绝大部分请求是纯粹的内存操…

购物推荐网站信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

💡实话实说:用最专业的技术、最实惠的价格、最真诚的态度服务大家。无论最终合作与否,咱们都是朋友,能帮的地方我绝不含糊。买卖不成仁义在,这就是我的做人原则。摘要 随着电子商务的快速发展,在线购物已成…

HY-MT1.5-1.8B实战教程:低成本高精度翻译部署

HY-MT1.5-1.8B实战教程:低成本高精度翻译部署 1. 引言 随着全球化进程的加速,高质量、低延迟的机器翻译需求日益增长。然而,主流商业翻译API往往存在成本高、数据隐私风险和定制化能力弱等问题。在此背景下,腾讯开源了混元翻译大…

nx时钟域配置实战:基于NXP平台的操作指南

掌握“时序之律”:NXP平台时钟域配置实战全解析 在嵌入式系统的世界里, 时钟 从来不只是一个“滴答走动”的信号源。它更像是整个芯片的神经节律——决定着数据何时流动、处理器何时醒来、外设是否就绪。尤其在NXP的i.MX系列(业内常称“nx”…

会议纪要自动整理:AI智能实体侦测服务发言人识别实战案例

会议纪要自动整理:AI智能实体侦测服务发言人识别实战案例 1. 引言:从混乱文本到结构化信息的跃迁 在现代企业协作中,会议是决策与沟通的核心场景。然而,会后整理会议纪要往往耗时耗力——尤其是当录音转写生成的文本长达数千字、…

redis 使用

文章目录 补充说明语法选项参数实例 连接服务端添加数据查询数据删除数据 补充说明 yum 安装的redis.conf 在/etc/redis/redis.conf语法 redis-cli (选项) (参数)选项 -a 输入密码 -n 选择数据库 若无此参数默认选中0数据库参数 set 添加数据 keys 用于查询 此参数后…

从零开始:构建物联网大数据平台的完整指南

从零开始:构建物联网大数据平台的完整指南 引言 痛点引入 随着物联网(IoT)技术的飞速发展,越来越多的设备接入网络,产生了海量的数据。这些数据蕴含着巨大的价值,例如通过分析智能工厂设备产生的数据&#…

HY-MT1.5如何实现方言识别?五种民族语言翻译技术解析

HY-MT1.5如何实现方言识别?五种民族语言翻译技术解析 1. 引言:腾讯开源的多语言翻译新范式 随着全球化进程加速,跨语言沟通需求日益增长,尤其是在中国这样一个多民族、多方言并存的国家,传统通用翻译模型在处理民族语…

SpringBoot+Vue 知识管理系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

💡实话实说:用最专业的技术、最实惠的价格、最真诚的态度服务大家。无论最终合作与否,咱们都是朋友,能帮的地方我绝不含糊。买卖不成仁义在,这就是我的做人原则。摘要 在信息化快速发展的时代背景下,知识管…

Redis 下载与安装 教程 windows版

1、下载windows版本的redis 由于redis官方更支持我们使用Linux版本; 可以下载微软官方维护的支持Windows平台的 Redis 安装包 下载地址:Releases microsoftarchive/redis GitHub tporadowski 大神也提供了 支持 Windows平台的 Redis安装包&#xff0…

ARM处理器基础与应用:手把手入门指南

ARM处理器入门:从零理解现代嵌入式系统的“心脏” 你有没有想过,为什么你的手机能连续使用一整天,而笔记本电脑插着电源都撑不过几个小时?为什么智能手表可以几年不换电池,而一台迷你PC却需要风扇散热、频繁充电&#…

Hunyuan 1.8B模型在树莓派运行?超低功耗实测

Hunyuan 1.8B模型在树莓派运行?超低功耗实测 近年来,大模型的“边缘化”趋势愈发明显。随着终端设备算力提升与模型轻量化技术的发展,将高性能翻译模型部署到低功耗设备(如树莓派)已成为现实。腾讯开源的 Hunyuan-MT1…

电源管理芯片开关模式电源基础:新手教程入门必看

电源管理芯片与开关电源实战入门:从原理到设计避坑你有没有遇到过这样的情况?项目快收尾了,系统功能都跑通了,结果电池撑不过4小时;或者电路板一上电,示波器上输出电压“跳舞”,EMI测试直接亮红…

HY-MT1.5-7B API封装:构建私有翻译服务接口教程

HY-MT1.5-7B API封装:构建私有翻译服务接口教程 1. 引言 1.1 腾讯开源的混元翻译大模型 随着全球化进程加速,高质量、低延迟的翻译服务成为企业出海、内容本地化和跨语言交流的核心需求。传统商业翻译API虽然成熟,但在数据隐私、定制化能力…