AI 防口误指南_LLM 输出安全实践

在数字化转型的浪潮中,大语言模型(以下统称LLM)已成为企业技术栈中不可或缺的智能组件,这种强大的AI技术同时也带来了前所未有的安全挑战。它输出的内容如同双面刃,一面闪耀着效率与创新的光芒,另一面却隐藏着"幻觉"与不确定性的风险。此类"高度自信的错误"比明显谬误更危险,因为它们伪装成可靠信息,传统信任模型在面对高度智能化的AI系统输出时,正面临着严峻的适应性挑战和局限性。

LLM 输出处理风险

想象一下,你刚刚聘请了一位博学多才的新员工。他懂多国语言,能写代码,能分析数据,还能写诗作画。听起来完美,对吧?但这位新员工有个问题:他时不时会"口无遮拦",可能会不经思考地泄露公司机密,或者在公共场合说些不恰当的话。这位"员工"就是你的 LLM,而它的"口误"可能会让你的企业付出惨重代价。OWASP 在其 LLM 应用程序 Top 10 风险榜单上,将不安全的输出处理列为关键漏洞。这一漏洞源于LLM生成的输出内容传递到下游组件或者呈现给用户之前,未对其进行充分验证、清洗和处理。

当 LLM 生成的内容未经适当审查就被直接使用时,用户实际上是在玩一场危险的俄罗斯轮盘赌。这些"口误"可能会变成:

跨站脚本攻击(XSS):就像是 LLM不小心在你的网站上涂鸦了恶意代码,访客一点击就被感染。

幻觉(Hallucination):想象 LLM在周一准确地完成一份季度报告,却在周二突然热情洋溢地宣布"地球是平的",还引经据典作为佐证。

服务器端请求伪造(SSRF):LLM误把内部网络的地图分享给了外部访客。

权限提升:LLM好心地给普通用户提供了管理员指令的"备忘录"。

远程代码执行:最危险的"口误",LLM不经意间为黑客提供了一把打开你服务器的万能钥匙。

这些漏洞往往源于一个看似合理但实际危险的假设:“LLM生成的内容应该是安全的”,开发人员经常忽视强大清洗机制的必要性,或者高估了模型的"自我约束"能力开发人员经常忽视强大清洗机制的必要性,或者高估了模型的"自我约束"能力。常见的不安全输出漏洞与传统Web安全有较多重叠之处,下面结合具体案例进行分析。

解码AI的危险独白

"善变的演员":提示注入与输入操纵

提示注入是一种数字版的"社会工程学",攻击者通过巧妙设计输入内容,让 LLM"越狱"——突破其原本设定的安全边界。这就像是黑客找到了 AI 的"后门密码",能让它执行原本不允许的操作。

虽然现代 LLM 通常会抵抗这种简单的尝试,但更复杂的技术已经被开发出来。研究表明,某些特定的"对抗性后缀"几乎可以百分百地绕过主流 LLM 的安全机制,就像是找到了安全系统的"万能钥匙"。

风险因素包括:

输入验证的"筛子":许多系统对用户输入的验证就像是一个漏洞百出的筛子,无法拦截精心设计的恶意提示。

上下文管理的"健忘症":LLM 在处理长对话时容易"忘记"早期设定的安全约束,给了攻击者可乘之机。

过度依赖 LLM 的"自律":仅仅依靠模型内置的安全机制,就像是把家门钥匙藏在门垫下,看似方便实则危险。

"贪吃的信息收集者":过度依赖外部数据和 RAG

现代 LLM 越来越依赖 RAG(检索增强生成)技术来提供最新、最准确的信息。

然而,这种依赖也带来了新的风险维度。如果 RAG 系统从不可靠的来源检索信息,或者被"数据投毒"攻击所影响,LLM 可能会自信满满地输出错误或有害信息,就像是一个被错误资料误导的专家。

风险因素包括:

数据来源的"不设防":对外部数据源缺乏足够的审查,就像是在不检查食材来源的情况下制作食物。

实时验证的"缺席":没有实时验证机制来确认数据的准确性和安全性,等同于在没有质检的情况下生产产品。

成的"松散接口":检索系统和 LLM 之间的集成不良,就像是两个部门之间缺乏有效沟通,导致重要信息被错误传达。

ConfusedPilot就是一种专门针对广泛使用RAG系统的攻击手法,攻击者只需要具备向组织的文档库添加文件的基本权限,就能通过在文档中嵌入精心设计的"指令字符串",操纵AI的响应内容。与传统安全中的SQL注入类似,文档中的特定字符串被AI系统错误地解读为"指令",进而导致响应可能被错误地归因于合法来源,增加其可信度。这种攻击的危害不仅在于它能改变AI的输出,更在于它能够绕过现有的大多数安全措施,因为从系统角度看,这些文档是"合法"添加的。

梦游的数字大脑:AI幻觉与不确定性解析

大模型安全语义下的幻觉从技术分类角度可以分为两种类型:
  1. 上下文内幻觉:指模型输出与提供给它的上下文或源内容不一致。例如,当你向模型提供一篇文章并要求其总结时,如果总结中包含文章中不存在的内容,就属于上下文内幻觉。这类幻觉相对容易检测,因为我们可以直接将输出与给定的上下文进行比对。

  2. 外在幻觉:指模型输出与其预训练数据集中的世界知识不一致。这类幻觉更难检测,因为预训练数据集规模庞大,无法为每次生成都进行完整的知识冲突检查。如果将预训练数据看作是"世界知识的象征",这本质上是在要求模型输出必须是事实性的,可以通过外部权威知识源验证。

    在准确率要求非常高的场景下幻觉是不可接受的,比如金融领域、医疗领域、能源领域等。幻觉现象背后隐藏着一个更深层次的技术问题——模型不确定性。从本质上讲,LLM是一个庞大的概率预测系统,它的任务是:给定前面的文字,预测下一个最可能出现的词。

虽然幻觉问题可能无法完全消除,目前已开发出多种有效的缓解策略来对抗幻觉:

检索增强生成(RAG):将LLM与外部知识库结合,使模型能够"查阅"事实而非仅依赖参数记忆。

** 不确定性显式量化:**训练模型输出置信度分数,并在低置信度时主动表达不确定性,或者同时给出多个LLM的结果与置信度分数给终端用户。

** 对抗训练**:通过故意训练模型识别和拒绝生成虚假信息,增强其区分事实与非事实的能力。

案例研究

案例1: Vanna.AI 命令执行漏洞

Vanna.AI 是一款开源AI工具,在Github上拥有13.9K stars,旨在简化与 SQL 数据库的交互。通过自然语言处理技术,用户可以用日常语言提问,Vanna.AI 会自动将这些问题转换为 SQL 查询,并返回相应的数据结果。

很容易联想到,将LLM直接联入SQL查询可能会导致严重的SQL注入问题,而且Vanna提供了数据可视化功能,在执行SQL查询后,Vanna会将结果通过Python 的图形库Plotly以图表形式呈现结果。Plotly代码是由LLM Prompt与代码评估动态生成的,通过类似SQL注入的技巧可以绕过系统的预定义约束,从而实现完整的 RCE。

下载项目,跟踪到ask方法,可以看到如果visualize被设置为True,则plotly_code字符串将通过 generate_plotly_code 方法生成,该方法会调用 LLM 以生成有效的 Plotly 代码,如下所示:

submit_prompt函数负责通过包含用户输入的Prompt来生成代码,然后将代码传递到Python的exec方法中,该方法将执行由提示生成的动态 Python 代码。

复杂问题简单化,主要能控制传入参数并正确格式化到generate_plotly_code中,便能实现RCE。

案例2: Manus 越狱漏洞

近期,AI 领域出现一款备受瞩目的智能体——Manus。它被认为是 Deepseek 之后又一匹“当红炸子鸡”,迅速在技术社区中引起广泛关注,其邀请码甚至被炒十万元。

尽管该系统在技术实现上展现了不少创新,但其安全设计却暴露出了严重的问题。近期,有用户报告称,通过简单的指令请求,就能获取Manus系统的内部工作机制、事件流处理方式、代理循环逻辑等敏感信息。

  • 获取难度极低:相比于其他系统,获取Manus的系统提示不需要复杂的"越狱"技术,只需通过自然语言询问系统其内部结构和工作方式。这表明系统对提示注入攻击几乎没有任何防御措施。
  • 泄露信息的完整性:泄露的信息包含了完整的系统架构、工具使用逻辑、文件处理规则、浏览器交互方式以及事件处理流程。这些信息足以让攻击者理解系统的决策流程和限制条件。
  • 模块化架构暴露:泄露显示Manus使用了一个包含事件流(Event Stream)、计划者(Planner)、知识(Knowledge)和数据源(Datasource)等多个模块的架构,这种设计本身很先进,但当其细节被暴露后,却成为了攻击者的路线图。

这类信息泄露极大地降低了系统的安全性,因为攻击者可以基于这些信息设计针对性的提示注入,从而更容易绕过系统的安全限制。

案例3: ChatGPT 混淆代理漏洞

随着LLM应用生态的快速发展,各种插件大大扩展了AI助手的能力边界。然而,强大的功能扩展也带来了新的安全风险维度。2023年6月,安全研究人员揭示了ChatGPT插件系统中的一个严重安全漏洞,这一漏洞允许攻击者通过恶意网站窃取用户的私有代码,甚至操纵用户的Github仓库权限。

这一安全事件的核心问题是所谓的"混淆代理"(Confused Deputy)问题,这是一种特殊类型的权限提升漏洞。在LLM插件生态系统中,插件可以作为用户的代理,访问用户授权的第三方服务(如Github、Google Drive等),而插件在处理请求时缺乏有效的身份验证和权限控制,从而可能被攻击者利用执行未授权操作。

插件获取的 OAuth 令牌在整个会话期间保持有效,没有基于操作类型的动态校验,仅验证用户初始授权,而不验证每个后续操作是否符合用户意图。而插件 API 调用基于 HTTP,缺乏操作连续性验证,无法检测到异常操作序列,LLM平台本身缺少输入源验证机制,允许非用户输入的内容触发与用户输入相同的执行路径。这种多层次的技术缺陷组合,最终导致攻击者能够通过注入恶意提示,利用用户已授权的 OAuth 插件执行未经用户确认的高权限操作,形成了一个完整的混淆代理漏洞利用链。

"零信任":AI时代的新安全范式

现代网络安全架构已经从传统的边界防御模型转向了零信任网络访问(ZTNA)模型。这一理念在LLM应用安全中同样适用,但需要进一步扩展为**双向零信任原则**:即对输入和输出实施同等严格的验证机制。这种方法论要求在整个LLM交互流程中实施持续性认证、最小权限原则和多因素验证。

在AI技术的浪潮中,安全问题既不应被夸大为末日威胁,也不能被低估为小概率事件。通过建立健全的零信任机制,企业可以释放LLM的创新潜力,同时将风险控制在可接受范围内。

Reference

●https://confusedpilot.info/ConfusedPilot_Site.pdf

●https://learn.microsoft.com/en-us/copilot/microsoft-365/microsoft-365-copilot-ai-security

●https://genai.owasp.org/resource/owasp-top-10-for-llm-applications-2025/

●https://www.symmetry-systems.com/blog/confused-pilot-attack/

●https://arxiv.org/html/2408.04870v2

●https://jfrog.com/blog/prompt-injection-attack-code-execution-in-vanna-ai-cve-2024-5565/#vanna-ai-cve-2024-5565

●https://embracethered.com/blog/posts/2023/chatgpt-plugin-vulns-chat-with-code/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/900016.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序化广告行业(55/89):DMP与DSP对接及数据统计原理剖析

程序化广告行业(55/89):DMP与DSP对接及数据统计原理剖析 大家好呀!在数字化营销的大趋势下,程序化广告已经成为众多企业实现精准营销的关键手段。上一篇博客我们一起学习了程序化广告中的人群标签和Look Alike原理等知…

运维之 Centos7 防火墙(CentOS 7 Firewall for Operations and Maintenance)

运维之 Centos7 防火墙 1.介绍 Linux CentOS 7 防火墙/端口设置: 基础概念: 防火墙是一种网络安全设备,用于监控和控制网络流量,以保护计算机系统免受未经授权的访问和恶意攻击。Linux CentOS 7操作系统自带了一个名为iptables的…

第十五届蓝桥杯大赛软件赛省赛Python 大学 C 组题目试做(下)【本期题目:砍柴,回文字符串】

okk,大伙,这一期我们就把C组的题目刷完。 本期题目:砍柴,回文字符串 文章目录 砍柴题目思路分析举个栗子思路总结 代码 回文字符串题目思路分析代码 感谢大伙观看,别忘了三连支持一下大家也可以关注一下我的其它专栏&a…

Design Compiler:库特征分析(ALIB)

相关阅读 Design Compilerhttps://blog.csdn.net/weixin_45791458/category_12738116.html?spm1001.2014.3001.5482 简介 在使用Design Compiler时,可以对目标逻辑库进行特征分析,并创建一个称为ALIB的伪库(可以被认为是缓存)&…

MySQL索引原理:从B+树手绘到EXPLAIN

最近在学后端,学到了这里做个记录 一、为什么索引像书的目录? 类比:500页的技术书籍 vs 10页的目录缺点:全表扫描就像逐页翻找内容优点:索引将查询速度从O(n)提升到O(log n) 二、B树手绘课堂 1. 结构解剖&#xff0…

全连接RNN反向传播梯度计算

全连接RNN反向传播梯度计算 RNN数学表达式BPTT(随时间的反向传播算法)参数关系网络图L对V的梯度L对U的梯度L对W和b的梯度 RNN数学表达式 BPTT(随时间的反向传播算法) 参数关系网络图 L对V的梯度 L对U的梯度 L对W和b的梯度

C++高效读取大规模文本格式点云(windows)

需使用VS2017及以上版本&#xff0c;C语言标准选择C17&#xff0c;支持OpenMP。 执行效率明显优于ifstream stof。 // 点云数据结构 struct PointXYZ {std::array<float, 3> coord; };float string_to_float_fast(const std::string& str) {float value;auto [p…

【Linux】进程信号的捕捉处理

个人主页~ 进程信号的捕捉处理 一、信号捕捉处理的概述1、信号捕捉处理全过程2、用户态和内核态的区别&#xff08;一&#xff09;用户态&#xff08;二&#xff09;内核态&#xff08;三&#xff09;用户态与内核态的切换&#xff08;四&#xff09;硬件条件 二、再谈进程地址…

Nyquist内置函数-概述

1 Nyquist内置函数-概述 本章提供奈奎斯特&#xff08;Nyquist&#xff09;语言参考。操作按功能和抽象级别分类。奈奎斯特在两个重要级别上实现&#xff1a;“高级”级别支持行为抽象&#xff0c;这意味着像 stretch 和 at 这样的操作可以应用。这些函数是典型用户期望使用的…

数据驱动防灾:AI 大模型在地质灾害应急决策中的关键作用。基于DeepSeek/ChatGPT的AI智能体开发

全球气候变化加剧了滑坡、泥石流等地质灾害的发生频率与不确定性&#xff0c;传统基于统计与物理模型的预测方法常受限于‌数据稀疏性‌与‌动态耦合复杂性‌。近年来&#xff0c;AI智能体&#xff08;AI Agents&#xff09;与大型语言模型&#xff08;LLMs&#xff09;的突破为…

光谱相机在工业中的应用

光谱相机&#xff08;多光谱、高光谱、超光谱成像技术&#xff09;在工业领域通过捕捉物质的光谱特征&#xff08;反射、透射、辐射等&#xff09;&#xff0c;结合化学计量学与人工智能算法&#xff0c;为工业检测、质量控制和工艺优化提供高精度、非接触式的解决方案。以下是…

Dify工作流中如何去除deepseek-r1思考内容

在工作流中deepseek-r1的think标签内部的内容&#xff0c;很容易让工作流其他的llm产生幻觉&#xff0c;导致不能良好的生成目标效果。 我们通过代码的方式让deepseek-r1既有think思考链的效果&#xff0c;又不传递思考链。 工作流的逻辑为上图 去除think中的代码为 import re…

容器的CPU

1、限制进程的CPU 通过Cgroup来限制进程资源的使用&#xff0c;CPU Cgroup 是 Cgroups 其中的一个 Cgroups 子系统&#xff0c;它是用来限制进程的 CPU 使用的。 cpu.cfs_period_us&#xff0c;它是 CFS 算法的一个调度周期&#xff0c;一般它的值是 100000&#xff0c;以 mic…

【系统分析师-第二篇】

学习目标 通过参加考试&#xff0c;训练学习能力&#xff0c;而非单纯以拿证为目的。 1.在复习过程中&#xff0c;训练快速阅读能力、掌握三遍读书法、运用番茄工作法。 2.从底层逻辑角度理解知识点&#xff0c;避免死记硬背。 3.通过考试验证学习效果。 学习方法 第二遍快速…

【再探图论】深入理解图论经典算法

一、bellman_ford 1. 是什么松弛 在《算法四》中&#xff0c;对松弛的解释是&#xff1a;relax the edge&#xff0c;看起来比较抽象&#xff0c;不过如果我们从生活中的实例去理解&#xff0c;就简单多了&#xff1a; 试想一根绳索&#xff0c;当你握着绳索的两头使劲用力拉…

基于pycharm的YOLOv11模型训练方法

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、前期准备1.1 软件环境配置1.2 训练集参考 二、训练步骤2.1 打开文件夹2.2 打开文件2.3 data.yaml最终代码 三、train.py四、最终结果五、detect.py六、 拓展…

用nodejs连接mongodb数据库对标题和内容的全文本搜索,mogogdb对文档的全文本索引的设置以及用node-rs/jieba对标题和内容的分词

//首先我们要在Nodejs中安装 我们的分词库node-rs/jieba,这个分词不像jieba安装时会踩非常多的雷&#xff0c;而且一半的机率都是安装失败&#xff0c;node-rs/jieba比jieba库要快20-30%&#xff1b;安装分词库是为了更好达到搜索的效果 这个库直接npm install node-rs/jieba即…

水下声呐探测仪,应急救援中的高效水下定位技术|深圳鼎跃

近年来&#xff0c;随着水域活动增多及自然灾害频发&#xff0c;水下救援需求日益增长。传统人工打捞方法在复杂水域中效率低、风险高&#xff0c;尤其在能见度差、水流湍急或深水区域中&#xff0c;救援难度倍增。 在此背景下&#xff0c;水下声呐探测仪凭借其声波定位与视频…

AI 网关代理 LLMs 最佳实践

作者&#xff1a;付宇轩&#xff08;计缘&#xff09; DeepSeek/QWen 普惠 AI 趋势 随着 DeepSeek-R1 的横空出世&#xff0c;又一次点燃了原本已经有点冷淡的大语言模型市场和话题&#xff0c;并且快速成为了现象级&#xff0c;小到中小学生&#xff0c;大到父母辈都知道了中…

策略模式实际用处,改吧改吧直接用,两种方式

controller RestController RequestMapping("admin/test") RequiredArgsConstructor(onConstructor __(Autowired)) public class TestController {Autowiredprivate VideoFactory VideoFactory;GetMapping("getList")public R getList(){// 第一种方式T…