LLM安全新威胁:为什么几百个毒样本就能破坏整个模型

news/2025/10/25 19:12:25/文章来源:https://www.cnblogs.com/deephub/p/19165862

数据投毒,也叫模型投毒或训练数据后门攻击,本质上是在LLM的训练、微调或检索阶段偷偷塞入精心构造的恶意数据。一旦模型遇到特定的触发词,就会表现出各种异常行为——输出乱码、泄露训练数据、甚至直接绕过安全限制。

这跟提示注入完全是两码事。提示注入发生在推理阶段,属于临时性攻击;而投毒直接改写了模型的权重,把恶意行为永久刻进了模型里。

几种主流的攻击方式

预训练投毒最隐蔽,攻击者把恶意文档混进海量的预训练语料,在模型最底层埋下后门。微调投毒则是在RLHF或监督学习阶段动手脚,贡献一些看起来正常实则带毒的样本。

RAG系统也不安全。攻击者可以污染向量数据库里的文档或embedding,让检索系统在生成回答时调用错误甚至恶意的上下文。还有标签翻转这种简单粗暴的方法,直接改掉训练样本的标签来扭曲模型的决策边界。

最巧妙的是后门触发器攻击——把一个看似无害的短语或token序列跟特定的恶意输出绑定。模型一旦在推理时碰到这个触发器,就会立刻执行预设的恶意行为。

 

https://avoid.overfit.cn/post/b5f759d6ec8b4174afbf1f4ce46c2fa7

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/946368.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软件技术基础第二次作业

这个作业属于哪个课程 https://edu.cnblogs.com/campus/zjlg/25rjjc这个作业的目标 加强编程能力,熟悉码云平台操作姓名-学号 应苒媞-2023329301007码云仓库地址:https://gitee.com/kimmy1112/text-counter.git

前后端分离毕设课题:基于React.js+Java+Springboot框架+Mysql数据库在线买菜商城专业的系统设计与实现

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

vue3 不同构建版本

Vue3中不再构建UMD模块化的方式,因为UMD会让代码有更多的冗余,它要支持多种模块化的方式。 Vue3中将CJS、ESModule和自执行函数的方式分别打包到了不同的文件中。在packages/vue中有Vue3的不同构建版本。 1.cjs(两个…

使用 Android NDK 获取 YUV420p摄像头原始数据

使用 Android NDK 获取 YUV420p摄像头原始数据使用 Android NDK 获取 YUV420p摄像头原始数据 首先frameworks/av/camera/Camera.cpp已经过时了不要再使用它了, 当然想要更换旧的Camera的成本也不小,一般公司也不会做. …

2025 年 Python 数据分析全栈学习路线:从入门到精通的进阶指南 - 实践

2025 年 Python 数据分析全栈学习路线:从入门到精通的进阶指南 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: &…

百度智能云一念智能创作优秀的平台

百度智能云一念智能创作优秀的平台2025-10-25 19:01 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !impo…

高阳台一首

高陽臺己巳九月既生魄,忽念桂花,然彼時閑花俱謝,有感,作此篇玉掌翻僊,金顏渫淚,碧雲零落陳霜。 錦字銜書,書前有雨橫泱。 鞦韆院里無情樹,正花前、短夢留芳。 恨漫漫,不解東流,卻下瀟湘。 銷魂幾度高唐夜,剩…

【深度相机术语与概念】 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

文档扩展名.js .jsx .ts .tsx区别(JavaScript扩展名、React扩展名、TypeScript扩展名)

文档扩展名.js .jsx .ts .tsx区别(JavaScript扩展名、React扩展名、TypeScript扩展名)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important…

AI元人文:共识锚定的基石——语境主权

AI元人文:共识锚定的基石——语境主权 引言 在人工智能价值交互的探索中,"共识锚定"机制以其三级操作体系展现出解决价值冲突的潜力。然而,在当下的学术探讨中,这一理论框架背后存在着一个不曾谈及却至关…

MySQL5.7安装及配置

https://blog.csdn.net/rucoding/article/details/121154137学而不思则罔,思而不学则殆!

uniapp打包安卓跟ios记录

uniapp打包安卓跟ios记录安卓运行: 下载个模拟器,然后顶部 运行-运行到手机或模拟器-运行到 Android App基座-选择模拟器 运行 安卓打包: 顶部 发行-App Android/ios 云打包。自有证书:包名/证书/证书库密码/证书别…

Windows 11 家庭版关闭自动更新

Windows 11家庭中文版可通过禁用Windows Update服务、修改注册表或使用第三方工具(如百贝系统更新工具)彻底关闭自动更新,但需注意禁用更新会带来安全风险,建议优先使用系统内置的暂停更新功能(最长5周)作为临时…

ASP.NET Core Blazor简介和快速入门三(布局和路由)

​大家好,我是码农刚子。本文介绍了Blazor中的布局、路由和条件渲染功能。在布局方面,详细讲解了如何创建和应用布局组件(继承LayoutComponentBase),包括默认布局MainLayout的使用、嵌套布局的实现方式以及如何控…

实用指南:functools 是 Python 的标准库模块

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

碎碎念(0....)

积攒了一堆想法,稍微整合下大部分的都随手记在文件传输助手里了太酷了,我想做一个东方的这种效果的平台 https://aidn.jp/ 意念VR眼睛 意念VR眼镜 模型构想: 通过VR的可视化,接入语言模型,实现文字的意念输入 任务…

紫外分光光度计生产商推荐品牌:仪器厂家服务哪家最好

紫外分光光度计生产商推荐品牌:北京普析通用仪器有限责任公司 在科学仪器领域,紫外分光光度计作为一种重要的分析工具,广泛应用于化学、生物、医药、环境等多个行业。选择一款质量可靠的紫外分光光度计,对于科研和…

Elasticsearch 搭建(亲测) - 实践

Elasticsearch 搭建(亲测) - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco&q…

权威调研榜单:石英砂生产线厂家TOP3榜单好评深度解析

石英砂生产线行业技术发展与市场概况 石英砂生产线作为矿山装备领域的重要组成部分,其技术水平直接影响石英砂产品的质量和生产效率。据行业统计数据显示,2025年全球石英砂生产线设备市场规模预计达到380亿元,年增长…

2025年国产液相色谱仪厂家哪家强?国产仪器权威推荐

国产液相色谱仪厂家哪家强?——北京普析通用仪器有限责任公司深度解析 在当今科学仪器领域,液相色谱仪作为重要的分析工具,广泛应用于医药、环保、食品等多个行业。而在众多国产液相色谱仪厂家中,北京普析通用仪器…