机器学习中的数据投毒:人们为何以及如何操纵训练数据

数据投毒是指以某种方式改变用于构建机器学习模型的训练数据,从而改变模型的行为。这种影响仅限于训练过程,一旦模型被篡改,损害就无法挽回。模型将出现不可逆转的偏差,甚至可能完全失效,唯一的真正解决办法是使用干净的数据重新训练模型。

你知道你的数据都去了哪里吗?

数据是机器学习乃至人工智能运行不可或缺的重要组成部分,尽管它有时会被忽视。生成式人工智能公司正在全球范围内搜寻更多数据,因为构建模型需要大量的原始数据。任何构建或调整模型的人都必须首先收集大量数据才能开始。

然而,这种现实也带来了一些相互冲突的激励机制。保护数据的质量和真实性是安全的重要组成部分,因为这些原始数据将决定您提供给用户或客户的机器学习模型的成败。不法分子可以策略性地在您的数据集中插入、修改或删除数据,而您可能根本察觉不到这些操作,但这些操作会系统性地改变模型的行为。

与此同时,艺术家、音乐家和作家等创作者正与猖獗的版权侵权和知识产权盗窃行为进行着一场旷日持久的斗争,而这些侵权行为主要来自那些需要更多数据来填充其庞大训练过程的生成式人工智能公司。这些创作者正在寻求能够阻止或遏制这种盗窃行为的措施,而不是仅仅依赖往往行动迟缓的法院。

此外,随着各公司竭尽全力用人工智能搜索取代传统搜索引擎,那些依赖搜索排名来维持业务的公司正面临困境。如果过去几十年在搜索可见性方面的投资不再有效,那么你该如何触达客户,又该如何向公众展现你理想的品牌形象呢?

这三个案例都指向同一个概念——“数据投毒”。

一 什么是数据投毒

简而言之,数据投毒是指以某种方式改变用于构建机器学习模型的训练数据,从而改变模型的行为。这种影响仅限于训练过程,一旦模型被篡改,损害就无法挽回。模型将出现不可逆转的偏差,甚至可能完全失效,唯一的真正解决办法是使用干净的数据重新训练模型。

这种现象对自动重训练构成威胁,因为自动重训练中人为观察极少;但即使对观察非常充分的训练也存在风险,因为训练数据的改变通常对普通观察者来说是不可见的。例如,Hartle等人(2025)引用的一项关于掺假医疗错误信息的研究表明,“15名临床医生被要求确定掺假后的结果和基线结果;审阅者无法确定两个结果之间的差异……当特定概念的数据被掺假0.001%时,有害内容增加了4.8%。”

尝试对被污染的数据进行逆向工程并清除,大多以失败告终。虽然人们尝试过“机器学习反学习”等技术,但如果无法检测到问题数据,这些努力就很难取得进展。即使能够检测到数据,研究人员也发现,从模型架构中移除痕迹并不能有效消除损害。

数据投毒可以采取多种不同的形式,因此我将从后往前,讨论数据投毒的三种具体动机、它们的运作方式以及它们的结果:

  • 犯罪活动
  • 防止知识产权盗窃
  • 营销

二 犯罪活动

犯罪分子进行数据投毒的原因有很多。许多模型为了实现其目标(例如,协助用户使用银行软件,或为医疗机构提供最佳治疗方案建议等),需要访问高度敏感或极具价值的数据。如果这些数据可能用于牟利,那么就会有人试图获取或篡改这些数据以达到自身目的。

1.工作原理

数据投毒可能是一个漫长的过程,因为它需要篡改训练数据,但在某些情况下,它仍然非常隐蔽且有效。去年七月,我在IEEE CISOSE会议上了解到一些相关信息。当时Sofiane Bessaï发表了一篇论文,探讨了如何识别此类案例,以期减轻攻击的影响。正如他们所说,“这些攻击会在输入数据中引入难以察觉的扰动,导致模型做出置信度很高的错误预测。”这意味着对训练数据的更改完全不明显,对训练数据进行统计分析也很难发现这些更改。然而,通过仔细评估训练模型的行为,您更有可能逆向工程出发生了什么。

研究还表明,此类攻击所需的数据量并不大。Souly等人(2025)的研究表明,实际上,250份文档就足以在多种不同的应用场景下,针对不同规模的文本模型训练集实施投毒攻击。

2.后果

这类攻击可能存在几种不同的目标。例如,如果模型被削弱且性能下降,网络安全模型可能无法识别网络入侵。或者,攻击者可以做出虚假预测。这可能非常有效,因为当输出通常“正常”,但少数情况偏离标准模型行为时,缺陷更难被发现,模型也更有可能继续在生产环境中运行。只要模型的行为只是略微偏向攻击者想要的结果,其他人就很难察觉到任何异常。试想一下,如果有一个模型用于决定谁能获得贷款批准,或者贷款金额是多少——如果这个模型只向极少数人提供条件苛刻的高额贷款,而大部分时间表现正常,那么这可能是一次非常有利可图的攻击。

但数据投毒并非仅用于犯罪活动——它实际上还有其他用途。

三 防止知识产权盗窃

当我们谈到通过数据投毒来防止或惩罚知识产权盗窃时,我们指的是数据投毒的目的并非改变模型的特定行为,而是试图让模型训练失败,尤其是在未经授权或许可使用某些内容的情况下。其目标可能是使模型无法学习特定数据中的模式,或者由于训练中使用的内容被盗用而导致模型推理性能极差,从而使模型完全无法使用。

1.工作原理

与其将其视为攻击,不如将其视为内容创作者的一种防御机制。当创作者使用Nightshade等工具在作品中运用此类技术时,他们可以添加一些肉眼几乎无法察觉的效果,但这些效果对于神经网络的训练过程却意义重大。研究表明,这种方法只需创作者拥有少量训练图像即可奏效,并不依赖于海量图像。

然而,这并非数据投毒领域中唯一的知识产权保护方案。还有一种名为Glaze的工具,它可以阻止模型复现图像风格,但通常不会干扰训练过程。创作者可以在不影响图像的情况下,更改图像的标签或文本描述方式,因为训练文本到图像生成人工智能模型需要图像-文本对。某些数据投毒行为实际上可以导致版权侵权,以此证明训练中使用了受版权保护的内容,这可以作为法庭案件的关键证据。

这些策略或许也适用于其他媒体。AntiFake是一款能够改变录音中声波的工具,它可以防止个人的声音被用于模型训练,就像 Glaze 一样,从而避免模型学习到单个样本。理论上,也可以通过有意改变语言语义来扭曲文本生成模型。语言学习模型 (LLM) 会学习人类语言模式中词语之间的关系,因此,如果训练中包含一段故意违反或篡改这些模式的文本,就会干扰模型的学习过程。如果 LLM 学习到不准确的人类语言模式,它生成的语言就会显得缺乏说服力,甚至完全怪异。

在每种情况下,期望的结果要么是使训练数据不将其特征贡献给模型的底层架构,从而防止复制或模仿该数据,要么是使模型的行为如此出乎意料或如此不恰当,以至于只要训练中包含受版权保护的材料,用该数据训练的模型就无法使用。

2.后果

在这种情况下进行数据投毒的用户通常希望引起注意——这不是隐蔽攻击,他们也不是想通过改变模型行为来牟利。相反,他们希望基于其知识产权训练的模型变得毫无用处,无论是在总体上还是在复制和复现其作品方面。最终,这将使窃取其知识产权或内容的行为对相关生成式人工智能公司而言无利可图。

许多开发者希望利用被污染的数据进行训练所带来的经济损失能够降低到足以改变行业行为的程度。因为这种形式的数据污染的影响往往在训练开始或至少已经进行之前难以察觉,所以开发者已经在计算能力、电力和数据收集方面投入了一定的资金,一旦发现训练数据已被篡改,这些投入就可能付诸东流。

四 营销

数据投毒的第三个应用领域是广义的营销领域。它是搜索引擎优化(SEO)的一种新演变。

1.SEO

在搜索引擎优化中,营销人员会创建一些网页,供搜索引擎抓取,这些网页的内容要对客户的品牌特别有益或互补。然后,营销人员会在这些网页之间建立链接,因为搜索引擎会将链接数量作为算法的一部分,以此来决定在搜索结果中推荐哪些网页。通过创建更多相互链接的网页,如果这些网页包含对客户有益的内容,搜索引擎就会在相关的搜索结果中给予这些网页更高的排名。

2.工作原理

人工智能优化与此类似。营销人员不再为了吸引搜索引擎算法的注意力而创建网络内容,而是创建会被抓取用于生成式人工智能模型开发的训练数据的内容。根据预期效果的不同,这可能需要相当大的数据量,但正如我们在讨论犯罪数据投毒时所了解到的,对模型行为的影响往往可以用比你想象中更少的数据量来实现。

值得注意的是,LLM(语言学习模块)也为创建所有这些培训内容提供了支持。如今,生成海量看似真人撰写的文本内容比以往任何时候都更加便捷且成本更低,因此大规模高效地生成营销文案在经济上是完全可行的。

通过向训练数据中添加对客户品牌有利的目标内容,您开始以某种方式扭曲训练数据池,这意味着模型可能会偏袒您的客户品牌和/或以微妙的方式对竞争对手表现出偏见。

3.后果

微妙之处至关重要,因为营销人员并不希望这种做法被人察觉——如果过于明显,可能会显得用力过猛,而且生成式人工智能模型提供商可能会注意到并试图纠正。相反,他们追求的是一种微妙但具有统计学意义的品牌偏好,而这种偏好会在用户实际使用该模型时,从客户和用户数据中逐渐显现出来。

虽然这未必是我们通常意义上的攻击或恶意行为,但它试图违背模型设计者的意愿来扭曲模型结果,这违反了大多数生成式人工智能产品的服务条款和可接受使用政策。然而,要准确界定这种不当行为究竟是什么却并非易事。毕竟,营销人员并没有强迫研究人员使用这些数据来训练逻辑逻辑模型(LLM)。生成式人工智能公司会尽可能地抓取互联网上的所有数据,收集他们能找到的每一个网页,以充实可用的训练数据——有时这其中就包含这类数据。这种行为的出现似乎是意料之中的。

4.当模型搜索时

此外,主流的LLM系统现在也将网络搜索纳入其代理工具包,一些AIO(一体化营销)营销人员也在努力确保网络内容能够根据进行网络搜索的LLM的“偏好”进行定制。通过实验,有时可以识别出哪些词组会出现在网络搜索结果中,并最终出现在LLM生成的用户回复中。这并非训练数据污染策略,而是更接近于提示工程或上下文工程,因为模型会接收搜索结果并利用它们来生成输出。然而,其效果与LLM对用户的回复带有品牌偏好或反感的倾向相同。

五 应对数据中毒

因此,如果您使用从您无法控制的来源提取/由他人创建的数据来训练模型,您应该如何避免数据中毒?

首先,不要窃取数据用于训练。这不仅在道德上站得住脚,而且你无法保证数据不会被篡改——一方面,如果数据属于他人的知识产权,而你没有获得使用授权;另一方面,如果数据已被恶意人员获取。你或许运气好,数据本身没有问题,但很可能在你投入资源后才会发现问题。

其次,要监控和控制数据收集,并对训练数据进行审核和清理。即使是流行的开源免费数据,背后也可能存在恶意行为。务必采取谨慎的步骤来清理和分析数据,并养成良好的数据卫生习惯。不要把垃圾数据直接扔进训练集,然后指望它能神奇地生成一个好模型。

第三,管理和观察你的训练过程。如果模型自动重新训练,你可以对训练数据进行一些测试;你也可以运用一些科学方法来识别模型是否受到了“毒害”,正如我之前提到的。这是一个新兴的研究领域,这些技术会随着时间的推移而不断改进,但目前已经有一些不错的想法。

第四,在实际环境中测试你的模型。生成式人工智能的异常行为很难被发现,部分原因是其应用场景非常广泛,但尽可能在接近真实世界的场景中评估和测试模型至关重要。

现在,我意识到所有这些解决方案都有代价。人们使用免费数据或窃取他人的知识产权,因为为训练机器学习模型所需的所有数据付费可能极其昂贵。我并不声称自己有解决办法,但“我负担不起,所以我要窃取”这种想法在生活的其他任何领域都站不住脚,所以我认为我们不应该在这里也接受这种做法。更广泛的 机器 学习社区,例如数据溯源倡议组织(Data Provenance Initiative),正在探索创建授权数据集和寻找数据可用性的方法,我鼓励读者对此进行更深入的了解。其他解决数据污染的方案也需要投入人力和精力,但要开发出满足我们需求和期望的模型,总是需要权衡取舍。

除此之外,如果您无法控制所用数据或模型的创建过程,则始终存在一定的风险。一般来说,切勿盲目信任模型输出,而应评估和测试您计划使用的模型,尤其是在模型由他人训练的情况下。模型行为是一个充满争议的领域——各方都希望控制生成式人工智能模型的运行方式及其与人类的交互方式,因此我们需要相应地应对这些挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1184342.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026年度重庆全屋定制销售厂家排行榜,解析3大木质家具品牌优选推荐 - 睿易优选

在当前的市场中,重庆全屋定制木质家具逐渐成为消费者青睐的选择。特别是在2026年度的销售厂家排行榜中,多个品牌凭借其独特的设计和高品质材料脱颖而出。各大品牌如重庆志想家具有限公司和广东合生雅居智能家居等,以…

无人机防撞模块技术解析

无人机防撞模块的核心是让无人机自动感知、评估并规避障碍物或空中交通。其技术路线多样,核心差异在于感知方案和决策算法。如何选择合适的防撞方案你可以根据以下维度进行选择:飞行任务与环境:在城市楼宇间飞行,需侧重近距离、多…

完整教程:佛山某机械加工设备工厂10个SolidWorks共享一台服务器的软硬件

完整教程:佛山某机械加工设备工厂10个SolidWorks共享一台服务器的软硬件pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family:…

2026年市场上做得好的打包带企业推荐排行榜,市面上打包带选哪家广营宏利专注产品质量 - 品牌推荐师

在现代工业物流与供应链体系中,打包带作为关键的捆扎固定材料,其性能与可靠性直接关系到货物运输的安全与效率。随着制造业的升级和电商物流的蓬勃发展,市场对打包带的需求日益多样化、专业化,不仅要求高强度、耐腐…

漂浮式水质自动监测站 海水养殖与近海管护的“精准数据管家

监测站的“三易一低一实时”核心特点具体有哪些?如何赋能海洋水质监测?A:监测站整合易部署、易维护、易扩展、低功耗、实时性五大核心特点,全方位优化海洋水质监测流程,破解海洋场景部署难、运维繁、功耗高的痛点&…

拆开手机电脑看门道!这些硬核硬件知识让你秒变科技达人

拆开手机电脑看门道!这些硬核硬件知识让你秒变科技达人一、手机芯片:口袋里的"超级大脑"手机芯片就像迷你版的超级计算机,最新的骁龙8 Gen3和天玑9300都用上了4nm工艺,指甲盖大小的芯片里塞下了上百亿个晶体管。别看它小…

Spring AI宣布支持Agent Skills,Java开发者的福音

Agent Skills是一种模块化能力,以包含YAML前置元数据的Markdown文件形式打包。每个技能都是一个文件夹,其中包含一个SKILL.md文件,该文件包含元数据(至少包括名称和描述)以及指导AI Agent如何执行特定任务的说明。Agent Skills&am…

【Green Hills】Validate授权文件分析和服务端授权部署

1、 文档目标 分析授权文件的结构和各个功能组件进行对应,为后期排查客户授权问题提供理论基础。 记录Helix QAC和Validate服务器端授权快速部署步骤,避免后续出现授权冲突文件,减少售后成本。对QAC授权、Validate授权和license文件间的调用…

提示词工程到AgenticOps:OpenCSG公益课

由特许全球金融科技师CGFT认证项目(Chartered Global FinTech) 、模速空间与OpenCSG(开放传神)联合推出《普通人的AI掘金课——6天学会,马上能用》系列直播课程,提供了一条非常清晰的上升路径:先学会用提示词把任…

小途知识-浮标水质监测站

Q1:这款浮标水质分析仪的核心定位是什么?为何能适配江河湖库水质监测需求?A:核心定位是“江河湖库全域移动化、精准化、智能化水质监测设备”,专注解决传统监测模式灵活性差、覆盖不足、响应滞后的痛点,聚焦…

ACL 2025 新方法 MoC,重新定义文本分块与评估

来自中国人民大学、上海IAAR研究院的团队在ACL 2025上提出的MoC(Mixtures of Text Chunking Learners)框架,不仅创新性地解决了分块质量评估难题,更实现了计算效率与分块精度的最优平衡,为RAG系统性能提升提供了全新思…

探寻2026年优质不锈钢中厚板现货厂家,品质之选在此,不锈钢装饰板/不锈钢六角棒,不锈钢中厚板源头厂家推荐榜单 - 品牌推荐师

当前,不锈钢中厚板作为工业制造、建筑装饰、能源化工等领域的关键材料,其市场需求持续攀升。得益于耐腐蚀、高强度、易加工等核心优势,不锈钢中厚板在复杂工况下展现出稳定性能,成为众多行业升级转型的首选材料。随…

Invicti Enterprise On-Premises v25.11.0 - 企业级应用安全

Invicti Enterprise On-Premises v25.11.0 - 企业级应用安全 Invicti Enterprise On-Premises Released November 2025 请访问原文链接:https://sysin.org/blog/invicti-enterprise/ 查看最新版。原创作品,转载请保留出处。 作者主页:sysi…

宠物洗澡打泡机方案开发,宠物洗澡电动泡泡机MCU控制方案分析

宠物洗澡打泡机主要用于将宠物沐浴液与水混合,通过内部电机/泵产生丰富、细腻的泡沫,直接涂抹在宠物身上,以提升清洁效率和体验。主要功能模块: 泡沫生成:控制水泵/气泵电机,实现水、空气、沐浴液三者的混合…

HGDB中的扫描类型

文章目录 文档用途详细信息 文档用途 介绍HGDB中的扫描类型 详细信息 1、全表扫描 全表扫描在HGDB中也称为顺序扫描(seq scan),全表扫描就是把表的所有数据块从头到尾读一遍,然后筛选出符合条件的数据块。 全表扫描在explain命…

又到一年年终啦,我也浅浅总结下项目经常用到的ES7及以后版本的核心新特性,码友友们,这些你都知道吗

自ES6(ECMAScript 2015)带来大规模语法革新后,ECMAScript标准开启了每年迭代的节奏,从ES7(2016)开始,每个版本都聚焦于实用小特性的补充与优化,逐步解决开发者在日常编码中的痛点。本…

【Java开发】gRPC协议原理剖析及其在微服务架构中的应用

【精选优质专栏推荐】 《AI 技术前沿》 —— 紧跟 AI 最新趋势与应用《网络安全新手快速入门(附漏洞挖掘案例)》 —— 零基础安全入门必看《BurpSuite 入门教程(附实战图文)》 —— 渗透测试必备工具详解《网安渗透工具使用教程(全)》 —— 一站式工具手册《CTF 新手入门实战教…

深度剖析eBPF技术原理及其在微服务网关性能优化中的实践应用

【精选优质专栏推荐】 《AI 技术前沿》 —— 紧跟 AI 最新趋势与应用《网络安全新手快速入门(附漏洞挖掘案例)》 —— 零基础安全入门必看《BurpSuite 入门教程(附实战图文)》 —— 渗透测试必备工具详解《网安渗透工具使用教程(全)》 —— 一站式工具手册《CTF 新手入门实战教…

React Vue 如何让 Cookie 逻辑“秒变优雅”?

你是否还在为 document.cookie 的手动操作头疼?设置一个登录 token,还得手动处理编码、路径、过期时间,一不小心就触发跨域错误或 XSS 风险?更糟的是,每次写代码都像在玩“cookie 拼图”——要么漏了 HttpOnly&#xf…

GBase8s集合类型之关联数组简介

GBase 8s兼容oracle的PL/SQL编程语言,PL/SQL 语法需要显式设置环境变量SQLMODE为’ORACLE’后才能生效,默认情况下8s的SQLMODE为’GBASE’,此时不支持 PL/SQL 语法。本文将介绍GBase 8s兼容oracle模式中的关联数组类型,包括它们的…