研究发现商业AI模型可完整还原《哈利·波特》原著内容

机器学习模型,特别是商业模型,通常不会公开开发者用于训练的数据集。然而,模型包含哪些内容以及这些材料是否能通过特定提示被提取出来,仍然是具有经济和法律后果的重要问题,更不用说伦理和隐私方面的考量。

Anthropic、Google、OpenAI和Nvidia等公司面临超过60项法律诉讼,这些诉讼指控它们在未经授权的情况下使用受版权保护的内容来训练模型。这些公司已经投入了数千亿美元,基于它们认为使用他人内容是合法的信念。

当法院努力解决AI模型制造商在多大程度上可以声称合理使用作为抗辩理由时,考虑的问题之一是这些模型是否通过在模型权重中编码源材料来记忆训练数据(在训练中学习的参数,决定输出),以及它们是否会按需输出这些材料。

在美国法律下,必须考虑各种因素来确定合理使用是否适用,但如果一个模型在被询问时忠实地再现了特定作品的大部分或全部内容,这可能会削弱合理使用的抗辩。考虑的因素之一是内容使用是否具有"转化性"——如果模型添加了新内容或改变了作品的特征。如果模型逐字照搬受保护的内容,就更难声称这一点了。

但是,机器学习模型可能会完整或部分地再现某些内容这一事实,在法律上也不是决定性的,正如计算机科学家Nicolas Carlini所论证的那样。

为了降低侵权声明的风险,商业AI模型制造商可能会实施"防护栏"——过滤机制——旨在防止模型输出大量受版权保护的内容,无论是文本、图像还是音频形式。

对于公开权重发布的AI模型,计算机科学家已经确定AI模型可能记忆训练数据的大量部分,并且在正确提示的情况下可能将这些数据作为输出呈现。据称,Meta的Llama 3.1 70B"完全记忆"了《哈利·波特与魔法石》——该系列的第一本书——以及乔治·奥威尔的《1984》。此类发现可以追溯到至少2020年。

现在,其中一些相同的研究人员——来自斯坦福大学和耶鲁大学的Ahmed Ahmed、A. Feder Cooper、Sanmi Koyejo和Percy Liang——发现生产中使用的商业模型,具体是Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro和Grok 3,像开放权重模型一样记忆并能够再现受版权保护的材料。

作者表示,由于商业模型实施的安全措施以及训练语料库缺乏透明度,这并不是理所当然的。

"总的来说,我们发现可以从所有四个生产大语言模型中提取记忆的受版权保护材料的大部分内容,尽管成功程度因实验设置而异,"他们在题为"从生产语言模型中提取书籍"的预印本论文中解释道。

在评估的模型中,记忆文本的召回率各不相同,对于某些模型,需要进行越狱——设计用于绕过安全机制的提示——才能让模型更加配合。

"我们从越狱的Claude 3.7 Sonnet中提取了几乎整本《哈利·波特与魔法石》,"作者说,召回率达到95.8%。使用Gemini 2.5 Pro和Grok 3,他们能够在没有任何越狱的情况下诱导模型产生该书的大量内容,分别为76.8%和70.3%。

OpenAI的GPT-4.1被证明是最有抵抗力的,在被询问时只拼写出了该书的4%。

研究人员警告说,提到的召回率并不代表最大可能值,他们说已经向Anthropic、Google DeepMind、OpenAI和xAI报告了他们的发现。只有xAI——目前因其Grok模型按需生成非自愿性图像而面临批评——未能确认这一披露。

"在90天披露窗口结束时(2025年12月9日),我们发现我们的程序仍然适用于我们评估的某些系统,"作者说,但没有确定相关的系统提供商。

Anthropic在2025年11月29日撤回了Claude 3.7 Sonnet作为客户的选项,但这不一定是对研究发现的回应——该模型可能只是被取代了。

研究人员表示,虽然他们将模型内容再现的详细法律分析留给其他人,"我们的发现可能与这些正在进行的辩论相关。"

Q&A

Q1:什么是AI模型记忆训练数据,这意味着什么?

A:AI模型记忆训练数据是指模型在训练过程中将源材料编码到模型权重中,并能在特定提示下完整或部分输出这些内容。这意味着商业AI模型可能会逐字重现受版权保护的材料,如整本书籍内容。

Q2:哪些商业AI模型能够还原《哈利·波特》内容?

A:研究发现Claude 3.7 Sonnet经过越狱后能提取95.8%的《哈利·波特与魔法石》内容,Gemini 2.5 Pro和Grok 3在无需越狱的情况下分别能提取76.8%和70.3%的内容,而GPT-4.1的提取率最低,仅为4%。

Q3:AI模型记忆版权内容会带来什么法律风险?

A:这可能削弱AI公司声称"合理使用"的法律抗辩,特别是当模型能够逐字重现受保护内容时,很难声称使用具有"转化性"。目前Anthropic、Google、OpenAI等公司已面临超过60项相关版权侵权诉讼。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1135977.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DDACLSys.dll文件丢失找不到问题 免费下载分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

Pspice在OrCAD Capture中的仿真探针使用深入解析

Pspice仿真探针实战指南:如何在OrCAD Capture中精准捕获电路行为你有没有遇到过这样的场景?花了半小时搭好一个Buck电路,信心满满地跑完瞬态仿真,结果打开波形一看——关键节点没监控、电流纹波看不见、效率曲线还得手动算。更糟的…

ddodiag.exe文件丢失找不到问题 免费下载方法

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

从零实现AUTOSAR NM报文唤醒的软件配置

AUTOSAR NM报文唤醒:从配置到落地的完整实践指南你有没有遇到过这样的场景?整车钥匙未插入,但某个车门模块却频繁“醒来”,继而耗尽蓄电池;或者遥控解锁时响应迟钝,排查半天才发现是网络管理状态没对齐。这…

UVC协议实现高清视频传输:项目应用详解

UVC协议如何让高清视频“即插即用”?一个嵌入式工程师的实战笔记你有没有遇到过这样的场景:花了几千块买的专业摄像头,插上电脑却还要装一堆驱动;或者在Linux板子上调了三天图像采集程序,结果换到Windows又得重来一遍&…

dll一键修复工具 dll运行库修复工具下载

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

Razer在2026年CES展会推出全息AI伴侣项目

去年Razer展示了Project Ava数字助手,它生活在你的电脑中帮助调整设置或提供游戏建议。但现在在2026年CES展会上,该公司的AI伴侣平台获得了重大升级,同时搬入了新的"住所"。现在,Project Ava不再完全局限于你的PC屏幕&a…

独立IP服务器有哪些常见的应用场景?

独立IP服务器凭借其专属IP地址、高安全性和稳定性,在多个关键业务场景中发挥着重要作用。以下是独立IP服务器的主要应用场景:一、大型企业网站与电商平台独立IP服务器是大型企业官网和电商平台的首选方案。对于日均访问量百万级的企业网站,独…

模拟信号基础知识体系梳理:完整学习路径

模拟信号从入门到实战:一条清晰的技术成长路径 你有没有遇到过这样的情况? 传感器输出的电压明明应该稳定在1.65V,可实测却一直在跳动;心电图信号刚放大就自激振荡,像收音机搜台时的“滋滋”声;或者ADC读数…

Vitis安装与Xilinx USB下载器驱动兼容性完整指南

Vitis 安装后无法识别硬件?彻底解决 Xilinx USB 下载器驱动兼容性问题 你有没有遇到过这样的情况:好不容易把 Vitis 装好,项目也建好了,结果一点击“Program Device”—— 设备管理器显示未知设备,Vivado Hardware M…

模拟电路基础知识总结:新手入门必看的十大核心概念

模拟电路入门:从零开始理解真实世界的信号处理你有没有想过,为什么你的耳机能还原出歌手细微的呼吸声?为什么温度传感器可以精确到0.1℃?这些看似平常的功能背后,其实都依赖于一个常被忽视却至关重要的技术领域——模拟…

从零搭建鲲鹏 HPC 环境:从朴素矩阵乘法到高性能实现

一、引言 高性能计算(HPC)是科学研究和工程应用的重要支撑,而矩阵运算是 HPC 领域最基础也最重要的操作之一。本文将通过一个简单但实用的案例,矩阵乘法的并行优化,从零开始在鲲鹏平台上进行 HPC 开发实践。 二、环境准…

救命神器 9款一键生成论文工具测评:继续教育论文写作全攻略

救命神器 9款一键生成论文工具测评:继续教育论文写作全攻略 2026年继续教育论文写作工具测评:高效创作的得力助手 在继续教育领域,论文写作不仅是提升专业能力的重要环节,更是职称评定、成果展示的关键环节。然而,面对…

双卧轴搅拌机与立轴行星式搅拌机哪种设备好?

在混凝土搅拌设备领域,双卧轴搅拌机与立轴行星式搅拌机犹如两颗并行的星辰,各自在特定场景中闪耀着独特光芒。二者并非简单的替代关系,而是通过差异化设计满足不同工程需求的互补型设备。小编将从技术原理、应用场景、维护成本三个维度展开分…

基于DWA的动态环境下多智能体自主避障路径优化附MATLAB代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f34…

数字化SPC项目申报,看这个投资回报评估就够了...

之前的两篇文章中,我给大家分析了Excel和纸面SPC的种种问题,也介绍了数字化SPC的应用场景: 还在用Excel做SPC分析?你得看看这个…… 数字化SPC系统:七大应用场景,从“被动响应”到“主动预防”的转变 看完之后会有人觉得应该上一个数字化SPC系统,解决当前的燃眉之急。…

力扣hot100:每日温度

题目描述:思路分析(单调栈)这道题最优解是使用单调栈(Monotonic Stack)。核心思想:我们从左到右遍历每一天。用一个栈来维护一个从栈底到栈顶温度严格递减的索引序列(即栈中保存的是还没有找到更…

直播云服务器安全防护有哪些常见的误区?

直播云服务器安全防护存在多个常见误区,这些错误观念可能导致严重的安全漏洞。以下是主要误区及正确做法:一、认为云服务器绝对安全,无需额外防护错误观念:许多用户认为云服务提供商已经提供了足够的安全措施,因此自己…

RenderDoc使用指南

最终情况: 参考文档: https://renderdoc.org/docs/getting_started/index.html 本文章简要介绍了使用RenderDoc进行应用程序捕获与分析的基本流程。内容不涉及具体的功能细节(相关说明可在其他文档中查阅),而是重点阐述…

鲲鹏平台 HPC 高性能计算应用实践:矩阵乘法并行优化从入门到精通

一、写在前面 上一篇文章里,我们一起搭建了鲲鹏开发环境,装好了Visual Studio Code的鲲鹏DevKit插件,还实现了矩阵乘法的前两个版本:朴素实现(0.26 GFLOPS)和缓存优化版本(1.22 GFLOPS&#xf…