关闭广告

可逐字复现畅销书,多家巨头AI模型被指存储版权作品

IT之家2026-02-24 12:00:0167人阅读

IT之家 2 月 24 日消息,全球顶尖人工智能模型可通过提示词,生成与畅销小说几乎逐字相同的内容,这对 AI 行业声称其系统不存储受版权保护作品的说法提出了新的质疑。


近期多项研究显示,来自 OpenAI、谷歌、Meta、Anthropic 和 xAI 的大语言模型,对训练数据的记忆量远超此前认知。

AI 及法律专家向《金融时报》表示,这种“记忆”能力,可能对全球 AI 企业应对数十起版权诉讼产生重大影响,其直接动摇了这些企业的核心抗辩理由:大语言模型只是从受版权保护作品中“学习”,而非存储副本。

伦敦帝国理工学院应用数学与计算机科学教授伊夫-亚历山大 · 德蒙茹瓦称:“越来越多证据表明,模型记忆现象比此前认为的更为普遍。”

长期以来,AI 企业均否认存在记忆行为。在 2023 年致美国版权局的一封信中,谷歌曾表示:“模型本身并不存储训练数据副本,无论文本、图像或其他格式。”

AI 行业还主张,使用受版权书籍训练模型属于“合理使用”,认为该技术将原作品转化为具有全新意义的内容。

但上月发布的一项研究显示,斯坦福大学与耶鲁大学研究人员通过针对性提示词,成功让 OpenAI、谷歌、Anthropic 和 xAI 的大语言模型,输出了《权力的游戏》《饥饿游戏》《霍比特人》等 13 部作品的数千字内容。

通过让模型补全书中句子,谷歌 Gemini 2.5 高精度复现了《哈利 · 波特与魔法石》76.8% 的内容,xAI 的 Grok 3 则生成了 70.3%。研究人员还通过“越狱”(绕过安全限制)Anthropic 的 Claude 3.7 Sonnet,几乎提取了整部小说的完整原文。

这一结论建立在去年一项研究基础之上:该研究发现,Meta 的 Llama 等开源模型,会记住训练数据中特定书籍的大量内容。

此前 AI 专家并不确定,安全防护更严格、能阻止不当内容生成的闭源模型,是否也会出现大规模记忆现象。

参与该研究的耶鲁大学研究员 A· 费德 · 库珀表示:“尽管设有防护机制,模型仍能记住整段文本,这令人意外。”

研究人员尚未弄清大语言模型为何会记住训练数据中的内容,也不清楚模型输出中会体现多少训练数据。

这种记忆特性还可能对医疗、教育等其他领域产生严重影响,训练数据泄露可能引发隐私与保密问题。

法律专家表示,这可能使 AI 企业面临重大版权侵权责任,并影响其模型训练方式与研发成本。

英国品诚梅森律师事务所知识产权合伙人塞里斯 · 温 · 戴维斯称,这些研究发现“可能对那些主张 AI 模型不存储、不复制任何版权作品的观点构成挑战”。

AI 模型是否记忆训练数据,已成为近期版权法律纠纷的关键因素。美国一家法院去年裁定,Anthropic 使用部分受版权内容训练大语言模型可被视为合理使用,因其具有“转化性”。但法院同时认定,存储盗版作品“本质上、无可挽回地构成侵权”,最终该 AI 企业以 15 亿美元(IT之家注:现汇率约合 103.74 亿元人民币)达成和解。

德国去年 11 月的一项判决认定,OpenAI 因模型记忆歌词侵犯版权。此案由词曲作者及出版商协会 GEMA 提起,被视为欧盟标志性判例。

美国 Husch Blackwell 律师事务所合伙人鲁迪 · 特尔舍认为,无需越狱即可完整复制一整本书“显然构成版权侵权”,但问题在于“此类情况是否普遍到足以让 AI 模型承担连带侵权责任”。

Anthropic 表示,斯坦福与耶鲁研究中使用的越狱技术对普通用户并不实用,提取文本所需成本高于直接购买作品。该公司还称,其模型不存储特定数据集副本,只是学习训练数据中词汇与字符的模式和关联关系。

xAI、OpenAI 和谷歌均未回应置评请求。

帝国理工的德蒙茹瓦指出,AI 实验室设置防护机制防止训练数据被提取,这一事实本身就说明它们知晓问题存在。

芝加哥大学计算机科学教授本 · 赵质疑,AI 实验室从一开始是否真的需要使用受版权内容来训练前沿模型。“无论技术上能否实现,问题在于我们应不应该这么做。”赵表示,“法律层面最终应坚守立场,成为整个过程的裁决者。”

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

让AI学会"边看边判断":韩国GIST团队突破视频实时事件分割技术

科技行者 浏览 236 11-11

罗马诺:多特高层将与主帅泰尔齐奇会面,为其提供续约合同

直播吧 浏览 2513 06-03

大众ID.4家族和零跑C11销量相当,应该怎么选择?

二师兄玩车 浏览 2483 06-25

振华重工:提供的起重机不会对港口构成网络安全风险

财联社 浏览 2654 05-09

美媒:中美之间一个变化正在显现 欧盟总部相当纠结

环球时报国际 浏览 68 01-16

斯基拉:后卫卡尔斯多普将在今夏离开罗马

懂球帝 浏览 2764 06-03

更年轻化 新款丰田卡罗拉将于12月21日上市

车质网 浏览 98 12-16

特朗普称"豁免权"裁定是重大胜利 拜登:总统将成国王

财联社 浏览 2491 07-03

消息称6.3英寸小屏机或为OPPO Find X9s,将搭载双2亿镜头

IT之家 浏览 112 12-29

不是这个,重新发皇马官推今日第二推:10魔笛+5贝林=15冠

直播吧 浏览 2525 06-03

以为上百万其实才30万的奔驰车,车友惊叹:真是让人大跌眼镜!

饭后闲聊会儿车 浏览 2610 02-02

看完翁青雅的“车祸现场”,大家不再骂朱丹了

宛沐 浏览 127 11-12

特朗普称"美国拥有无人知晓的武器" 克宫回应

环球网资讯 浏览 63 01-23

傍上 “新中式”,现制酸奶能迎来 “二次爆发” 吗?

餐饮老板内参 浏览 216 10-13

181亿医疗信息化龙头掌舵人周炜,行贿一审被判后辞去董事长

雷达财经 浏览 127 11-10

买插混车盯紧这个数!明年可能多花上万元

中新经纬 浏览 211 10-13

谈判之际擦枪走火 伊无人机冲向美航母或给美动武借口

第一军情 浏览 41 02-04

葡媒:C罗、鲁本-内维斯和奥塔维奥将缺席葡萄牙与爱尔兰友谊赛

直播吧 浏览 2514 06-03

意媒:未过体检,马特塔交易告吹

体坛周报 浏览 34 02-03

印度稀土转卖丑闻曝光,伪造文件骗取稀土转卖老美

大国观察眼 浏览 37 02-02

德约科维奇仅训练12分钟便显露痛苦状态,澳网前景引发担忧

网球之家 浏览 62 01-15
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2