少找工具,多做创作

AI训练数据确权争议升级 苹果等巨头涉盗版书侵权遭起诉

2026年3月18日,心灵鸡汤出版社发起版权侵权诉讼,将苹果、MetaxAI谷歌AnthropicOpenAI、Perplexity、英伟达等全球顶尖科技巨头列为被告,指控上述企业使用含大量盗版书籍的The Pile数据集训练AI模型,核心争议点为数据集中的Books3模块涉嫌收录海量受版权保护作品。苹果回应称相关数据集仅用于开源研究项目OpenELMs,未应用于核心AI服务Apple Intelligence

这场几乎覆盖全球所有头部AI参与者的诉讼,再次把AI训练数据的版权灰色地带摆到了台面上。作为全球AI训练领域使用最广泛的开源数据集之一,The Pile由22个不同的文本子集构成,其中专门收录出版书籍的Books3模块,一直是版权争议的焦点——该模块内容全部爬取自民间影子图书馆,其中超过七成内容没有获得版权方授权。

针对本次指控,苹果的回应格外谨慎。其公开声明中明确强调,公司自2024年起就已经全面启动AI训练数据的合规化改造,所有用于商用产品的训练数据均经过版权审核,涉及The Pile数据集的使用仅出现在面向学术圈的OpenELMs开源项目中,该项目从未向普通用户开放,也没有为Apple Intelligence的训练提供任何数据或技术支持。

但法律界的分析并不像苹果声明那样乐观。有知识产权律师指出,当前全球范围内尚未就AI训练数据的“合理使用”边界形成统一司法标准,即便仅用于非商用研究,如果相关研究成果间接为商用模型的迭代提供了参考,依然有可能被判定为侵权。有消息称原告方已经掌握了苹果部分基座模型训练过程中调用过Books3内容的相关证据,苹果的辩护主张能否得到法院支持仍存在较大不确定性。而英伟达被诉的原因则是其开源的NeMo大模型开发框架默认提供了The Pile数据集的一键下载接口,被认定为为侵权行为提供了便利。

事实上,本次诉讼并非AI训练数据版权争议的首次爆发。过去三年间,已有超过200名作家、12家出版社先后对OpenAI、谷歌等企业发起侵权诉讼,索赔总金额超过10亿美元。而本次诉讼将英伟达、苹果等此前较少卷入数据版权纠纷的企业列为被告,也意味着维权方的追责范围正在从模型提供方向全产业链延伸。

在监管和诉讼的双重压力下,头部科技企业已经开始主动调整数据策略。除了苹果在2024年启动的合规数据集项目外,OpenAI、Meta等企业也先后与企鹅兰登、哈珀柯林斯等头部出版集团达成了内容授权协议,为训练数据获取合法版权。据行业机构测算,仅2025年全球AI企业支付的内容版权费用就已经超过37亿美元,同比增长182%。

本次集体诉讼也被业内视为推动AI训练数据确权规则出台的重要契机。有参与相关立法研讨的人士透露,目前中美欧均在加快制定AI训练数据的版权规范,未来可能会明确“商用训练必须获得授权、非商用研究可适用合理使用例外”的核心原则,同时配套建立训练数据溯源、登记的统一标准。

可以预见的是,随着版权规则的清晰,AI训练的“数据红利”时代将逐步结束,靠爬取公开免费数据做模型的路径将难以为继。一方面头部企业的合规成本会进一步上升,另一方面也会催生出专门的AI训练数据交易、确权服务市场,为内容创作者提供新的收益渠道。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯
AI小创