发布时间:2026-02-11 作者:admin
和绝大多数科技企业类似,Adobe在过去数年中对人工智能投入巨大。从2023年起,这家软件公司陆续推出了多款不同类型的人工智能服务,其中就包含Firefly——其旗下基于AI技术的媒体生成工具套件。不过,如今公司对这项技术的全面采用或许正带来麻烦,原因是一起新的诉讼指控其使用盗版书籍来训练自身的人工智能模型。
俄勒冈州作家伊丽莎白·莱昂提起了一项集体诉讼,主张Adobe在培训其SlimLM项目时,使用了包含她本人作品在内的多本盗版书籍。
Adobe把SlimLM称作是一个小型语言模型系列,它能够“针对移动设备上的文档辅助类任务进行优化”。相关声明指出,SlimLM是在SlimPajama-627B基础上完成预训练的,而SlimPajama-627B是Cerebras于2023年6月推出的“经过去重处理、包含多语料库的开源数据集”。莱昂曾编写过好几本非虚构写作方面的指南,她表示自己的部分作品被收录到了Adobe所使用的预训练数据集中。
莱昂的诉讼最初由路透社报道,称其文字被纳入一个经过处理的受控数据集子集,而该子集正是Adobe相关项目的基础。诉讼指出:“SlimPajama数据集是通过复制并修改RedPajama数据集(其中包含对Books3的复制)创建的,因此,作为RedPajama数据集的衍生复制品,SlimPajama包含了Books3数据集,其中也涵盖了原告及集体成员的版权作品。”
“Books3”——这个收录了19.1万册书籍、被用于训练生成式人工智能系统的大型资源库——始终是科技圈里不断引发法律纠纷的焦点。RedPajama也在多起诉讼案件中被提及。今年九月,一起针对苹果公司的诉讼指出,苹果在训练其智能模型时使用了受版权保护的材料。该诉讼提到了这个数据集,并指控苹果公司“未经许可、未署名也未支付报酬”就复制了受保护的作品。而在去年十月,一起针对Salesforce的类似诉讼同样声称,该公司将RedPajama用于了模型训练。
不幸的是,这类诉讼如今已变得相当普遍。人工智能算法依赖庞大的数据集进行训练,而部分数据集据称含有盗版内容。今年九月,Anthropic同意向多名作者支付15亿美元赔偿金,这些作者此前曾起诉该公司,指控其使用盗版作品训练旗下聊天机器人Claude。此案被视为围绕AI训练数据中版权材料的持续法律争议的典型案例。
发布于 2026-03-10 16:05:18
发布于 2026-03-10 16:05:14
发布于 2026-03-10 16:04:40
发布于 2026-03-10 16:04:34
发布于 2026-03-10 16:04:30
发布于 2026-03-10 16:03:55