1859年,法国诗人
1906年,
在过去的一个世纪里,
快进到 2023 年,我们拥有了所谓的人工智能。它可以在几秒钟内根据文本提示无缝生成文本、图像、视频和音乐。很多艺术家都很关心。
三位独立视觉艺术家——莎拉·安德森(Sarah Andersen)、凯莉·麦克南(Kelly Mckernan)和卡拉·奥尔蒂斯(Karla Ortiz)——已经提交了申请
马修·巴特里克 (Matthew Butterick) 已经是“针对人工智能的合法版权之战”中的知名人物。
然而,原告的投诉范围很广,基本上涉及所有基于受版权保护的数据训练的生成人工智能模型——所有大型数据都是如此,而且数量巨大。
实际上,如果旧金山联邦法院决定在 7 月 19 日审理此案,尽管
总体而言,集体诉讼背后的三名艺术家试图对生成人工智能模型引起的两个困难的版权问题强加“是”——一个与输入有关,一个与输出有关:
我不是美国版权法方面的专家,只是对这些问题持中立立场的观察者。根据我的研究,我认为第一个问题的答案是“否”,而第二个问题则更难以回答,可能取决于具体情况的评估。
我非常怀疑这场集体诉讼会给我们带来任何答案。
另一起有关 Stable Diffusion 使用和分发图像的未决版权案件
在我看来,盖蒂图片社的诉讼更有可能诉诸法庭,并有助于对版权与生成人工智能的法律理解做出贡献。
主要区别就一句话:盖蒂图片社的诉讼有更好的记录。盖蒂图片社可以证明自己的权利并指出对其权利的具体侵犯,而集体诉讼背后的艺术家则不能。
不幸的是,艺术家的集体诉讼投诉充满了基本错误和关于如何训练稳定扩散以及模型如何生成图像的错误假设。
一群技术爱好者创建了一个网站 http://www.stablediffusionfrivolous.com/,他们在其中指出了投诉中的一些技术不准确之处。
在这里,我将重点讨论艺术家如何解决或者没有解决上述两个法律问题。
以下是投诉中的引述(¶57-58),其中艺术家们对输入问题发表了自己的看法:
“稳定性被破坏,从而从网站复制了超过 50 亿张图像作为训练图像,用作稳定扩散的训练数据。
Stability 没有寻求训练图像的创建者或托管这些图像的网站的同意。
Stability 并未尝试就任何训练图像的许可进行谈判。稳定夺走了他们。 Stability 在 Stable Diffusion 中嵌入并存储了训练图像的压缩副本。”
稳定扩散的第一个版本是用“
LAION-5B包含约58.5亿张图像的信息,是同类数据库中最大的。它由德国非营利组织 LAION(大规模人工智能开放网络的缩写)开发,Stability AI 为其开发提供了资助。
值得注意的是,LAION-5B 中没有存储任何实际图像。相反,每个图像的信息都会被存储,包括:
因此,艺术家声称“稳定扩散”“存储其艺术作品的压缩副本”是用词不当。实际上,Stable Diffusion 的训练数据集包含有关某些艺术家图像的元数据,并且该元数据本身不受版权保护。
同样,Spotify 上的歌曲受版权保护,但有关该歌曲的元数据(例如艺术家姓名、歌曲标题、制作人、发行日期、流派和曲目时长)则不受版权保护。这是因为检索这些数据是一个纯粹的机械过程,不需要任何创造性的努力。
作为公共数据集,任何感兴趣的人都可以检查 LAION-5B。公司
这就是莎拉·安德森(Sarah Andersen)、凯莉·麦克南(Kelly McKernan)和卡拉·奥尔蒂斯(Karla Ortiz)三位艺术家所做的,他们分别发现了超过 200 个、超过 30 个和超过 12 个作品的代表。
具体来说,稳定扩散最初是
考虑到稳定扩散训练数据的规模,三位艺术家在不知情的情况下所做的贡献只是浩瀚海洋中的一小滴。
相比之下,盖蒂图片社针对 Stability AI 的诉讼涉及
在所有艺术家的作品中,只有 16 幅图像由莎拉·安德森 (Sarah Andersen) 在美国版权局注册。
根据 17 USC § 411(a),“在对版权主张进行预注册或注册之前,不得对任何美国作品的版权侵权提起民事诉讼(..)”。
换句话说,如果作品没有在美国版权局注册,权利人一般不能在民事诉讼中提出侵权索赔。这意味着艺术家只能代表莎拉·安徒生拥有并注册的16件作品提出索赔。
如果艺术家能够证明稳定扩散有时可以生成与这 16 个图像中的任何一个相似的输出,那么艺术家也许可以就“输出问题”提出一个案例。但正如我们将看到的,他们无法做到这一点。
关于输出问题,艺术家们认为稳定扩散生成的每个输出本质上都是源自其训练数据,因此侵犯了版权(参见¶94-95)。这种法律理论是极其牵强的。
下面是法学教授 Matthew Sag 论文中的插图“
右侧的图像由稳定扩散生成,并带有文本提示“白色背景上的咖啡杯”。按照艺术家的逻辑,右边的所有图像都会侵犯左边图像的版权。
在某些罕见的条件下,事实证明,稳定扩散实际上可以生成与其训练数据集中的图像非常相似的输出图像。
当输入训练图像广泛分布在互联网上并且在稳定扩散的训练数据中一遍又一遍地重复出现时,这种情况尤其可能发生。
在最近一篇题为
此后,他们通过稳定扩散生成了 500 张新图像,其文本提示与每个训练数据图像相关的文本描述相同。
事实证明,在 1.75 亿张图像 (350.000*500) 中,只有 109 张 (0.03%) 可以合理地被视为“近似副本”。
因此,版权侵权可能会发生,但艺术家们没有提出任何 Stable Diffusion 如何复制其作品的例子。相反,他们在起诉书第 93 条中写道:
一般来说,响应特定文本提示而提供的稳定扩散输出图像都不可能与训练数据中的任何特定图像紧密匹配。 ”
艺术家们确实声称稳定扩散能够模仿他们的个人艺术风格。通常,“艺术风格”不受版权保护。侵权索赔始终必须与特定作品的侵权行为联系起来。
然而,这里有一个合法的问题已收到
为了解决这个问题,Stability AI 从数据集中的标签中删除了著名艺术家的名字
例如,如果您要求稳定扩散创建毕加索或伦勃朗风格的图像,它就不再能够这样做。这一改变是在集体诉讼投诉前两个月发起的。
总体而言,目前尚不清楚艺术家如何以及为何相信稳定扩散复制了他们的作品。艺术家们似乎更关心稳定扩散在未来如何威胁到他们的工作,而不是关心稳定扩散现在实际上是如何运作的。
三位艺术家之一莎拉·安徒生 (Sarah Andersen) 在
“我一直在尝试几个生成器,到目前为止,还没有一个以可以直接威胁我职业生涯的方式模仿我的风格,随着人工智能的不断改进,这一事实几乎肯定会改变。”
下面是文章中的两幅插图,一幅由 Sarah Andersen 绘制,一幅由 Stable Diffusion 绘制。您大概可以猜出哪一个是由谁创建的。
2022 年 12 月,
虽然倡议
在集体诉讼之前,
“Stability.AI 唯一能做的就是算法盗用,他们完全摧毁了他们的数据库,并彻底摧毁了包含我们所有数据的所有模型”
这句话很有说服力。集体诉讼法背后的三位艺术家,以及马修·巴特里克(Matthew Butterick)和他们的其他法律代表,假装维护艺术家的权利,但实际上他们是现代人