吃了几个原作者才能生成这么逼真的效果？文生图涉嫌视觉「抄袭」

不久之前，《纽约时报》指控 OpenAI 涉嫌违规使用其内容用于人工智能开发的事件引起了社区极大的关注与讨论。

GPT-4 输出的许多回答中，几乎逐字逐句地抄袭了《纽约时报》的报道：

图中红字是 GPT-4 与《纽约时报》报道重复的部分。

对此，各个专家分别有不同的看法。

机器学习领域权威学者吴恩达对 OpenAI 和微软表示了同情，他怀疑 GPT「存在抄袭」的原因并不只是模型训练集使用了未经授权的文章，而是来自类似于 RAG（检索增强生成）的机制。ChatGPT 浏览网络以搜索相关信息，并下载了一篇文章来回答用户的问题。他发现，没有 RAG 类似机制的 LLM，在预训练中的输出通常是对输入的转换，几乎从未逐字逐句地「抄袭」。

而纽约大学教授 Gary Marcus 有不同的观点，他说在视觉生成领域的「抄袭」和 RAG 毫不相干。

他在近日 IEEE Spectrum 发表的文章中，明确指出「Generative AI Has a Visual Plagiarism Problem」。

下面，就让我们看下这篇文章讲了什么。

LLM 对其训练数据的「记忆力」长期以来一直是个问题。最近的实证研究表明，在某些情况下，LLM 能够再现，或者在稍作修改的情况下再现其训练集中的大量文本。

例如，Milad Nasr 等研究者在 2023 年发表的一篇论文中提出，LLM 可以在输入某些提示词时泄露如邮件和电话号码等私人信息。来自谷歌 Deepmind 的 Carlini 也在最近的研究中得出了较大的聊天机器人模型有时会逐字逐句地反刍大量文本，小模型则未出现此现象。

最近《纽约时报》指控 OpenAI 涉嫌违规使用其内容用于人工智能开发，《纽约时报》提供的申诉书中提供了大量重复抄袭证据。

Marcus 称这种近乎逐字逐句的输出为「抄袭输出」。如果这些内容的作者是人类，那么肯定会被认定是抄袭。虽然无法计算出「抄袭输出」出现的频率，或者抄袭在什么情况下发生。但是这些直观的结果为「生成式人工智能系统可能会抄袭」提供了强有力的证据。即使用户没有直接要求 AI 这么做，也面临版权方的侵权索赔。

人工智能的抄袭问题说不清，也道不明，其原因在于 LLM 对于人类来说还是「黑匣子」。我们不完全了解输入（训练数据）和输出之间的关系，输出也可能在某一时刻发生不可预测的变化。「抄袭输出」普遍出现的可能很大程度上取决于模型的大小和训练集等具体因素。

由于 LLM 的黑匣子特性，关于「抄袭输出」的问题只能通过实验来验证。这些实验可能也只能得出一些不确定的结论。

然而但「抄袭输出」引发了许多重要问题，在技术方面，是否能够通过技术手段来避免「抄袭输出」？在法律层面，这些输出是否构成侵犯版权？在实际应用中，用户 LLM 生成内容时，是否有方法可以让不希望侵权的用户确信他们没有侵权？

《纽约时报》和 OpenAI 的诉讼案对生成式人工智能领域未来的发展具有关键影响。

在计算机视觉领域，抄袭问题依然存在。模型是否也能基于受版权保护的图片，产生「抄袭输出」呢？

Midjourney v6 中的抄袭视觉输出

Marcus 的答案是肯定的，甚至不需要直接向模型输入抄袭的提示。

只需给出与某些商业电影相关的简短提示，Midjourney v6 就能生成许多「抄袭输出」。从下面的例子中，可以发现，Midjourney 生成的图片与《复仇者联盟》、《沙丘》等知名电影还有电子游戏中的镜头几乎完全相同。

他们还发现了，卡通角色特别容易被复制，正如下面的《辛普森一家》，即使输入的提示词是「90 年代流行的黄皮肤的动画」，完全与《辛普森一家》无关，但生成结果和原动画看不出什么区别。

根据这些结果，几乎可以肯定 Midjourney V6 是基于受版权保护的材料上训练的。目前尚不清楚 Midjourney V6 是否获得了版权方的许可，但 Midjourney 可用于侵犯原作者权利的创造。

在上述许多示例中，本文作者验证了 Midjourney 可以故意复制受版权保护的素材，但还未确定：在不故意的情况下，是否有人因此而侵犯了版权。

在《纽约时报》的诉讼中，其中有一点很引人注目。如下图所示，《纽约时报》提供的证据表明，在不使用「您能否以《纽约时报》的风格撰写关于某某的文章」的提示词，而是通过给出文章前几个字，GPT-4 还是给出了和原文一模一样的回答。这表明模型可以在不故意抄袭的情况下引发「抄袭输出」。

t few words of an actual article.

当给提供了一篇《纽约时报》的文章的前几个词时，它输出了看似存在抄袭的回答。

在视觉生成领域中，这个问题的答案也是肯定的。在下面展示的例子中，他们没有在提示词中涉及《星球大战》或者角色，但是 Midjourney 却生成了达斯・维德、卢克・天行者、R2-D2 等家喻户晓的经典形象。

《玩具总动员》、小黄人、索尼克、马里奥，这些耳熟能详的大 IP 也没能逃过「无意识的抄袭输出」。

即使没有直接提名，Midjourney 生成了这些辨识度很高的电影和游戏角色的相关图像。

在没有直接指示的情况下唤出电影般的画面

在第三个实验中，Marcus 等人探索了 Midjourney 能否在没有提示词的情况下，输出和电影原出处相似的整个电影帧。同样，这个问题的答案是肯定的。

最终，他们发现，在输入「screencap」的提示词时，即使没有输入任何具体的电影，角色或者演员，但是却产生了明显的侵权内容。以下图片都是使用「screencap」作为提示，Midjourney 生成了与电影中的一帧极其相似的结果。

虽然 Midjourney 可能会很快修补这个特定的提示词，但 Midjourney 产生潜在侵权行为的能力是显而易见的。Marcus 和他的同伴发现了以下被「抄袭」的受害者，更多电影、演员和游戏的名单将在他们的 YouTube 频道发布。

Midjourney 的抄袭问题

通过以上的实验，可以得到如下结论：Midjourney 违规使用了受版权保护的素材训练模型，一些生成式人工智能系统可能会产生「抄袭输出」，即使提示词不涉及抄袭行为，也可能使用户面临版权侵权索赔。最近的新闻也支持同样的结论。Midjourney 最近收到了 4700 多名艺术家的联合起诉，因为 Midjourney 在未经同意的情况下使用了他们的作品用于训练 AI。

Midjourney 的训练数据中有多少是未经许可使用的版权材料？尚未可知。该公司对其原始材料以及哪些材料获得了适当许可都未公开。

事实上，该公司在一些公开评论中对抄袭问题持不屑一顾的态度。当 Midjourney 的首席执行官接受《福布斯》杂志采访时，对版权相关的问题回答道：「没有一种方法可以在获得一亿张图片的同时知道它们的来源。」

如果未获得原素材许可，可能会使 Midjourney 面临来自电影工作室、视频游戏发行商、演员等的大量诉讼。

版权和商标法的要点是限制未经授权的商业再使用，以保护内容创作者。由于 Midjourney 收取订阅费，并且可以被视为与视觉内容工作室的竞争者，这可能是版权方的起诉原因。

Midjourney 显然试图压制 Marcus 的发现。在他发布了一些实验结果后，文章被 Midjourney 要求撤稿。

但是并非所有使用受版权保护素材的行为都是非法的。例如，在美国，如果使用时间短，或素材被用于批评、评论、科学评估或模仿，那么使用未经授权的素材是被允许的。Marcus 认为 Midjourney 可能在诉讼中依靠这些论据。

更糟糕的是，Marcus 发现有证据表明 Midjourney 的一名高级软件工程师在 2022 年 2 月参与了一场关于如何通过「通过微调代码」来「洗白」数据以逃避版权法的对话。

另一名不能确定是否为 Midjourney 工作的参与者随后说：「在某种程度上，在版权法看来，真的无法追踪什么是衍生作品。」

就 Marcus 所知，Midjourney 被惩罚，做出赔偿的可能性很大。有消息人士称，Midjourney 可能创建了一个很长的艺术家名单，为他们支付没有获得许可将其作品用于训练的报酬。

此外，Midjourney 对 Marcus 的合作者进行了封号，在他创建小号后依旧禁止他访问。

随后，Midjourney 更改了其服务条款，加入了：「您不得使用该服务试图侵犯他人的知识产权，包括版权、专利或商标权。这样做可能会使您受到包括法律诉讼或永久禁止使用该服务等处罚。」的提示语。

这一修改通常是阻碍甚至排除对生成式 AI 限制进行安全调查的常见做法，这种做法是几家大型 AI 公司在 2023 年与白宫达成的协议中承诺的一部分。

除此之外，Marcus 并不认为 Midjourney 是目前的图像生成 AI 中能生成最精细结果的软件。因此，他们还提出了「随着能力的提高，AI 创造抄袭图像的倾向是否会增加」的猜想。

根据已有研究者在文本输出领域的研究表明，这可能是真的。凭直觉而言，系统掌握的数据越多，它就越能掌握统计的相关性，但也可能越容易精确地重建训练集中的数据。如果这种猜测是正确的，那么随着生成式人工智能公司收集的数据越来越多，模型越来越大，那么模型也可能更具抄袭性。

DALL・E 3 的抄袭

与 Midjourney 一样，即使没有有指向性的具体提示词， DALL・E 3 也能够创建近乎与原作完全的复制品。

如下图所示，通过以下简单的提示词：「动画玩具」， DALL・E 3 就创建了一系列潜在的侵权作品。

与 Midjourney 一样，OpenAI 的 DALL・E 3 似乎也借鉴了大量受版权保护的来源。OpenAI 似乎非常清楚其软件可能侵犯版权的事实，并在去年 11 月提出为用户的版权侵权诉讼提供赔偿。考虑到 Marcus 发现的侵权规模，OpenAI 似乎要「大出血」。

同时，也有人猜测 OpenAI 一直在实时地更改其系统，以排除 Marcus 的文章中揭露的某些行为。

解决大模型「抄袭的问题」有多难？

可能的解决方案：移除版权材料

最干净的解决方案是在不使用受版权保护的材料的情况下重新训练图像生成模型，或者限制训练仅限于获得适当许可的数据集。

只在收到投诉后删除受版权保护的材料，类似于 YouTube 上的下架请求，其实施成本非常高。无法以任何简单的方式从现有模型中删除特定受版权保护的材料。大型神经网络不是数据库，其中可以轻松删除违规记录，每次「下架」几乎相当于重新训练。

因此，生成式 AI 公司可能希望修补其现有系统，来限制某些类型的查询和某些类型的输出。如下图所示，他们已经看到了一些迹象，但这注定是一场艰苦的战斗。

OpenAI 可能正试图在实时情况下逐个解决这些问题。一位 X 用户分享了一个 DALL・E 3 提示，该提示首先生成了 C-3PO 的图像，但 GPT 称无法生成需要的图像。

同时，Marcus 还提供了两种不需要重新训练模型的解决方法。首先是过滤掉可能侵犯版权的查询。

虽然像「不要生成蝙蝠侠」这样的低级任务可以被过滤掉，但是如下图所示，跨越多个查询的生成结果根本防不住：

经验表明，文本生成系统中的护栏在某些情况下往往过于宽松，而在另一些情况下又过于严格。图像生成可能也面临类似的困难。例如向必应查询「在阳光炙烤下的荒芜风景中有一座厕所」。必应拒绝回答，并返回了一个令人困惑的「检测到不安全的图像内容」的提示。

此外也有网友发现了如何突破 OpenAI 的内容防护护栏，来让 DALL・E 3 生成部分图像的方法。他们的做法是让提示词「包括区分角色的具体细节，如不同的发型、面部特征和身体纹理」和「使用颜色暗示原始图像中独特的色调、图案和排列」。

Reddit 上的网友 Pitt.LOVEGOV 分享如何让 ChatGPT 生成布拉德皮特的图像。

Marcus 提供的第二种思路是过滤版权图片来源。

在推特上已经有网友尝试通过让 ChatGPT 和 Google 反向图像搜索识别来源，但这种方法成功率不高，特别是对于数据集中使用的比较新或者作者不是很知名的素材。这种方法的可靠性还有待观察。

重要的是，虽然一些人工智能公司和现状的捍卫者建议过滤掉侵权输出作为补救措施，但这种过滤机制绝不应该是解决方案的全部。根据国际法保护知识产权和人权的意旨，任何创作者的作品都不应未经同意用于商业用途。

更多详细内容，请参阅原博客。