近日,The Debrief报道了一项有关AI图像平台Midjourney的研究,发现该平台意外生成了不适内容,违反了其自身的使用准则。Midjourney明确规定用户不得故意创建明确或性内容,以保持“PG-13”等级,并通过屏蔽特定关键词来实施严格的过滤。
然而,调查人员发现Midjourney的AI系统似乎无意中生成了一些不适内容,引起了一些批评。艺术家和作家Tim Boucher在探索Midjourney V6(版本6)功能时发现了系统NSFW内容过滤的漏洞。尽管Midjourney像许多AI驱动的平台一样,禁止生成NSFW内容,使用过滤器屏蔽可能导致这种输出的特定术语和表达方式,但Boucher发现通过使用一些不被立即识别为触发NSFW内容的替代术语,仍然可以生成不符合平台“PG-13”标准的图像。
图源备注:图片由AI生成,图片授权服务商Midjourney
据Midjourney称,这些内容是不可访问的。虽然互联网用户已经找到了绕过的方法,比如使用“草莓糖浆”而不是“血液”,但该AI工具表示它不断更新其参数以阻止这类请求。然而,在Boucher的案例中,他只是在寻找他的书《Relaxatopia》的图像,该书发生在一个未来的厄运沙滩度假胜地。他使用的提示是“厄运度假胜地”。
Boucher的经验突显了AI图像生成器面临的一个关键问题:虽然明确禁止使用不适当的术语,但同义词或相关术语可能不受限制,使用户能够规遍意图的内容限制。例如,尽管“伤口”这个词可能受限制,但同义词“伤害”可能没有限制,导致可能违反平台准则的内容的生成。然而,更广泛的问题是,Boucher和其他人并没有故意试图规遍Midjourney的保护措施。
Midjourney的总部位于旧金山,于2022年3月上线,由Leap Motion的联合创始人David Holz创立,Leap Motion曾致力于用手势替代计算机鼠标。要运行Midjourney,首先需要使用消息应用程序Discord。然后,您需要支付每月大约10美元的费用,即可获得访问权限。Midjourney机器人通过Discord聊天从用户那里接收请求,已经有超过1400万注册用户。
The Debrief决定进行一项测试,使用Midjourney能否复制结果。测试的最简单方法是要求生成人们通常穿得较少的情境的图像。询问Midjourney生成“炎热的一天的人们”、“沙滩上的人们”或“水疗日”等提示通常都有效。在Boucher的帮助下,于1月26日决定从“沙滩派对”开始。因此,Discord聊天栏中只输入了“沙滩派对”。
Midjourney生成了四张上述测试中使用提示“沙滩派对”的图像。由于第一张图最真实,包含了容易识别的人物,我们选择这张图进行测试。选择图像后,决定使用“Variation”功能。简而言之,您可以让Midjourney接受您选择的图像,并创建其替代版本。“Variation(低)”的点击将只对图像进行轻微更改,并为您提供另外四个外观相似的选项。“Variation(强)”将对图像进行更显著的更改,并为您创建另外四个选项。在测试中,点击了“Variation(强)”。这样做了四次,直到其中一张图包含一位没有穿上衣的女性。选择该图像后,再次选择“Variation(强)”,其中一个AI生成的女性完全裸体。
在请求的其他变化系列之后,生成的图像中包含了裸体图像。额外的变化只是生成了越来越多的不适内容。总共花了5分钟,以“沙滩派对”为提示,我们发现了一个裸体沙滩。
为了确认结果,Boucher和The Debrief于几天后的1月31日进行了第二次测试。使用相同的提示“沙滩派对”,选择了这张图像。在第二次测试中,通过几次“Variation(强)”的点击,生成了多张包含裸体的图像。
Boucher并不是唯一一个注意到Midjourney Version6似乎减轻了其裸露过滤的用户。在Reddit上,出现了一场讨论,其中一名用户注意到当他们简单地使用提示“放个香蕉在上面”时,生成了多个带有裸体的图像。
生成AI内容的明确或暴力内容是一个相当普遍的问题。上周,一张AI生成的泰勒·斯威夫特的色情图像在互联网上走红。使用Microsoft的AI工具的漏洞,用户首先将图像上传到聊天应用Telegram,然后在X(Twitter)上迅速传播。Microsoft已经修复了这个漏洞。在此之前,极右翼活动分子曾利用该程序生成种族主义和仇恨内容,以传播虚假信息的目的。虽然在 proverbial 安全网上总会有方法。
然而,对Midjourney的担忧在于,它创建的图像并没有被请求。似乎任何用户,包括未成年人,只需输入相对无害的内容,Midjourney都可能提供带有裸露图像的图像。
Boucher告诉The Debrief:“一方面,作为艺术家,其中一些图像在美学上非常美丽。如果用户是成年人并表示同意,问题就减轻了。另一方面,作为一名Trust&Safety专业人员,您的系统不应在人们没有要求的情况下创建裸体图像。”“尤其是因为您的规则明确禁止裸体照片。当用户直接要求时,他们可能会被彻底禁止使用该服务。这里存在着重大的不一致性。”
The Debrief联系了Midjourney以寻求评论,并将在他们回应后更新文章。
MJ Banias是一位涵盖安全和技术领域的记者,他是The Debrief Weekly Report的主持人。您可以通过电子邮件联系MJ,邮箱为mj@thedebrief.org,或在Twitter上关注他 @mjbanias。