Stable Diffusion 3 来了 —— 充满了巨大的改进

什么是Stable Diffusion 3？ Stable Diffusion 3 有哪些新功能？ Stable Diffusion 3 对比 Dall-E 3 和 Gemini 如何获得Stable Diffusion 3 的访问权限？总结

图片由 Stability AI 提供

AI 历史上最重要的一周还没有结束。就在 OpenAI 宣布了可以生成令人惊叹的视频的 Sora 和 Google 公布了支持高达 150 万个上下文窗口的 Gemini 1.5 之后，Stability AI 今天展示了 Stable Diffusion 3 的早期预览。

Stable Diffusion 3 是来自 Stability AI 的最新、能力最强的文本到图像模型。它在处理多主题提示、图像质量甚至文本渲染能力方面都有显著改进。

该模型套件目前的参数范围从 8 亿到 80 亿。它结合了扩散变换器架构（类似于 Sora）和流匹配。

扩散变换器架构

扩散变换器（DiT）架构是一种新颖的扩散模型类别，它结合了变换器技术。与通常使用卷积 U-Net 骨干的传统扩散模型不同，DiT 使用变换器在图像的潜在块上进行操作。

扩散变换器（DiT）架构

这种架构在大型数据集（如 ImageNet）上的类条件图像生成任务中特别有效，DiT 在图像质量和生成模型性能方面树立了新的基准。

流匹配

流匹配（FM）是一种新的、无需模拟的连续归一化流（CNF）训练方法，它使得以前所未有的规模训练 CNF 成为可能。FM 通过回归与一般高斯概率路径兼容的固定条件概率路径的向量场来工作，包括扩散路径。

在 ImageNet 上训练的模型的相同初始噪声的样本路径

这不仅使得扩散模型的训练更加稳健，还为使用非扩散概率路径（如最优传输路径）的 CNF 提供了更快的训练、采样和更好的泛化能力。

以下是 SD3 带来的关键改进：

文本渲染支持性能提升多主题提示更好的图像质量

这个新图像模型最令人兴奋的功能可能是它能够像 OpenAI 的 Dall-E 3 和 Google 的 Gemini 中的 Imagen 2 一样渲染文本。Stability AI 的首席执行官 Emad Mostaque 已经分享了使用 SD 3 生成的图像，以下是我最喜欢的一些：

提示：“一张红色球体放在蓝色立方体的顶部。它们后面是一个绿色三角形，右边是一只狗，左边是一只猫”

Stable Diffusion 3 的样本图像

我觉得这张图片有趣的地方是动物白色毛发上微妙的绿色色调。我想知道模型是否从幕后绿幕拍摄的照片中学到了这种效果。

提示：“一个红苹果在教室的桌子上的影视照片，黑板上用粉笔写着“go big or go home””

Stable Diffusion 3 的样本图像

我快速比较了 SD3 和 OpenAI 的 Dall-E 3 生成的图像。在下面的例子中，我使用了 SD3 公告博文中的提示。

提示：“夜晚，一个巫师站在山顶上施放魔法，将彩色能量化作“Stable Diffusion 3”字样的宇宙法术”

图片由 Jim Clyde Monge 提供

Stable Diffusion 3 刚刚击败了 Dall-E 3 吗？老实说，我很惊讶 Dall-E 3 反复拒绝使用这个提示来渲染文本。你可以自己试试。

出于好奇，我还将提示输入 Gemini Advance，以下是结果：

图片由 Jim Clyde Monge 提供

目前，Stable Diffusion 3.0 尚未对公众开放。但你可以在这里注册，以获得 Discord 服务器的邀请。

Stable Diffusion 3 的等待列表

总的来说，我对看到更多Stable Diffusion 3 的例子感到非常兴奋。我已经注册了，以获得预览模型的早期访问权限。

不过，我有一个担忧，就是公告帖子的一半内容都在谈论 AI 安全性。考虑到最近的 Gemini 事件，这种对安全性的过度关注感觉像是一个错失的营销机会。

Stable Diffusion的主要用途不就是你可以将其安装在自己的计算机上，制作你想要的东西吗？

无论如何，如果需要，社区可以对开源模型进行微调。只要明确一点，SD3 图像模型仍然是开源的。预览版是为了提高其质量和安全性，就像其他Stable Diffusion版本一样。