前几周
AI绘画领域扔出了一颗重磅炸弹
那就是Stability AI
发布了备受期待的Stable Diffusion 3.0
简称SD3
一周后
官方放出了一篇详尽的技术论文
阐述了SD3实现突破性进展的底层原理
但是同时也引发了一连串疑问
SD3能否在RTX 4090
显卡上流畅运行?
对其他主流GPU
的兼容性如何?
更重要的是
面对OpenAI
的Sora
等劲敌
这次Stability AI
能否力挽狂澜
重塑行业格局?
相比于这篇满是复杂公式的论文
对普通读者而言
Stability AI
的论文概要
无疑更具可读性
今天我们就来聊一聊
这篇论文本质上是介绍Stable Diffusion 3
背后的研究
但是并没有明确指出如何实现所有的功能
官方公布了一些新的方法
并且分享了关于哪些训练决策
提高了模型性能
哪些没能完全达到预期
以及哪些组合
赋予了Stable Diffusion 3惊人的能力
Stability AI信心满满地表示
在大规模人类主观评测
中
SD3在排版质量
、对提示的理解和执行度
上
全面碾压了DALL-E 3
、MidJourney v6
、Ideagram v1
等顶级产品
这里务必强调一下"提示"
,
因为它是AI绘画的灵魂
所在
MidJourney v6
固然能生成让人叹为观止的画面
但是稍微复杂抽象一点的提示
它就难以完全"照单全收"
。
造成这种局面的根本原因
是MidJourney v6
过度迎合大众的审美偏好
简单来说
它只擅长画人们爱看的那些东西
相比之下
Stable Diffusion的强项在于快速理解
并且忠实地执行提示
同时能够灵活调整画面的局部细节
而无需事后大动干戈地修修补补
令人振奋的是
SD3祭出了全新的"多模态扩散Transformer"架构(MMDIT)
。
它采用独立的权重
来编码图像和文本特征
大幅提升了文本理解
和拼写能力
这是文图生成领域
的一大突破
此外
SD3还为排版
单独配备了编码器
和Transformer
它俨然将这个"小众"
领域做成了"极致"。
关于性能,从这张图表
可以看出
在视觉美感度
、提示匹配度
、排版质量
等方面
SD3在人类偏好调查
中均取得了全面胜利
作为基准,它轻松碾压了所有竞品
稳坐C位
至于SDXL系列
终究略逊一筹
真正让人惊喜的是SD3的硬件兼容性
Stability AI
重点测试了SD3
在主流消费级显卡
上的表现
结果令人喜出望外
就算是那个"巨无霸"版本
(模型参数高达80亿
),
也能完整装进24GB显存
的RTX 4090
以1000x1000分辨率
、50步迭代
为例
生成一张图片需约34秒
要知道,50步
在SDXL时代
已经是顶配
如果你是"平民玩家"
,也不用灰心
SD3
有多个轻量化版本
参数量从8亿到80亿
不等
总有一款适合你
从几个令人惊艳的样例图
来看
SD3能根据简单的文字提示
灵活地生成各种主题
和风格迥异的图像
这得益于它在主题理解
和场景构建
上的重大进步
比如让一只鳄梨
站在讲台前授课
或是给一只袋鼠
戴上墨镜
它都能完美呈现
从这些看似荒诞的创意
中
我们依稀可见SD3
惊人的想象力
它已经初步具备了从文本中提取高层语义
并灵活组合成画面
的能力
官方在论文中指出
对于从文本到图像的生成
SD3
必须兼顾文本和图像两种模态
这正是他们将新架构命名为MMDIT
(多模态扩散Transformer
)的原因所在
与前代Stable Diffusion
一脉相承
SD3沿用了预训练模型
来提取文本
和图像
的特征表示
具体来说
它用上了三种不同的文本嵌入器
、两个CLIP模型
和一个T5模型
来对文本进行编码
同时采用了增强版的VAE
来对图像进行编码
说白了
这套流程就是为了理解用户可能想要什么样的文字内容
以及与之匹配的图像
从而更好地理解提示的真正意图
最妙的是,得益于崭新的架构
SD3可以在同一个输入
中同时接受文本嵌入
和图像嵌入
并一次性完成所有操作
如这张图所示
文本嵌入
和图像嵌入
被送入同一个注意力模块
进行处理
在内部
信息通过一种循环反馈
的方式流动
这是许多模型的标准配置
经过汇总
后
模型
再输出最终的生成结果
总的来说
这套流程是基于扩散Transformer
并在此基础上构建出了SD3
的架构
考虑到文本
和图像
在本质上的差异
SD3为它们各自采用了独立的权重
这相当于给每种模态
配备了专属的Transformer
它们在各自的特征空间
中运作
但是又能通过注意力机制
实现信息的交互
可谓"分工不分家"
。
正是这种机制
使得SD3
能够更全面地理解跨模态的联系
进而输出更连贯的结果
这也是SD3
努力想要同时利用文字和图片
两种输入
并在同一个注意力模块
中处理
而不是采用串行
方式的原因所在
这个设计与SDXL
高度相似
接下来看两张验证损失
的曲线图
它们直观地展示了不同模型
及其变体
在训练过程中的表现
理想情况下,随着训练的推进
验证损失
应该逐步降低
可以欣喜地看到
实际结果
是与预期
相符的
Stability AI
表示
通过这种融会贯通
的设计
信息可以在图像和文本之间自由流动
从而提升模型对生成内容
的整体把握
此外
这种架构还可以轻松拓展至视频
等其他模态
尽管论文对此有所讨论
但是官方对技术细节依然讳莫如深
值得一提的是,与其他模型
相比
SD3在保留原始提示意图
的同时
还能够灵活地生成
多个差异化的版本
尤其欣赏Stability AI
在即时提示跟随
上的创新
官方表示
SD3能够在保证画面多样性
的同时
还能够紧扣主题
并对画风有很大的控制力
以往
将主题表达
与风格渲染
割裂开来是件很头疼的事
尽管有些玩家通过优化UI
和复杂的参数设置
在一定程度上实现了这一点
但是将其作为模型的内在逻辑
无疑更有前瞻性
报告中举了几个例子
这一切仅凭一句简单的文字提示
就能实现
充分证明了SD3
惊人的理解力
和创造力
它能从简单的提示
中提炼出丰富的细节
和主题
论文中还提到了另一项创新
即通过重新加权(reweighting)噪声
来改进整形流(rectified flow)
。
这说明官方在模型训练中
对噪声的处理上别有心得
简单来说,通过采用整形流公式
或者RF
可以"拉直"
模型的推理路径
从而以更少的迭代步数
实现采样
换言之,这项技术不仅能降低训练成本
还能帮助模型在推理时不偏离正轨
避免出现崩溃
为了验证这一点
他们在60多个主流扩散模型
上进行了测试
每次都采用了不同的数据集
、评估指标
和采样器
设置
结果表明
尽管现有的RF方法
在少量迭代步数
下表现优异
但是随着步数的增加
性能
反而出现下降
相比之下
SD3的RF版本
却能持续提升性能
简而言之,在同等计算
资源下
SD3能实现更高的目标
极大地提高了性价比
这是Stability AI
的一记重拳
尤其是对Midjourney
等直接竞争对手而言
坦白讲
这更像是在向投资者传递一个信号
如果给我们投钱
我们创造价值的效率将更高
如果我们细看AI初创公司
的开销
GPU
的采购和租赁往往是最大的一块
就连Stability AI
这样的独角兽
也难逃被算力"缴械"
的命运
另一个亮点在于
Stability AI
成功地让一个80亿
参数的"巨无霸",
塞进了24GB
显存的RTX 4090
尽管这与验证损失关系不大
但是足以证明SD3在模型压缩和推理优化
上的造诣
事实上
他们展示的指标
和验证损失
之间存在强相关性
而后者是评判模型整体性能的重要依据
因此,如果训练更高效、猜测更准确
模型的性能
就会更优秀
此外,官方指出
SD3的扩展趋势
尚未见顶
不太可能遇到云端服务
中常见的瓶颈
换言之,通过架构创新
他们在计算性能
上取得了重大突破
在可预见的未来
SD3还有进一步升级的空间
随着算力的提升
我们有理由期待用更低的成本
获得更优的结果
说到文本理解
这是Stability AI
长期以来的一个重点
一以贯之地体现在其他实验性模型
中
在SD3
中,他们做了一些有趣的取舍
为了降低显存占用
他们砍掉了此前SDXL
中使用的一个内存大户
那就是4.7亿
参数的T5编码器
有趣的是,借助全新的架构
去掉T5
并未明显影响视觉效果
只是略微损失了一点文本依附度
从基准测试的结果
来看
即便完全移除这一模块
SD3的性能也基本无损
在保证画质
的前提下
这种权衡可谓相当高明
官方还展示了一个案例
给定同样的雪貂提示
去掉T5
前后的结果几乎一样
这恐怕是Stability AI
迄今为止最硬核的一篇论文
行文晦涩
不太好啃
但作为我们吃瓜读者而言
只需要知道
Stability AI
又拿出了一个含金量超高
的的新绘画模型
就好了
开源是全世界AI爱好者
的福音