开源之光 Stable Diffusion 3 技术论文全解：公式占一半，实验很充分！

文章链接：https://arxiv.org/pdf/2403.03206

扩散模型通过反转数据到噪声的正向路径来从噪声中创建数据，并已成为处理高维感知数据（如图像和视频）的强大生成建模技术。Rectified flow是一种最近提出的生成模型形式，它将数据和噪声连接在一条直线上。尽管其具有更好的理论性质和概念上的简单性，但它尚未被明确确定为标准实践。

在这项工作中，本文改进了现有的噪声采样技术，用于训练Rectified flow模型，通过使它们偏向感知相关的尺度。通过一项大规模研究，本文证明了这种方法相对于已建立的扩散形式在高分辨率文本到图像合成方面的优越性能。

此外，本文提出了一种基于Transformer的文本到图像生成架构，该架构为两种模态使用单独的权重，并实现了图像和文本tokens之间信息的双向流动，提高了文本理解能力、样式和人类偏好评分。实验证明，该架构遵循可预测的扩展趋势，并且较低的验证损失与根据各种指标和人类评价衡量的改进的文本到图像合成呈相关性。我们的最大模型胜过了现有的最先进模型，后续将公开我们的实验数据、代码和模型权重。

介绍

扩散模型通过噪声创建数据。它们被训练来反转数据向随机噪声的正向路径，因此，结合神经网络的近似和泛化性质，可以用来生成不在训练数据中但遵循训练数据分布的新数据点。这种生成建模技术已被证明在建模高维感知数据，如图像方面非常有效。

近年来，扩散模型已成为从自然语言输入生成高分辨率图像和视频的事实标准方法，具有令人印象深刻的泛化能力。由于它们的迭代性质及相关的计算成本，以及推理期间的长时间采样，对这些模型进行更有效的训练和/或更快速的采样的研究已经增加。虽然指定从数据到噪声的正向路径可以导致高效的训练，但也引发了选择哪个路径的问题。

这个选择对采样可能有重要影响。例如，一个不能从数据中移除所有噪声的正向过程可能导致训练和测试分布的不一致，并导致灰色图像样本等伪影。重要的是，正向过程的选择也影响了学习的反向过程，从而影响了采样效率。虽然曲线路径需要许多积分步骤来模拟过程，但直线路径可以通过单个步骤模拟，并且不太容易出现误差积累。由于每个步骤对应于神经网络的评估，这直接影响了采样速度。

一种特定的正向路径选择是所谓的Rectified flow，它将数据和噪声连接在一条直线上。尽管这种模型类具有更好的理论性质，但它尚未在实践中被明确确立。

到目前为止，一些优点已经在小型和中型实验中经验性地证明了，但这些主要局限于类条件模型。在这项工作中，通过引入对Rectified flow模型中噪声尺度的重新加权，类似于噪声预测性扩散模型，改变了这一点。通过一项大规模研究，将我们的新公式与现有的扩散公式进行比较，并展示其优势。

这里展示了文本到图像合成的广泛应用方法，其中一个固定的文本表示直接输入模型（例如，通过交叉注意力），但并不理想，并提出了一种新的架构，该架构为图像和文本tokens都提供可学习的流，从而实现它们之间的双向信息流。将此与我们改进的Rectified flow公式相结合，并调查其可扩展性。展示了验证损失中的可预测的缩放趋势，并展示了较低的验证损失与改进的自动评估和人类评估之间的强相关性。

这里最大模型在量化评估和人类偏好评分方面均优于诸如SDXL、SDXL-Turbo、Pixart-α等现有开放模型以及诸如DALL-E 3等闭源模型。

本工作的核心贡献是：

对不同扩散模型和Rectified flow公式进行了大规模系统研究，以确定最佳设置。为此引入了新的噪声采样器，用于改进Rectified flow模型的性能，超过先前已知的采样器。

设计了一种新颖的、可扩展的文本到图像合成架构，允许网络内部文本和图像tokens流之间的双向混合。展示了它与已建立的主干结构（如UViT）和DiT）相比的优势。

对我们的模型进行了扩展性研究，并展示它遵循可预测的缩放趋势。展示了较低的验证损失与改进的文本到图像性能（通过T2I-CompBench、GenEval和人类评分等指标进行评估）之间的强相关性。还有将结果、代码和模型权重公开可用。

不需要模拟的流训练

考虑的生成模型通过普通微分方程（ODE）定义了从噪声分布的样本到数据分布的样本之间的映射。

速度v由神经网络的权重Θ参数化。陈等人（2018年）的先前工作建议通过可微分的ODE求解器直接解决方程（1）。然而，这个过程在计算上是昂贵的，特别是对于参数化的大型网络结构而言。一个更有效的替代方案是直接回归生成和之间的概率路径的矢量场。为了构造这样的，我们定义一个正向过程，对应于和之间的概率路径，如下所示：

当 = 1， = 0， = 0， = 1时，边缘分布

边缘分布与数据和噪声分布一致。

为了表达、和ε之间的关系，引入和，如下所示：

由于可以被写成ODE 的解，其中初始值为生成。值得注意的是，可以构造一个边缘矢量场，它生成边缘概率路径，使用条件矢量场(·|ε)。

通过Flow Matching目标对进行回归

由于方程6中的边缘化，直接进行的回归是棘手的。

使用条件矢量场提供了一个等价但易于处理的目标。

为了将损失转换为明确的形式，我们在（5）中插入和。

现在，考虑信噪比。由，可以重写方程（9）为

接下来，使用方程（10）重新参数化方程（8）作为噪声预测目标：

在这里，定义了。

需要注意的是，上述目标的最优解在引入时间相关的加权时并不改变。因此，可以推导出各种加权损失函数，这些函数提供了通向期望解决方案的信号，但可能会影响优化轨迹。为了统一分析不同方法，包括经典的扩散公式，可以将目标写成以下形式：

其中对应于。

Flow 轨迹

在这项工作中，我们考虑了上述形式主义的不同变体，以下简要描述。

Rectified flow Rectified flow（RFs）将正向过程定义为数据分布和标准正态分布之间的直线路径，即

并使用，这对应于。网络输出直接参数化速度。

EDM EDM使用形式为

其中的，其中是具有均值和方差的正态分布的分位数函数。请注意，这种选择的结果是：

网络通过F-预测（Kingma & Gao, 2023; Karras等人，2022年）进行参数化，并且损失可以写成，其中

Cosine（Nichol & Dhariwal, 2021）提出了以下形式的正向过程：

结合ε参数化和损失，这对应于一个加权。当与v-预测损失结合时，加权项由给出。

线性扩散模型（LDM-Linear LDM）使用了DDPM调度的修改版。两者都是保持方差的调度，即，并且通过扩散系数来定义离散时间步t = 0,...,T−1时的，如下所示：。对于给定的边界值和，DDPM使用，而LDM使用。

为RF模型定制的信噪比采样器

RF损失在[0,1]的所有时间步上均匀训练速度vΘ。然而直观地，由此得到的速度预测目标ε − 对于[0,1]中间的t更加困难，因为对于t = 0，最优预测是的均值，而对于t = 1，最优预测是的均值。一般来说，将t上的分布从常用的均匀分布U(t)改变为密度为π(t)的分布相当于使用加权损失

因此，我们的目标是通过更频繁地对中间时间步进行采样，使其获得更多的权重。接下来，描述我们用于训练模型的时间步密度π(t)。对数正态采样将更多的权重放在中间步骤上的分布之一是对数正态分布。其密度：

其中logit(t) = ，具有位置参数m和尺度参数s。位置参数使我们能够偏向于训练时间步，要么朝向数据（负m），要么朝向噪声（正m）。如图11所示，尺度参数控制分布的宽度。在实践中，我们从正态分布u ∼ N(u; m,s)中采样随机变量u，并通过标准逻辑函数映射它。

具有重尾的模式采样对数正态密度总是在端点0和1处消失。为了研究这是否对性能产生不利影响，我们还使用具有严格正密度的时间步采样分布[0,1]。对于尺度参数s，定义

对于−1 ≤ s ≤ 2π−2，这个函数是单调的，并且可以使用它来从隐含的密度中采样。如前面图11所示，尺度参数控制着在采样过程中中点（正s）或端点（负s）受到偏好的程度。这种公式还包括一个均匀加权(t; s = 0) = U(t)对于s = 0，在前述Rectified flow（RF）的先前工作中被广泛使用。

CosMap 最后，还考虑了余弦调度在RF设置中的使用。特别是，正在寻找一个映射f：u 7→f(u) = t，u ∈[0,1]，使得log-snr与余弦调度的匹配：。解出f，得到对于u ∼U(u)

从中得到密度

文本到图像架构

对于图像的文本条件采样，我们的模型必须同时考虑文本和图像这两种模态。使用预训练模型来导出合适的表示，并描述我们扩散主干的架构。这个概述如下图2所示。

我们的一般设置遵循LDM的做法，用预训练自编码器的潜在空间来训练文本到图像模型。类似于将图像编码为潜在表示的方式，还遵循了先前的方法，使用预训练的、冻结的文本模型对文本条件c进行编码。

多模态扩散主干我们的架构建立在DiT架构的基础上。DiT仅考虑类条件图像生成，并使用调制机制在扩散过程的时间步和类标签上对网络进行条件建模。类似地，使用时间步t和的embedding作为调制机制的输入。然而，由于汇聚的文本表示仅保留了关于文本输入的粗粒度信息，网络还需要来自序列表示的信息。

我们构建了一个由文本和图像输入的embedding序列。具体来说，添加了位置编码，并将潜在像素表示的2×2patch展平为长度为1/2·h·1/2·w的patch编码序列。在将这个patch编码和文本编码embedding到一个公共维度后，我们将这两个序列连接起来。然后，我们按照DiT的方法应用一系列调制注意力和MLP。由于文本和图像的embedding在概念上是非常不同的，我们为两种模态使用了两组独立的权重。如前面图2b所示，这相当于为每个模态使用两个独立的transformer，但将两种模态的序列连接起来进行注意力操作，以便两种表示都可以在自己的空间中工作，同时考虑另一种模态。

对于规模实验，通过设置隐藏大小为64·d（在MLP块中扩展为4·64·d通道），并将注意头的数量设置为d，来将模型的规模参数化为模型的深度d，即注意块的数量。

实验

改进Rectified flow

我们的目标是了解方程1中无需模拟训练的归一化流方法中哪种方法是最有效的。为了能够跨不同方法进行比较，控制了优化算法、模型架构、数据集和采样器。此外，不同方法的损失是无法比较的，也不一定与输出样本的质量相关；因此需要能够比较各种方法的评估指标。我们在ImageNet和CC12M上训练模型，并使用验证损失、CLIP分数和FID在不同的采样器设置（不同的引导尺度和采样步骤）下评估模型的训练和EMA权重。按照（Sauer等人，2021年）的建议，使用COCO-2014验证集上的CLIP特征计算FID。

结果

在这两个数据集上训练了61种不同的配方。

具有线性（eps/linear, v/linear）和余弦（eps/cos, v/cos）调度的ε-和v-预测损失。

具有的RF损失，其中s在-1和1.75之间均匀选择了7个值，并额外考虑了s = 1.0和s = 0，这对应于均匀时间步采样（rf/mode）。

具有的RF损失，其中(m, s)在m均匀分布在-1和1之间，s均匀分布在0.2和2.2之间的网格中有30个值。

具有的RF损失。

EDM(edm(,))，其中在-1.2和1.2之间均匀选择了15个值，Ps在0.6和1.8之间均匀选择。注意， = (-1.2,1.2)对应于（Karras等人，2022年）中的参数。

具有与rf的对数SNR加权匹配的计划的EDM（edm/rf）和与v/cos的对数SNR加权匹配的计划的EDM（edm/cos）。

对于每次运行，选择在使用EMA权重进行评估时具有最小验证损失的步骤，然后收集使用6种不同采样器设置以及有或无EMA权重时获得的CLIP分数和FID。

对于所有24种采样器设置、EMA权重和数据集选择的组合，使用非支配排序算法对不同的配方进行排名。为此，重复计算根据CLIP和FID分数是帕累托最优的变体，将这些变体分配给当前迭代索引，删除这些变体，然后继续处理其余变体，直到所有变体都被排名。最后，将这些排名平均化得到24个不同控制设置的结果。

下表1中呈现结果，其中仅显示了使用不同超参数进行评估的两种性能最佳的变体。

我们还展示了在限制采样器设置为5步和50步时的排名。观察到rf/lognorm(0.00, 1.00)始终获得很好的排名。它优于具有均匀时间步采样（rf）的Rectified flow形式，从而证实了我们的假设，即中间时间步骤更重要。在所有变体中，只有具有修改的时间步采样的Rectified flow形式的表现优于先前使用的LDM-Linear配方（eps/linear）。

还观察到，一些变体在某些设置中表现良好，但在其他设置中表现较差，例如，rf/lognorm(0.50, 0.60)是具有50个采样步骤的表现最佳的变体，但在具有5个采样步骤的情况下要差得多（平均排名为8.5）。

在下表2中，观察到了与两个指标相关的类似行为。

第一组显示了代表性变体及其在两个数据集上具有25个采样步骤时的指标。接下来的组显示了达到最佳CLIP和FID分数的变体。除了rf/mode(1.75)外，这些变体通常在一个指标上表现非常好，但在另一个指标上相对较差。相比之下，我们再次观察到rf/lognorm(0.00, 1.00)在各种指标和数据集上均表现良好，在四次测试中两次获得第三好的分数，一次获得第二好的表现。

最后，在下图3中展示了不同配方的定性行为，其中我们使用不同颜色表示不同配方组（edm、rf、eps和v）。Rectified flow配方通常表现良好，并且与其他配方相比，在减少采样步骤数量时，它们的性能下降较少。

改进模态特定表示

在上一节中找到允许Rectified flow模型不仅与已建立的扩散配方（如LDM-Linear或EDM）竞争，甚至胜过它们的配方后，现在转向我们的配方应用于高分辨率文本到图像合成。因此，我们算法的最终性能不仅取决于训练配方，还取决于通过神经网络的参数化以及使用的图像和文本表示的质量。

改进的自编码器

潜在扩散模型通过在预训练自编码器的潜在空间中操作实现了高效率，该自编码器将输入RGB X ∈ 映射到低维空间x = E(X) ∈ 。该自编码器的重建质量为潜在扩散训练后可实现的图像质量提供了一个上限。与Dai等人类似，我们发现增加潜在通道数d显著提高了重建性能，见下表3。

直观地说，预测具有更高d的潜在变量是一项更困难的任务，因此具有增加容量的模型应该能够在较大的d上表现更好，最终实现更高的图像质量。在下图10中，证实了这一假设，可以看到d = 16的自编码器在样本FID方面展现出更好的扩展性能。因此，在本文的其余部分，我们选择d = 16。

改进的标题

Betker等人表明，合成生成的标题可以极大地改善规模训练的文本到图像模型。这是因为通常情况下，大规模图像数据集附带的人工生成的标题往往过于关注图像主题，通常省略描述背景或场景构成的细节，或者如果适用的话，显示的文本。

我们遵循他们的方法，并使用一个现成的、最先进的视觉语言模型，CogVLM，为我们的大规模图像数据集创建合成注释。由于合成标题可能导致文本到图像模型忘记某些不在VLM知识语料库中的概念，使用50%原始标题和50%合成标题的比率。

为了评估在这种标题混合情况下的训练效果，对两个d = 15的MM-DiT模型进行了250k步的训练，一个仅使用原始标题，另一个使用50/50混合。我们使用GenEval基准评估训练好的模型，见下表4。

结果表明，使用合成标题的模型明显优于仅使用原始标题的模型。因此，在本工作的其余部分，我们使用50/50的合成/原始标题混合。

改进的文本到图像主干网络

将现有基于Transformer的扩散主干网络的性能与我们的新型多模态基于Transformer的扩散主干网络MM-DiT进行比较。MM-DiT专门设计用于处理不同的领域，这里是文本和图像 tokens ，使用（两个）不同的可训练模型权重集。更具体地说，我们遵循前面的实验设置，并在CC12M上比较DiT、CrossDiT（DiT但对文本 tokens 进行交叉注意而不是序列级别的串联）和我们的MM-DiT的文本到图像性能。对于MM-DiT，我们比较了具有两组权重和三组权重的模型，后者单独处理CLIP和T5 tokens 。请注意，DiT（在第4节中对文本和图像 tokens 进行串联）可以被解释为MM-DiT的一种特殊情况，其对所有模态共享一组权重。

最后，将UViT架构视为广泛使用的UNets和Transformer变体之间的混合体。在下图4中分析了这些架构的收敛行为：普通的DiT性能低于UViT。交叉注意力DiT变体CrossDiT的表现优于UViT，尽管UViT似乎最初学习速度更快。MM-DiT变体显着优于交叉注意力和普通变体。当使用三组参数集而不是两组时，我们观察到的收益很小（代价是增加的参数数量和VRAM使用），因此在本文的其余部分选择前者选项。

训练缩放

在增大比例之前，对数据进行筛选和预编码，以确保安全和有效的预训练。然后，在扩散形式、架构和数据的所有先前考虑都汇总，我们将模型扩展到8B参数。

数据预处理

预训练缓解训练数据对生成模型能力的显着影响。因此，在规模化训练之前，对数据进行以下分类的筛选：

色情内容：我们使用NSFW检测模型来筛选显式内容。

美学：删除我们评分系统预测得分低的图像。

回溯：使用基于聚类的去重方法从训练数据中删除感知和语义重复项；。

预计算图像和文本embedding 我们的模型使用多个预训练、冻结的网络的输出作为输入（自动编码器的潜变量和文本编码器的表示）。由于这些输出在训练期间是恒定的，为整个数据集预先计算它们一次。

在高分辨率上微调

QK-Normalization 通常情况下，将所有模型预先训练在2562像素大小的低分辨率图像上。接下来，在更高分辨率上对模型进行微调，使用混合长宽比。

我们发现，当转移到高分辨率时，混合精度训练可能会变得不稳定，并且损失会发散。这可以通过切换到全精度训练来解决，但与混合精度训练相比，性能会下降约2倍。一个更有效的替代方法在（辨别性）ViT文献中有报道：Dehghani等人观察到，大型视觉Transformer模型的训练会发散，因为注意力熵无法控制地增长。为了避免这种情况，Dehghani等人建议在执行注意力操作之前对Q和K进行归一化。我们采用了这种方法，在MMDiT架构的两个流中使用可学习缩放的RMSNorm进行QK归一化，如下图2所示。

下图5所示，额外的归一化防止了注意力logit增长不稳定性，证实了Dehghani等人的研究结果，并且在与AdamW优化器中使用时，使得在bf16-mixed精度下进行有效训练。该技术也可以应用于在预训练期间未使用qk-归一化的预训练模型：模型很快适应了额外的归一化层，并且训练更加稳定。最后，我们想指出，虽然这种方法通常有助于稳定大型模型的训练，但它并非万能的解决方案，可能需要根据确切的训练设置进行调整。

变化长宽比的位置编码在固定的256×256分辨率上训练后，我们的目标是

增加分辨率和分辨率

使推理具有灵活的长宽比成为可能。由于使用2D位置频率embedding，我们必须根据分辨率进行调整。在多长宽比设置中，直接插值embedding（不会正确反映边长。相反，我们使用扩展和插值的位置网格的组合，然后对其进行频率embedded。

对于目标分辨率为像素，使用分桶采样，使每个批次包含尺寸均匀的图像H×W，其中H·W≈S2。对于最大和最小的训练长宽比，这导致了宽度的最大值和高度的最大值。让，，s = S/16是latent空间中（因子8）在修补后（因子2）的相应尺寸。基于这些值，构造了一个垂直位置网格，其值为，相应地对水平位置进行。然后，我们从生成的位置2D网格中进行中心裁剪，然后对其进行embedding。

分辨率相关的时间步骤调整直觉上，由于更高的分辨率具有更多的像素，需要更多的噪声来破坏它们的信号。假设在具有n = H·W像素的分辨率下工作。现在，考虑一个“常数”图像，即每个像素都具有值c。正向过程产生，其中1和ε ∈。因此，提供了关于随机变量Y = (1−t)c + tη的n个观测值，其中c和η在R中，η遵循标准正态分布。

因此，E(Y) = (1−t)c和σ(Y)=t。因此，可以通过 E(Y)来恢复c，并且c与其样本估计值,i之间的误差具有标准差（因为Y的均值的标准误差为）。

因此，如果已经知道图像z0在其像素之间是恒定的，则σ(t,n)代表关于z0的不确定性程度。例如，立即看到将宽度和高度加倍会导致在任何给定时间0 < t < 1时不确定性减半。但是，现在可以通过假设σ(,n) = σ(,m)将分辨率n上的时间步骤tn映射到分辨率m上产生相同程度的不确定性的时间步骤。求解得到

在下图6中可视化了这个移位函数。请注意，恒定图像的假设并不现实。为了在推理过程中找到合适的移位值，在分辨率为1024×1024的模型上应用它们到采样步骤，并进行人类偏好研究。下图6中的结果显示，样本的偏移值大于1.5有很强的偏好，但在较高的偏移值之间差异不太明显。因此，在分辨率为1024×1024时，在训练和采样中都使用α = 3.0的移位值。

可以在图6中找到经过8k训练步骤的样本的定性比较，带有和不带有这样的偏移。最后，注意方程式23暗示了类似于(Hoogeboom等人，2023)的log n/m的对数-SNR偏移。

在下图8中，研究了将MM-DiT进行规模化训练的效果。对于图像，我们进行了大规模的缩放研究，并在256×256像素的分辨率上使用预编码数据，在批量大小为4096的情况下，对模型进行了500k步的训练。

在2×2的patch上进行训练，并在每50k步报告一次CoCo数据集的验证损失。特别地，为了减少验证损失信号中的噪声，在t ∈ (0,1)中等间隔地采样损失水平，并分别计算每个水平的验证损失。然后，将除了最后一个（t = 1）水平之外的所有损失平均起来。

同样，我们对视频上的MM-DiT进行了初步的规模化研究。为此，从预训练的图像权重开始，并额外使用了2倍的时间patch。遵循Blattmann等人的做法，通过将时间合并到批处理轴中，将数据馈送到预训练模型中。在每个注意层中，重新排列视觉流中的表示，并在最终前馈层之前的空间注意操作后添加了一个对所有时空tokens的全注意力。

我们的视频模型在包含16帧，分辨率为256×256像素的视频上进行了140k步的训练，batch大小为512。每5k步报告一次Kinetics数据集上的验证损失。请注意，在前面图8中报告的视频训练的FLOP仅来自视频训练，不包括图像预训练的FLOP。

在图像和视频领域，当增加模型大小和训练步骤时，观察到验证损失平稳下降。发现验证损失与综合评估指标（Comp-Bench 、GenEval）和人类偏好高度相关。这些结果支持验证损失作为模型性能的简单和通用的衡量标准。我们的结果既不显示图像模型的饱和，也不显示视频模型的饱和。

下图12说明了训练更大的模型更长时间如何影响样本质量。表5显示了GenEval的全部结果。当应用提出的方法并增加训练图像分辨率时，我们的最大模型在大多数类别上表现出色，并在整体得分上优于DALLE 3 ，即当前最先进的提示理解技术。

我们的d = 38模型在Parti-prompts基准测试的视觉美学、提示跟随和样式生成等类别的人类偏好评估中优于当前的专有和开放SOTA生成图像模型，参见下图7。

对于评估这些类别的人类偏好，评分者被展示了两个模型的成对输出，并被要求回答以下问题：

提示跟随：哪个图像看起来更符合上面显示的文本并忠实地跟随它？
视觉美学：给定提示，哪个图像更高质量、更美观？
样式：哪个图像更准确地显示了上述描述中指定的文本？更准确的拼写更受欢迎！忽略其他方面。

最后，下表6突显了一个有趣的结果：更大的模型不仅表现更好，而且需要的步骤更少才能达到它们的巅峰性能。

灵活的文本编码器虽然主要动机是提升整体模型性能，但我们现在展示这种选择额外增加了基于MM-DiT的 Rectified flow 在推理过程中的灵活性。正如附录B.3所述，使用三个文本编码器训练我们的模型，每个编码器的个体dropout率为46.3%。

因此，在推理时，可以使用所有三个文本编码器的任意子集。这提供了一种权衡模型性能以换取改进的内存效率的手段，这对于需要大量VRAM的T5-XXL的47亿参数尤其重要。

有趣的是，当仅使用两个基于CLIP的文本编码器用于文本提示，并用零替换T5 embedding时，观察到的性能下降有限。在下图9中提供了定性可视化。只有在涉及高度详细的场景描述或更多文本内容的复杂提示时，我们才发现当使用所有三个文本编码器时性能显著提升。这些观察结果也在图7中的人类偏好评估结果中得到验证（去除T5后的我们）。去除T5对美学质量评级没有影响（50%胜率），对提示符的遵循只有小小的影响（46%胜率），而对生成书面文本能力的贡献则更为显著（38%胜率）。

在这项工作中，对文本到图像合成的Rectified flow模型进行了规模分析。提出了一种新的 Rectified flow 训练的时间步采样方法，该方法改进了以前的扩散训练配方，适用于潜在扩散模型，并保留了 Rectified flow 在少步采样阶段的有利特性。还展示了我们基于Transformer的多模态MM-DiT架构的优势，该架构考虑了文本到图像任务的多模态性质。最后，对这种组合进行了扩展研究，将模型大小扩展到8B参数和5 ×1022个训练FLOP。

我们展示了验证损失的改进与现有的文本到图像基准以及人类偏好评估之间的相关性。这与我们在生成建模和可扩展的多模态架构方面的改进相结合，使性能达到了与最先进的专有模型相竞争的水平。扩展趋势没有显示出饱和的迹象，这让我们对未来继续提高模型性能感到乐观。

参考文献

[1] Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

更多精彩内容，请关注公众号：AI生成未来

欢迎加群交流AIGC技术，添加小助手