MSRA古纾旸：2024年，视觉生成领域最重要的问题有哪些？

文章链接: https://arxiv.org/pdf/2407.18290

亮点直击

概述了视觉生成领域中的各种问题。

这些问题的核心在于如何分解视觉信号，其他所有问题都与这一核心问题密切相关，并源于不适当的信号分解方法。

本文旨在引起研究人员对视觉信号分解重要性的关注。

问题1：生成模型的目标是什么？

在作者看来，生成模型的设计目的是“创造人们所设想的”。数字信号的生成需要经过三个里程碑：

第一个里程碑是将用户的想法翻译成计算机可以理解的格式。具体来说，这需要识别要生成的信号的模态，这可以是文本、3D物体、视频或其他形式。随后，必须确定在给定条件下要生成的状态。从流形学习的角度来看，这一过程对应于首先确定包络空间的维度D，然后识别模型要模仿的目标分布。

在生成建模领域，许多研究人员专注于如何建模这一挑战。主要的障碍是目标分布的固有复杂性，这通常使得建模变得非常艰难。因此，研究人员不断寻找具有更强建模能力的模型。特别是在视觉生成领域，近年来流行的方法包括基于能量的模型（Energy-Based Models）、变分自编码器（VAEs）、生成对抗网络（GANs）、扩散模型（diffusion models）等。

同时，许多研究人员进一步探索更高级的目标，研究如何以更高的效率和更好的可解释性生成结果。这些研究对实际部署、安全性和负责任AI的发展具有重大意义。

问题2：视觉信号分解问题

建模分布的努力带来了巨大的挑战，特别是当目标是生成令人信服的文本内容或视频时。这些类型的数据代表了embedding在极高维空间中的低维流形，使得用单一网络直接拟合这些分布变得不切实际。因此，需要将复杂的分布建模问题分解成多个更简单的问题，并分别解决每个子问题。这引出了一个问题：如何有效地分解这个复杂的分布建模问题？

语言分解

大语言模型的成功在很大程度上归功于对文本信号的有效分解。考虑建模文本序列的任务，其中表示从前到后第t个位置的token。

这可以基于位置分割成一系列条件建模子任务：大语言模型采用自回归模型来近似这些条件分布映射。这种方法的一个关键方面是，对于自然语言，分解的子任务本质上是相互关联的。例如，一个短语是“我喜欢游泳”，它可能出现在句子的开头或中间。换句话说，它可以出现在任何子任务中。有了足够大的数据集，游泳我喜欢和游泳你喜欢打篮球，我喜欢代表两个高度相关的任务，可以相互作为数据增强。换句话说，不同的子任务是“等变”的。让我们给“等变”一个严格的数学定义。

定义1 假设目标分布是，将信号分割成多个子任务： ... 对于第t个条件概率拟合任务，采用网络θ来拟合它。对于任意两个任务t和k以及两个状态样本s和，如果

将这种信号分解称为等变。

可以观察到，语言分解是独立于位置的。对于任何token 或短语，它们在句子中第t个或第k个位置出现的概率几乎相同。这一观察结果与方程2一致，因此表明语言分解表现出等变性。因此，采用单一模型来近似这些不同但相关的任务通常不会导致冲突，实际上，这对数据的整体建模非常有利。

图像块分解

这种分解和建模的策略在语言领域取得了显著成功。然而，将这一方法复制到通过空间位置分解图像会面临不同的挑战。早期的尝试包括将图像分割成空间块以创建可以由自回归模型处理的序列。然而，与自然语言不同，图像块本质上缺乏“等变”特性。如下图1所示，虽然单行块内存在连续性，但这种连续性在一行的最后一个块和下一行的第一个块之间是不存在的。除了连续性之外，还存在其他特定数据集的挑战，例如人类主体倾向于居中在图像中。因此，采用单一、通用的模型来涵盖所有这些不同的分布通常会导致冲突。此外，模型必须努力学习由多个不同分布组成的复杂联合分布映射问题，这破坏了分解复杂分布以简化建模的原则。虽然位置embedding的整合可以缓解一些这些冲突，但这并不是解决问题的万能药。

深度分解

除了空间分割，一些研究人员还探索了沿深度维度分割图像数据。这种方法直观上具有吸引力，因为每个图像空间位置存在大量信息，例如需要8位每通道的三通道RGB表示。另一方面，图像的高空间维度通常需要使用变分自编码器（VAE）来降低维度。结合这两个方面，按深度分割数据的著名方法包括VQVAE2和RQVAE。首先，这些方法可能会遇到“无效编码”问题，将在问题3中详细说明。此外，与自然语言不同，深度维度也不表现出“等变”性。以RQVAE为例，在相同的空间位置，早期token表示低频信息，而后期token表示高频信息。因此，应用具有共享参数的自回归模型来建模这些不同的分布映射可能会导致冲突。一种替代方法，如MUSE，建议将问题分割成更少数量的独特子任务，每个子任务独立建模且不共享参数。然而，随着数据分布变得越来越复杂，这可能需要更多的子任务，导致所需模型参数激增，并可能加剧“无效编码”问题。

噪声强度分解

扩散模型提出了另一种有趣的信号分解方法：通过一系列逐步去噪的图像序列来表征图像。对于数据集中给定的图像，通过马尔可夫过程逐步添加噪声以生成序列，其中几乎是纯噪声，几乎没有原始图像信息的残留。这个过程有效地将图像分布建模任务分解为N个去噪子任务：，其中t = [0, 1, ..., N-1]。虽然所有子任务都涉及去噪，但在理论上，它们之间共享参数似乎是可行的。然而，在实践中，典型的噪声添加策略可能会导致去噪阶段的差异，特别是当噪声水平显著不同时。这些非等变任务导致了与基于深度分解挑战类似的困境：使用共享参数的模型来拟合复杂的数据分布映射是对模型能力的巨大挑战。如果不共享参数，这可能会迅速增加模型的大小。一些研究，如eDiff-I，已经尝试从实现的角度在参数效率与拟合分布的复杂性之间取得平衡。此外，重新参数化技巧被证明是统一不同去噪任务的输出分布的极其重要的技术，缓解了不同噪声强度之间的冲突。然而，它并没有消除输入分布的差异。关于扩散模型中噪声强度冲突的这些问题将在问题4中进一步探讨。

可学习的分解

在回顾扩散模型后，发现冲突的程度取决于所选择的噪声策略，这通常是手动预先定义的。因此，一些研究人员尝试定义更优的噪声策略，努力确保在不同噪声水平下去噪过程具有一定程度的相似性。在这一领域的显著工作包括流匹配（Flow Matching）和一致性模型（consistency models）。与此同时，其他研究人员正在探索添加噪声策略是否可以学习，而不是预先设定。该领域的显著进展包括变分扩散模型（Variational Diffusion Models, VDM）和扩散薛定谔桥（Diffusion Schrödinger Bridge, DSB），尽管并非所有此类工作都是以此目标为出发点。特别地，VDM专注于学习添加高斯噪声的系数，这在一定程度上限制了学习以减轻冲突的潜力。同时，基于薛定谔桥范式的研究使用专门的网络来学习添加噪声的过程，迭代地逼近熵正则化的最优传输。然而，当前的可学习分解方法并不是根据“等变”特性设计的。未来的工作可能需要将其作为先验来约束可学习分解中的网络学习。此外，当用网络替代预定义的随机微分方程（SDE）进行噪声学习时，会出现显著的权衡：在实际应用中，利用重新参数化来统一输出分布的挑战，成为减轻不同噪声强度冲突的关键技术。尽管近期的努力已经开始解决这些问题，但仍然不足以满足实际应用的需求。

扩展讨论

从信号分解的角度来看，关于自回归（AR）模型、扩散模型或其他模型架构在视觉生成中哪种更优的争论并不特别有益。根本考虑是信号是如何被分解的，以及选择的生成范式是否有利于所选的分解方法。理想情况下，可能有两种分解范式：一种类似于语言模型所采用的方法，将复杂的数据分布简化为一系列展现“等变”的简单条件数据分布；另一种策略涉及将数据分解成多个独立的分布问题，这可以被视为“等变”的特例。

作者认为，在图像分解中实现等变的困难并不仅仅是因为图像是二维数据而语言是一维的。近期的研究尝试将图像编码为一维token，但这些一维token既不独立也不等变。

虽然可学习的分解方法在理论上有潜力实现这种“等变”，但它们的实际应用目前充满挑战。另一种可行的方法可能是整合各种信号分解技术以简化数据分布。例如，视频可以分解为时间上“等变”的帧，然后可以进一步基于“噪声强度”或“图像块”进行细分。类似地，MUSE最初沿深度维度分解图像信号，然后从“噪声强度”维度处理分布映射。

信号分解是根本性的问题，许多后续问题可以视为对其的扩展，旨在缓解当前视觉信号分解中的非等变性问题。

问题 3：分词问题

当前主流的图像和视频生成模型主要采用两阶段方法：首先将数据编码为紧凑的低维表示，然后对这一压缩分布进行建模。第一阶段压缩的目的是在尽可能保留原始信息的同时简化数据分布，从而减轻随后的模型拟合阶段所面临的复杂性。在文本数据的背景下，降维可以被认为是无损的。相比之下，视觉数据的压缩，无论是通过自编码器（AE）还是变分自编码器（VAE），本质上都是有损的。然而，“压缩损失越小越好”这一断言并不一定成立。

一个典型的例子是，用AE压缩的信号可能比用VAE压缩的信号重建得更好，但压缩数据分布中保留的复杂性仍然给第二阶段的拟合过程带来了挑战。因此，研究人员在压缩过程中引入正则化约束，以防止数据分布变得过于复杂。重建保真度与拟合难度之间的冲突是各个领域中常见的挑战。在音频处理领域，连续音频信号通常被编码为长度为16的token，拟合阶段通常集中在前8个token上。类似地，在图像处理领域，GLOW和VDM++也发现对5位深度图像的训练结果比使用完整8位深度的图像更好。这些观察结果强调了采用自适应长度编码策略以更好地平衡重建精度和第二阶段拟合任务复杂性的重要性。

可变长度编码的一个典型例子是RQVAE，它在潜在空间中迭代编码重建误差，旨在实现越来越精确的图像重建。然而，如下图2所示，我们观察到更深的编码并不总是与更好的重建质量相关联。我们将此称为“无效编码”问题。为调查这一问题，我们进行了一系列综合实验，修改网络架构、学习率、损失函数权重和码书大小，此外还测量了不同编码长度下“无效编码”的频率。表1显示，编码长度越长，遇到无效编码问题的概率越高。然而，我们尚未得出任何关于导致这一问题的特定条件的普遍结论。下面，我们提供一个直观但不严格的解释：

令D表示解码器，I表示原始输入图像。在不同深度的编码分别表示为，其中N是编码深度，在此情况下我们假设为4。因此，RQVAE的重建损失L可以被视为以下四个重建损失的组合：

在此基础上，我们做出两个假设以简化分析。首先，假设解码器作为线性变换功能，从而使结果的分析更为简便。其次，根据标准配置，对这四个损失赋予相等的损失权重。在这些假设下，上述重建损失的计算可以简化如下：

因此，最小化图像级重建损失的潜在空间表示为：

这并不能保证比更接近arg min X。假设不同深度的编码共享一个公共的代码本，并且是独立同分布的，那么后者的和必定会比前者更接近真实值。因此，这导致了“无效编码”问题。

问题 4：扩散模型是否是最大似然模型？

自回归模型是经典的最大似然模型，通过计算似然函数来促进各种复杂任务，包括操控生成结果和评估其质量。一个有趣的问题是：扩散模型是否也可以被视为最大似然模型？对去噪扩散概率模型的最初研究源于最大似然来推导训练损失函数。[45]提出了ELBO训练的损失权重设置。此外，VDM++表明，使用单调权重优化等同于通过分布增强最大化似然函数。然而，在实际训练中，通常采用不同的损失权重。目前的主流实践，例如SD3，并未完全接受这一原则。

巧合的是，这种困惑在生成和评估过程中都出现。在生成过程中，观察到直接从似然模型θ中采样的结果往往不如通过无分类器引导修改后的结果：θλθθ，其中λ是无分类器引导的尺度。这可以推导为[49]从θθλ中采样。我们可以很容易地发现，这种调整将似然函数与后验分布结合在一起，暗示着最大化似然并不总是等同于最佳结果。在评估阶段，这个问题进一步得到证实，其中具有较低负对数似然（NLL）分数的模型并不总是对应于最美观的视觉结果或最低的Fréchet Inception Distance（FID）指标。这引出了一个微妙但关键的问题：为什么最大化似然并不一定导致最佳结果？

这是一个可能的理解。如[21]所阐明的，评分匹配与非归一化似然的最大化密切相关。通常，评分匹配可以避免最大似然学习中倾向于将所有数据点赋予相等概率的问题。在某些特殊情况下，如多变量高斯分布，它们是等变的。VDM++阐明，使用单调损失权重w(t)进行训练实际上等同于最大化所有中间状态的ELBO。这种特定的加权表示不同噪声水平对最终模型性能的不同重要性。然而，正如问题2中讨论的，图像数据缺乏“等变性”。在实际训练中，学习似然函数的难度随噪声强度变化；直观地，最大难度出现在中等噪声水平，此时似然函数往往学习得不够准确。在生成过程中，使用无分类器引导可以被解释为对学习不佳的似然函数的修正。这在[29]中尤为明显，无分类器引导在中等噪声水平下极其重要。在模型评估中，由于不同噪声水平的任务对最终结果的重要性程度不同，对这些NLL损失应用统一权重可能无法有效衡量最终生成输出的质量。

问题5：对于扩散模型，如何平衡不同SNR（信噪比）之间的冲突？

如前所述，扩散模型与文本生成中的自回归模型不同，它们在各种子任务之间不保持“等变性”。一些研究将扩散模型按照噪声强度进行分类，并明确利用专家混合（MOE）策略进行模型拟合。eDiff-I和 SDXL等工作就是这一方法的例子，每个模型不共享参数。这些方法的关键在于任务的战略性划分，因为子任务不仅相互冲突，而且具有相关性。通过利用这些相互关系，可以提高模型收敛的效率并抑制模型参数的指数增长。

其他方法尝试在不增加参数数量的情况下调和不同噪声强度之间的冲突。根据VDM++，训练目标是损失加权和重要性采样的组合。

其中，λ表示信噪比（SNR）的对数，x表示训练图像，λ是噪声强度λ下的噪声图像。λ和λ分别表示噪声水平λ下的损失权重和采样频率。

因此，为了平衡各种噪声强度，可以调整损失权重或实现不同SNR下的重要性采样。MinSNR是一项值得注意的研究，它精心设计了损失权重，旨在通过追求帕累托最优优化方向来规避冲突。SD3和 HDiT等研究经验上发现，增加中等范围SNR的权重可以带来更好的结果。如公式6所示，调整损失权重w(λ)的效果与修改采样频率p(λ)相似。然而，在实际操作中，增加重要任务的损失权重等同于提高学习率，而增强频率则可以视为分配更多计算资源（Flops），这通常会导致更好的性能。

从另一个角度来看，对不同噪声水平进行重要性采样可以被视为设计噪声调度，或者说是信号分解的一种类型，正如我们在问题2中讨论的。当对不同空间位置施加独立同分布（i.i.d.）高斯噪声时，之前的研究表明，根据token长度调整噪声调度是必要的，并确保在最后一步没有信号泄漏[32, 50]。 [15] 实证地引入了一个噪声调度来进行训练，这实现了更高效的收敛，并且在各种条件下证明了其有效性。然而，这可能需要根据目标分布调整超参数，并且在推断过程中缺乏冲突分析。作者推测，放弃使用i.i.d.高斯噪声进行信号分解可能是解决这些冲突的一个基本方法。

问题6：扩散模型是否符合缩放规律？

重新思考大语言模型（LLMs）的显著成就，其中一个关键因素是缩放规律。这自然引发一个问题：视觉生成中的扩散模型是否也符合缩放规律？

解决这个问题的挑战在于缺乏与人类感知一致的评估指标来评估模型的性能。在通过自回归模型进行语言建模时，“等变性”原则使得通过对不同子任务的负对数似然损失进行等权重分配来评估模型性能成为可能。相比之下，扩散模型中的子任务缺乏这种等变性；它们对最终生成的结果的贡献程度各不相同。因此，简单的等权重损失聚合无法全面捕捉生成模型的能力。

为了发现适当的指标，第一个尝试是为各种子任务构建重要性系数。根据[15]定义的新噪声调度可以视为对不同任务赋予“难度系数”。我们将其视为“重要性系数”，并利用它来对不同噪声强度下的损失进行加权。对于训练text2image模型，我们使用了COYO数据集，其中包含700M文本-图像对。我们训练了四个模型，参数数量分别为32.28M、128.56M、454.98M和671.32M。为了方便起见，我们将它们token为S、M、L和XL。所有模型都使用1024的批量大小进行训练。使用“重要性加权损失”作为指标来测量模型的性能。按照[47]的方法，利用[22]中的公式来基于S、M、L模型估计XL模型的性能。结果如下图3所示。左侧图预测了模型性能与参数数量的关系，而右侧图预测了模型性能与训练迭代次数的关系。可以看到，两种预测都非常准确，尽管由于资源限制，验证的规模相对有限。然而，必须注意的是，目前没有直接证据证明这些指标与人类判断一致。

第二种策略是采用已建立的生成模型评估指标，其中Fréchet Inception Distance（FID）是最常见的。FID旨在量化两个数据分布之间的差异。然而，当处理大规模生成模型和极其复杂的数据分布时，准确捕捉目标分布变得具有挑战性，难免导致FID评分的偏差。此外，FID假设从神经网络提取的特征向量遵循高斯分布，这引入了显著的系统误差。同时，一些研究[36, 13, 3]还强调了FID指标的其他问题。

为了确保与人类偏好的对齐，最关键的方法是使用广泛的人类注释作为评估基准。以text2image生成作为例子，一种潜在的方法是收集大量高质量的文本-图像对。对于待测试的生成模型，它们可以基于给定的文本提示生成结果。用户评估生成的图像和真实图像哪个更符合他们的偏好。理论上，随着模型质量的提高，这种生成结果的偏好率应趋近于0.5。这个偏好率可以作为缩放规律的指标，提供关于计算资源、模型规模和数据规模如何影响模型最终性能的见解。值得注意的是，扩散基础视觉模型的输出质量对所选择的推断策略[23, 18]高度敏感，这与大语言模型有显著不同。具有捕捉人类偏好的指标，这一因素值得进一步探索。

参考文献

[1] Several questions of visual generation in 2024

总结

**文章总结**：
本文深入探讨了视觉生成领域的多个关键问题，强调了视觉信号分解在生成模型设计中的核心地位。文章指出，生成模型的目标是“创造人们所设想的”，这一过程中面临的主要挑战在于目标分布的复杂性。为了应对这一挑战，研究人员不断探索新的模型架构，如基于能量的模型、变分自编码器、生成对抗网络和扩散模型等。
文章详细分析了视觉信号分解的多种方法，包括语言分解、图像块分解、深度分解、噪声强度分解和可学习的分解。每种方法都有其独特的优势和局限性。例如，语言分解因其等变性在文本生成中取得了显著成功，但图像块分解和深度分解在视觉生成中面临非等变性问题，导致模型难以有效拟合复杂的数据分布。
此外，文章还讨论了分词问题、扩散模型与最大似然模型的关系、不同信噪比（SNR）之间的冲突平衡、扩散模型的缩放规律等关键问题。在分词问题上，文章指出视觉数据的压缩通常是有损的，需要平衡重建保真度与模型拟合难度。对于扩散模型，文章探讨了其是否可以被视为最大似然模型，并指出在实际应用中，最大化似然并不总是等同于最佳结果。
在解决不同SNR之间的冲突方面，文章介绍了专家混合（MOE）策略、损失权重调整和重要性采样等方法。对于扩散模型的缩放规律，文章提出了使用重要性加权损失和已建立的生成模型评估指标（如FID）来评估模型性能，但强调这些指标可能无法完全反映人类判断，因此建议使用人类注释作为评估基准。
总体而言，本文为视觉生成领域的研究人员提供了深刻的见解和新的研究方向，强调了信号分解在生成模型设计中的重要性，并指出了当前研究中存在的问题和挑战。