当前位置:AIGC资讯 > AIGC > 正文

【读点论文】A Survey on Generative Diffusion Model,AIGC时代的新宠儿,从原理推导到工程应用,在视觉,自然语言,语音等领域大展拳脚

A Survey on Generative Diffusion Model

Abstract

由于深度潜在表示,深度学习在生成任务中显示出良好的潜力。生成模型是一类可以根据某些隐含参数随机生成观测值的模型。近年来,扩散模型以其强大的生成能力成为生成模型的一个新兴类别。如今,已经取得了巨大的成就。除了计算机视觉、语音生成、生物信息学和自然语言处理之外,该领域还有更多的应用有待探索。然而,扩散模型有其真正的缺点,即生成过程慢,数据类型单一,可能性低,无法降维。它们导致了许多改进的工作。

本文对扩散模型研究领域进行了综述。我们首先用两个里程碑式的作品——DDPM和DSM,以及一个统一的里程碑式的作品——Score SDE来陈述主要问题。然后,针对扩散模型领域存在的问题,提出了分类改进技术。为了提高模型的加速,我们提出了各种先进的技术来加速扩散模型-训练计划,无训练采样,混合建模,分数和扩散统一。对于数据结构多样化,我们提出了在连续空间、离散空间和约束空间中应用扩散模型的改进技术。对于似然优化,我们提出了改进ELBO和最小化变分间隙的理论方法。在降维方面,我们提出了几种解决高维问题的技术。

对于现有的模型,我们还根据具体的NFE提供了FID评分、IS和NLL的基准。此外,还介绍了扩散模型的应用,包括计算机视觉、序列建模、音频和科学人工智能。最后,对该领域进行了总结,并指出了局限性和进一步的发展方向。

论文地址:[2209.02646] A Survey on Generative Diffusion Model (arxiv.org)

现有分类良好的方法总结在我们的Github中: chq1155/A-Survey-on-Generative-Diffusion-Model (github.com)

来自香港中文大学Pheng-Ann Heng、西湖大学李子青实验室和浙江大学陈广勇团队,对现有的扩散生成模型进行了全面的回顾。首先提出了diffusion model改进算法的细化分类与深度解析,同时对diffusion model的应用进行了系统的回顾,最后率先汇总领域内benchmarks。

INTRODUCTION

我们怎样才能赋予机器类似人类的想象力呢?深度生成模型,如VAE、EBM、GAN、归一化流和扩散模型,在创造人类无法正确区分的新模式方面显示出巨大的潜力。我们专注于基于扩散的生成模型,它不需要像VAE那样对齐后验分布,不需要像EBM那样处理难以处理的配分函数,不需要像GAN那样训练额外的判别器,也不需要像归一化流那样施加网络约束。由于上述优点,基于扩散的方法已经引起了从计算机视觉、自然语言处理到图形分析的广泛关注。然而,对扩散模型的研究进展仍缺乏系统的分类和分析。

生成模型管道。

(a)生成对抗网络(Generative Adversarial Net, GAN)将对抗训练策略应用于生成器,生成像输入分布一样逼真的样本。

(b)基于能量的模型(energy - based Model, EBM)设计了一个合适的能量函数,用于条件和样本之间的成对能量匹配,类似于GAN中的生成鉴别器。

©变分自编码器(VAE)使用编码器将先验投影到一个降维的潜在空间中,解码器可以从中进行采样。

(d)归一化流(Normalizing flow, NF)采用精心设计的可逆流函数,将输入转化为潜在变量,然后以流量函数的逆返回到样本中。

(e)扩散模型逐步向原始数据中注入噪声,直到原始数据变成已知的噪声分布,然后将采样步骤中的每一步进行反转。

扩散模型的进步为描述模型提供了易于处理的概率参数化,提供了稳定的训练过程和足够的理论支持,并提供了统一的损失函数设计和高度简单性。扩散模型的目的是将先验数据的分布转化为随机噪声,然后逐步修正这些变换,重建一个与先验分布相同的全新样本。近年来,扩散模型在计算机视觉(CV)、序列建模、音频处理、科学人工智能等领域显示出了其精湛的潜力。受到扩散模型在这些流行领域迄今为止成功的启发,将扩散模型应用于其他领域的生成相关任务将是开发强大生成能力的有利途径。

另一方面,与生成对抗网络(GANs)和变分自编码器(VAEs)相比,扩散模型具有采样步骤多和采样时间长的固有缺点。由于扩散模型利用马尔可夫过程通过微小的扰动来转换数据分布,因此在训练和推理阶段都需要大量的扩散步骤。因此,从随机噪声中采样需要更多的时间,直到它最终改变为类似于先前的高质量数据。此外,其他问题,如似然优化和不能降维也算在内。因此,许多研究都希望在提高采样质量的同时加速扩散过程。例如,DPM-solver利用ODE的稳定性在10步内生成最先进的样本。D3PM不仅提出了混合训练损失,还提出了文本和分类数据。

我们将扩散模型的改进工作归纳为四类。(1)加速改进,(2)数据结构多样化,(3)似然优化,(4)降维。因此,基于广泛的应用以及对算法改进的多角度思考,我们的目标是对扩散模型的当前方面进行详细的调查。通过对其他领域的增强算法和应用进行分类,本综述的核心贡献如下:

总结了扩散模型领域基本算法的本质数学表述和推导,包括利用训练策略和抽样算法。

对改进的扩散算法进行了全面和最新的分类,并将其分为加速改进、结构多样化、似然优化和降维四种方案。

提供关于扩散模型在计算机视觉、自然语言处理、生物信息学和语音处理中的应用的广泛陈述,包括领域专业问题的表述、相关数据集、评估指标和下游任务,以及基准集。

澄清目前模型的局限性和扩散模型领域可能进一步证明的方向。

PROBLEM STATEMENT

Notions and Definitions

Notions in Diffusion Systems

State
状态是一组描述扩散模型整个过程的数据分布。噪声逐渐注入开始分布,称为开始状态 x 0 x_0 x0​。经过足够多的噪声注入步骤,最终得到一个已知的噪声分布(多为高斯分布),称为先验状态 x T x_T xT​(Discrete)/ x 1 x_1 x1​(Continuous)。然后,起始状态和先前状态之间的其他分布称为中间状态 x t x_t xt​。
Process & Transition Kernel

正向和反向过程和内核:将起始状态转换为可处理噪声的过程是正向/扩散过程 F F F。与正向过程相反方向的过程称为反向/去噪过程 R R R。反向过程将噪声梯度逐级采样到样本中作为起始状态。在这两个进程中,任何两个状态之间的交换都是由转换内核实现的。为了呈现一个统一的框架,前向过程由许多前向步骤组成,这些步骤是前向转换核。相反的过程类似:

F ( x , δ ) = F T ( x T − 1 , δ T ) . . . ⊙ F t ( x t − 1 , δ t ) . . . ⊙ F 1 ( x 0 , δ 1 ) ; ( 1 ) R ( x , δ ) = R 1 ( x 1 , δ 1 ) . . . ⊙ R t ( x t , δ t ) . . . ⊙ R T ( x T , δ T ) ; ( 2 ) x t = F t ( x t − 1 , δ t ) , x t − 1 = R t ( x t , δ t ) ; ( 3 ) F(x,\delta)=F_T(x_{T-1},\delta_T)...\odot F_t(x_{t-1},\delta_t)...\odot F_1(x_0,\delta_1);(1)\\ R(x,\delta)=R_1(x_{1},\delta_1)...\odot R_t(x_{t},\delta_t)...\odot R_T(x_T,\delta_T);(2)\\ x_t=F_t(x_{t-1},\delta_t),x_{t-1}=R_t(x_t,\delta_t);(3) F(x,δ)=FT​(xT−1​,δT​)...⊙Ft​(xt−1​,δt​)...⊙F1​(x0​,δ1​);(1)R(x,δ)=R1​(x1​,δ1​)...⊙Rt​(xt​,δt​)...⊙RT​(xT​,δT​);(2)xt​=Ft​(xt−1​,δt​),xt−1​=Rt​(xt​,δt​);(3)

与离散情况不同,对于任意时刻 0 ≤ t < s ≤ 1 0≤t<s≤1 0≤t<s≤1,前向过程定义为:

F ( x , δ ) = F s 1 ( x s , δ s 1 ) . . . ⊙ F t s ( x t , δ t s ) . . . ⊙ F 0 t ( x 0 , δ 0 t ) ; ( 4 ) R ( x , δ ) = R t 0 ( x 1 , δ t 0 ) . . . ⊙ R t s ( x s , δ s t ) . . . ⊙ R 1 s ( x T , δ 1 s ) ; ( 5 ) x s = F t s ( x t , δ t s ) , x t = R s t ( x t , δ s t ) ; ( 6 ) F(x,\delta)=F_{s1}(x_{s},\delta_{s1})...\odot F_{ts}(x_{t},\delta_{ts})...\odot F_{0t}(x_0,\delta_{0t});(4)\\ R(x,\delta)=R_{t0}(x_{1},\delta_{t0})...\odot R_{ts}(x_{s},\delta_{st})...\odot R_{1s}(x_T,\delta_{1s});(5)\\ x_s=F_{ts}(x_{t},\delta_{ts}),x_{t}=R_{st}(x_t,\delta_{st});(6) F(x,δ)=Fs1​(xs​,δs1​)...⊙Fts​(xt​,δts​)...⊙F0t​(x0​,δ0t​);(4)R(x,δ)=Rt0​(x1​,δt0​)...⊙Rts​(xs​,δst​)...⊙R1s​(xT​,δ1s​);(5)xs​=Fts​(xt​,δts​),xt​=Rst​(xt​,δst​);(6)

其中 F t , R t F_t,R_t Ft​,Rt​ 为时间 t t t 的正向和反向转换核,变量为中间状态 $x_{t-1}&x_t $ ,噪声尺度 δ t \delta_t δt​。最常用的核是马尔可夫核,因为它保证了正向过程和反向过程的随机性和可追溯性。该表达式与归一化流的区别在于可变噪声尺度,它控制了整个过程的随机性。当噪声接近于0时,该过程将成为确定性的归一化流。

管道:表示采样数据为 x 0 ˉ \bar{x_0} x0​ˉ​,广义过程可表示为:

x 0 ˉ = [ R 1 ( x 1 , δ 1 ) . . . ⊙ R t ( x t , δ t ) . . . ⊙ R T ( x T , δ T ) ] ⊙ [ F T ( x T − 1 , δ T ) . . . ⊙ F t ( x t − 1 , δ t ) . . . ⊙ F 1 ( x 0 , δ 1 ) ] ; ( 7 ) x 0 ˉ = [ R t 0 ( x 1 , δ t 0 ) . . . ⊙ R t s ( x s , δ s t ) . . . ⊙ R 1 s ( x T , δ 1 s ) ] ⊙ [ F s 1 ( x s , δ s 1 ) . . . ⊙ F t s ( x t , δ t s ) . . . ⊙ F 0 t ( x 0 , δ 0 t ) ] ; ( 8 ) \bar{x_0}=[R_1(x_{1},\delta_1)...\odot R_t(x_{t},\delta_t)...\odot R_T(x_T,\delta_T)]\odot[F_T(x_{T-1},\delta_T)...\odot F_t(x_{t-1},\delta_t)...\odot F_1(x_0,\delta_1)];(7)\\ \bar{x_0}=[R_{t0}(x_{1},\delta_{t0})...\odot R_{ts}(x_{s},\delta_{st})...\odot R_{1s}(x_T,\delta_{1s})]\odot[F_{s1}(x_{s},\delta_{s1})...\odot F_{ts}(x_{t},\delta_{ts})...\odot F_{0t}(x_0,\delta_{0t})];(8)\\ x0​ˉ​=[R1​(x1​,δ1​)...⊙Rt​(xt​,δt​)...⊙RT​(xT​,δT​)]⊙[FT​(xT−1​,δT​)...⊙Ft​(xt−1​,δt​)...⊙F1​(x0​,δ1​)];(7)x0​ˉ​=[Rt0​(x1​,δt0​)...⊙Rts​(xs​,δst​)...⊙R1s​(xT​,δ1s​)]⊙[Fs1​(xs​,δs1​)...⊙Fts​(xt​,δts​)...⊙F0t​(x0​,δ0t​)];(8)
Discrete and continuous
当扰动核足够小时,整个离散过程将包含无穷步长。为了解决这种情况背后的机制,许多改进算法采用了从时间0开始到时间1结束的连续过程,以获得更好的性能。与离散过程相比,连续过程可以从任何时间状态提取任何信息。此外,假设扰动核的变化足够小,则连续过程具有较好的理论支持。
Training Objective

作为生成模型的一种,扩散模型遵循与变分自回归编码器和归一化流相同的训练目标,即保持初始分布 x 0 x_0 x0​ 和样本分布 x 0 ˉ \bar{x_0} x0​ˉ​ 尽可能接近。这是通过最大化对数似然来实现的:

E F ( x 0 , δ ) [ − l o g R ( X T , δ ˉ ) ] ; ( 9 ) \mathcal{E}_{F(x_0,\delta)}[-logR(X_T,\bar\delta)];(9) EF(x0​,δ)​[−logR(XT​,δˉ)];(9)

其中反向过程中的 δ ˉ \bar\delta δˉ 与正向过程中的 δ ˉ \bar\delta δˉ 不同。

Problem Formulation

Denoised Diffusion Probabilistic Model

DDPM前向过程:在统一框架的基础上,DDPM选择噪声系数 β 1 , β 2 , . . . , β T \beta_1,\beta_2,...,\beta_T β1​,β2​,...,βT​ 获取遵循特定模式的马尔可夫转换核。常见的选择有常数计划、线性计划和余弦计划。有研究表示不同的噪声调度在实验中没有明显的影响。DDPM前进步骤定义为:

F t ( x t − 1 , β t ) : = q ( x ∣ x t − 1 ) : = N ( x t , 1 − β t x t − 1 , β t I ) ; ( 10 ) F_t(x_{t-1},\beta_t):=q(x|x_{t-1}):=N(x_t,\sqrt{1-\beta_t}x_{t-1},\sqrt{\beta_t}I);(10) Ft​(xt−1​,βt​):=q(x∣xt−1​):=N(xt​,1−βt​ ​xt−1​,βt​ ​I);(10)

通过从 x 0 x_0 x0​ 到 x T x_T xT​ 的一系列扩散步骤,我们得到正向扩散过程:

F ( x 0 , β ) : = q ( x 1 : T ∣ x 0 ) : = ∏ t = 1 T q ( x t ∣ x t − 1 ) ; ( 11 ) F(x_0,\beta):=q(x_{1:T}|x_0):=\prod_{t=1}^{T}q(x_t|x_{t-1});(11) F(x0​,β):=q(x1:T​∣x0​):=t=1∏T​q(xt​∣xt−1​);(11)

DDPM反向过程:给定上述正向过程,我们定义具有可学习高斯过渡的反向过程,参数为 θ \theta θ:

R t ( x t , ∑ θ ) : = p θ ( x t − 1 ∣ x t ) ; = N ( x t − 1 ; μ θ ( x t , t ) , ∑ θ ( x t , t ) ) ; ( 12 ) R_t(x_t,\sum{\theta}):=p_{\theta}(x_{t-1}|x_t);=N(x_{t-1};\mu_{\theta}(x_t,t),\sum_\theta(x_t,t));(12) Rt​(xt​,∑θ):=pθ​(xt−1​∣xt​);=N(xt−1​;μθ​(xt​,t),θ∑​(xt​,t));(12)

通过从 x T x_T xT​ 到 x 0 x_0 x0​ 的一系列反向步骤,我们得到了从 p ( x T ) = N ( x T ; 0 , I ) p(x_T)=N(x_T;0,I) p(xT​)=N(xT​;0,I):

R ( x T , ∑ θ ) : = p θ ( x 0 : T ) : = p ( x T ) ∏ t = 1 T q ( x t − 1 ∣ x t ) ; ( 13 ) R(x_T,\sum_\theta):=p_\theta(x_{0:T}):=p(x_T)\prod_{t=1}^{T}q(x_{t-1}|x_t);(13) R(xT​,θ∑​):=pθ​(x0:T​):=p(xT​)t=1∏T​q(xt−1​∣xt​);(13)

因此,这分布 p θ ( x 0 ) = ∫ p θ ( x 0 : T ) d x 1 : T p_\theta(x_0)=\int p_\theta(x_{0:T})d{x_{1:T}} pθ​(x0​)=∫pθ​(x0:T​)dx1:T​ 应该是 x 0 ˉ \bar{x_0} x0​ˉ​ 的分布。

扩散训练目标:通过最小化负对数似然(NLL),最小化问题可表述为:

这里我们使用[Denoising diffusion probabilistic models]的符号。表示 L T L_T LT​ 为先前损失。表示重建损失 L 0 L_0 L0​ ;同时,将 L 1 : T − 1 L_{1:T-1} L1:T−1​ 表示一致损失,即前向步的后向与对应的反转步的散度之和。

Score Matching Formulation

分数匹配模型旨在通过近似数据 ∇ x l o g p ( x ) ∇_xlogp(x) ∇x​logp(x)的梯度,即分数来解决原始数据分布估计问题。分数匹配的主要方法是训练一个分数网络 x θ x_\theta xθ​ 来预测分数,分数是使用不同噪声调度的扰动数据获得的。计分匹配过程定义为:

分数扰动过程和核:扰动过程由一系列扰动步骤组成,噪声尺度增加 δ 1 , . . . , δ N \delta_1,...,\delta_N δ1​,...,δN​ 。高斯扰动核定义为 q δ ( x ˉ ∣ x ) : = N ( x ˉ ∣ x , δ 2 I ) q_\delta(\bar{x}|x):=N(\bar{x}|x,\delta^2I) qδ​(xˉ∣x):=N(xˉ∣x,δ2I) 对于每个噪声尺度 δ i \delta_i δi​,分数相当于扰动核的梯度。如果我们将这种不断增加的噪声扰动视为一个离散过程,则两个相邻状态之间的过渡核为

x i = x i − 1 + δ i 2 − δ i − 1 2 η , i = 1 , . . . , N ; ( 15 ) x_i=x_{i-1}+\sqrt{\delta_i^2-\delta_{i-1}^2}\eta,i=1,...,N;(15) xi​=xi−1​+δi2​−δi−12​ ​η,i=1,...,N;(15)

式中 N 为噪声尺度序列的长度, η \eta η 为随机噪声。

分数匹配过程:如上所述,分数匹配过程的目标是获得一个尽可能接近摄动核梯度的分数估计网络 s θ ( x , δ ) s_\theta(x,\delta) sθ​(x,δ),即

L : = 1 2 E [ ∣ ∣ s θ ( x , δ ) − ∇ l o g q ( x ) ∣ ∣ 2 ] ; ( 16 ) L:=\frac12E[||s_{\theta}(x,\delta)-∇logq(x)||^2];(16) L:=21​E[∣∣sθ​(x,δ)−∇logq(x)∣∣2];(16)

其中 θ \theta θ 为分数网络中的可学习参数。

DDPM与DSM连接:在某种程度上,分数匹配与去噪扩散是同一个过程。

(1)去噪机制:DSM和DDPM都遵循在去噪过程中获取信息,在去噪过程中重用梯度的模式。此外,DSM的噪声调度可以看作是恒定方差扩散步骤的累积。

(2)训练对象:DSM和DDPM都属于基于MLE的噪声回归问题。

(3)抽样方法:DSM和DDPM都采用了Ancestral Sampling的思想,利用梯度对样本进行重构。

去噪扩散概率模型(DDPM)的管道。从左向右的箭头表示扩散过程,相反方向的箭头表示相反的过程。彩色背景过渡项是ELBO的组成部分:蓝色部分表示解码损失 L 0 L_0 L0​,绿色部分表示正向损失 L T L_T LT​,橙色部分表示反向损失 L t L_t Lt​。不同颜色的虚线表示噪声预测模型 ϵ θ \epsilon_\theta ϵθ​的训练模式。此外,在任意步骤 1 ≤ t ≤ T 1≤t≤T 1≤t≤T 中,黄线表示Ancestral Sampling过程。 去噪分数匹配(DSM)管道。顶部不同时间状态下的 δ i \delta_i δi​ 代表不同的噪声尺度。过渡态 p δ t ( x t ˉ ∣ x t ) p_{\delta_t}(\bar{x_t}|x_t) pδt​​(xt​ˉ​∣xt​) 是微扰的输出梯度。不同颜色的虚线表示评分网络 s θ s_\theta sθ​ 是通过最小化输出梯度与每个噪声尺度评分之间的L2-loss之和来训练的。在任意噪声状态1≤t≤T下,红线表示Langevin Dynamics sampling过程。
Score SDE Formulation

Score SDE提出了一个基于随机微分方程的统一连续框架来描述扩散和去噪分数匹配模型。提出了基于分数SDE的DSM的DDPM的相应连续设置,并提出了一种密度估计ODE框架——概率流ODE。

正向分数SDE过程:在[Score-based generative modeling through stochastic differential equations]中,扩散过程可以看作是用随机微分方程描述的连续情况。它等于 I t o ^ It\hat{o} Ito^ SDE的解,它由用于均值变换的漂移部分和用于噪声描述的扩散系数组成:

d x = f ( x , t ) d t + g ( t ) d w , t ∈ [ 0 , T ] , ( 17 ) d_x=f(x,t)d_t+g(t)d_w,t\in[0,T],(17) dx​=f(x,t)dt​+g(t)dw​,t∈[0,T],(17)

其中 w w w 标准维纳过程/布朗运动, f ( ⋅ , t ) f(·,t) f(⋅,t) 漂移系数 x ( t ) x(t) x(t) 和 g ( ⋅ ) g(·) g(⋅) 扩散系数的简化版本 x t x_t xt​ ,假定不依赖 x x x 。其中 p 0 , p t ( x ) p_0,p_t(x) p0​,pt​(x) 表示 x ( t ) ⋅ p T x(t)·p_T x(t)⋅pT​ 的数据分布和概率密度。푝푇表示原始先验分布,没有从 p 0 p_0 p0​ 获得任何信息。当系数分段连续时,前向SDE方程有唯一解。与离散情况类似,SDE框架下的前向转换推导为:

反向分数SDE过程:与正向SDE过程相反,反向SDE过程是通过逆时间随机微分方程在时间上反向运行来定义的:

d x = [ f ( x , t ) − g ( t ) 2 ∇ x l o g p t ( x ) ] d t + g ( t ) d w ˉ , t ∈ [ 0 , T ] ; ( 19 ) dx=[f(x,t)-g(t)^2∇_xlogp_t(x)]dt+g(t)d\bar{w},t\in[0,T];(19) dx=[f(x,t)−g(t)2∇x​logpt​(x)]dt+g(t)dwˉ,t∈[0,T];(19)

因此, ∇ x l o g p t ( x ) ∇_xlogp_t(x) ∇x​logpt​(x)是要匹配的分数。分数SDET训练目标:分数SDE的训练目标与去噪分数匹配相比,在分数损失上采用加权方案,即

其中 x ( t ) , x ( 0 ) x(t),x(0) x(t),x(0) 对应的连续时间变量是 x t , x 0 x_t,x_0 xt​,x0​。

基于SDE的DDPM和DSM:基于SDE框架,DDPM和DSM的转换内核可以表示为:

d x = − 1 2 β ( t ) x d t + β ( t ) d w , ( 21 ) d x = d [ θ 2 ( t ) ] d t d w , ( 22 ) dx=-\frac12\beta(t)xdt+\sqrt{\beta(t)}dw,(21)\\ dx=\sqrt{\frac{d[\theta^2(t)]}{dt}}dw,(22) dx=−21​β(t)xdt+β(t) ​dw,(21)dx=dtd[θ2(t)]​ ​dw,(22)

其中 β ( t ) \beta(t) β(t) 和 θ ( t ) \theta(t) θ(t) 为离散噪声尺度的连续时间变量 β t \beta_t βt​ 和 θ i \theta_i θi​。这两种SDE分别被称为变异保持(VP)和变异爆炸(VE) SDE。

概率流ODE:概率流ODE (Diffusion ODE)是支持确定性过程的连续时间ODE,与SDE具有相同的边际概率密度。受Maoutsa等和Chen等的启发,任何类型的扩散过程都可以导出为ODE的特殊形式。在函数퐺独立于 x 的情况下,概率流ODE为

与SDE相比,概率流ODE由于没有随机性,可以用更大的步长求解。由于ODE的优势,PNDMs和DPM-Solver等作品通过将扩散问题建模为ODE,获得了惊人的结果。

Training Strategy

Denoising Diffusion Training Strategy

为了最小化负对数似然,我们可以用来训练的唯一项是 L 1 : T − 1 L_{1:T-1} L1:T−1​ 。通过使用贝叶斯规则参数化后验 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t,x_0) q(xt−1​∣xt​,x0​),我们得到:

其中: α t \alpha_t αt​ 定义为 1 − β t 1-\beta_t 1−βt​, α t ˉ \bar{\alpha_t} αt​ˉ​ 定义为: ∏ k = 1 t α k \prod_{k=1}^{t}\alpha_k ∏k=1t​αk​。均值和方差表可表示为:

保持上述参数化并将 x t x_t xt​ 重新参数化为 x t ( x 0 , θ ) x_t(x_0,\theta) xt​(x0​,θ), L t − 1 L_{t-1} Lt−1​ 可视为两个平均系数之间L2损失的期望:

通过重新参数化 μ θ \mu_\theta μθ​ W.R.T η θ \eta_\theta ηθ​来简化 L t − 1 L_{t-1} Lt−1​ ,我们得到简化的训练目标 L s i m p l e L_{simple} Lsimple​:

到目前为止,大多数扩散模型都使用ddpm的训练策略。但也有一些例外。DDIM的训练目标虽然与马尔可夫步长假设无关,但可以通过在DDPM的训练目标上加入一个常数来进行变换;改进型DDPM的训练模式 L h y b r i d L_{hybrid} Lhybrid​ 是将DDPM的训练对象 L s i m p l e L_{simple} Lsimple​ 与一个具有变分下界的项 L v l b L_{vlb} Lvlb​ 结合起来。然而, L s i m p l e L_{simple} Lsimple​ 仍然发挥了这些训练方法的主要作用。

Score Matching Training Strategy

传统的分数匹配技术需要大量的对数密度函数的Hessian计算量。为了解决这个问题,先进的方法找到了避免Hessian计算的方法。隐式分数匹配(ISM)将真实分数密度作为非归一化密度函数,可以通过神经网络进行优化。切片分数匹配(SSM)通过将分数投影到随机向量上的反向模式自分化提供了一种无扰动的分数估计方法。

然而,由于实际数据的低流形问题以及低密度区域的采样问题,去噪的分数匹配可能是改进分数匹配的较好的解决方案。去噪分数匹配(DSM)通过扰动一个不断增加的噪声序列,将原始分数匹配转化为扰动核学习。

Song等人将噪声分布定义为 q θ ( x ˉ ∣ x ) = N ( x ˉ ∣ x , δ 2 I ) q_\theta(\bar{x}|x)=N(\bar{x}|x,\delta^2I) qθ​(xˉ∣x)=N(xˉ∣x,δ2I) 。因此,对于每个给定 δ \delta δ ,具体表达式去噪分数匹配目标为

Sampling Algorithm

在逆向过程中,通过提取每个时间步长的梯度,从随机噪声中重建样本,称为无条件采样。此外,还有一类利用特定条件的抽样。我们称之为条件抽样。我们给出了三个标志性作品的基本无条件采样算法和附录中有效的条件采样算法。
Unconditional Sampling

Ancestral Sampling的初始思想是用逆马尔可夫梯度逐级重构的。

Langevin动态采样在固定步长 η \eta η> 0的情况下,Langevin动态可以仅通过分数函数 ∇ x l o g p ( x ) ∇_xlogp(x) ∇x​logp(x) 从概率密度 p ( x ) p(x) p(x) 产生样本。

Predictor-corrector (PC) Sampling,PC抽样的灵感来自于一种ODE黑箱ODE求解器,目的是为所有反向SDE生成高质量的样本,并在准确度和效率之间进行权衡。采样程序包括预测采样器和校正采样器。

Conditional Sampling

带标记条件的采样在每个采样步骤中提供梯度指导。通常,需要一个具有UNet Encoder架构的附加分类器来生成特定标签的条件梯度。标签可以是文本和分类标签,二元标签,或提取特征。它首先由[Diffusion models beat gans on image synthesis]提出,目前的条件采样方法在理论上是相似的。

与标签引导抽样不同,无标签条件抽样只以自身信息为指导。它以自我监督的方式进行,通常用于去噪,分辨率和inpainting任务。

ALGORITHM IMPROVEMENT

目前,扩散模型的主要制约因素是速度慢、计算量大。虽然有强引导的条件扩散可以在10步内获得高保真样本,但无条件采样速度仍然是GAN和VAE无法比拟的。此外,处理不同的数据分布、优化对数似然和降维技术仍然很重要。在本节中,我们对改进的算法w.r.t进行分类。主流问题。对于每个问题,我们提出了改进技术的意义和详细分类。

Speed-up Improvement

虽然扩散模型具有高保真度,但低采样速度限制了模型的实用性。为了改善这种情况,先进的技术可以分为四类,包括训练方案增强、无训练加速采样、混合建模设计和分数-扩散统一设计。
Training Schedule
改进训练计划意味着修改传统的训练设置,如与采样无关的扩散方案和噪声方案。最近的研究表明,训练方案中的关键因素影响学习模式和模型的性能。在本节中,我们将训练增强分为三类:知识蒸馏、扩散方案学习和噪声尺度设计。
Knowledge Distillation

知识蒸馏是一种新兴的方法,通过将“知识”从具有高学习能力的复杂教师模型转移到简单的学生模型来获得高效的小规模网络。因此,学生模型在模型压缩和模型加速方面具有优势。

Salimans等人首先将核心思想应用到扩散模型改进中,将知识从一个采样模型逐步提取到另一个采样模型。在每个蒸馏阶段,学生模型学习以一步的方式从教师模型进行两步更新,以使其采样步骤减半。与渐进式蒸馏不同,降噪学生通过最小化两个分类分布之间的KL散度,从零开始提取知识。

Diffusion Scheme Learning

与VAE类似,前向扩散过程可以看作是将数据投射到许多潜在空间的编码器。因此,有效的反向解码需要有效且具有表现力的扩散模式。与VAE相比,扩散模型将数据编码到具有相同维数的潜在空间中,以更复杂的方式实现高表达性。因此,我们将当前的方法分为投影方法探索和编码度优化。

对于编码度优化方法,CCDF和Franzese等从理论角度建立了将数扩散步长作为最小化ELBO的变量的优化问题。另一种方法是基于截断,它在生成速度和样本保真度之间进行权衡。从GAN和VAE生成的较少扩散的数据中截断模式样本。TDPM通过从GAN和条件传输(CT)学习的隐式生成分布中采样来截断扩散和采样过程。类似地,早期停止(ES) DDPM从潜在空间学习生成隐式分布。

对于投影方法的探索,一些工作侧重于扩散核的多样性。软扩散和模糊扩散模型成功地证明了线性腐蚀,包括模糊和掩模,也可以作为过渡核。

Noise Scale Designing

在传统的扩散过程中,每个过渡步骤都是由注入的噪声决定的,它等价于正向和反向轨迹上的随机游走。因此,噪声尺度设计具有合理生成和快速收敛的潜力。与传统的DDPM不同,现有方法将噪声尺度作为一个可学习的参数贯穿于整个过程。

前向噪声设计方法中,VDM将噪声标量参数化为信噪比,将噪声尺度与训练损失和模型类型联系起来。FastDPM从离散时间变量或方差标量中获得前向噪声,将噪声设计与ELBO优化联系起来。在反向噪声设计方法中,改进的DDPM通过训练包含 L s i m p l e L_{simple} Lsimple​ 和 L v l b L_{vlb} Lvlb​ 的混合损失来隐式学习反向噪声尺度。此外,San Roman等人在每一步进行Ancestral Sampling之前,采用噪声预测网络直接更新反向噪声尺度。

Training-Free Sampling
训练增强方法主要是通过改变训练模式和噪声方案来加快采样速度,也可以通过设计先进的采样算法来实现。基于数据的梯度存储在预训练的扩散模型中,无训练方法将预训练的信息直接应用于步数更少、保真度更高的高级采样算法中,从而避免了模型的再训练。在本节中,我们将它们分为四类:解析法、隐式采样法、微分方程求解采样法和动态规划调整法。
Analytical Method
现有的无训练采样方法将反向协方差尺度作为手工制作的噪声序列,而没有对其进行动态考虑。解析方法从kl -散度优化出发,将逆均值和协方差作为最优解。解析- dpm和扩展的解析- dpm共同提出了各状态修正下的最优逆解。解析方法对近似误差有理论上的保证,但由于预先假设的限制,在特定的分布中有一定的局限性。
Implicit Sampler

隐式采样器利用预训练扩散模型的知识,采用跳步模式,而不是逐级提取噪声信息。它遵循的假设是,从多步区间的信息可以沿着一个决定性的轨迹反转,在采样过程中没有随机性。FastDPM通过重新设计反向噪声调度来离散加速采样。Song等提出了DDIM,它遵循概率流ODE的离散模式,采用Neural ODE公式:

d x ˉ ( t ) = η θ ( t ) ( x ˉ ( t ) δ 2 + 1 ) d δ ( t ) d\bar{x}(t)=\eta_{\theta}^{(t)}(\frac{\bar x(t)}{\sqrt{\delta^2+1}})d\delta(t) dxˉ(t)=ηθ(t)​(δ2+1 ​xˉ(t)​)dδ(t)

其中 δ t \delta_t δt​ 参数为 1 − α / α \sqrt{1-\alpha}/\sqrt{\alpha} 1−α ​/α ​ , x ˉ \bar x xˉ 的参数是 x / α x/\sqrt{\alpha} x/α ​。另外,概率可以看作是Score SDE的一种,它由离散式推导而来:

此外,隐式采样器实际上是一种神经ODE求解器。一方面,部分方法采用了先进的ODE求解器,如PNDM、edm、DEIS、gDDIM和DPM-Solver。另一方面,Watson等人提出了基于动态规划的跳步法,沿逆向轨迹对最优隐式路径进行采样。期望进一步完善具有较强理论支持的工作,如流形假设和稀疏性。

Differential Equation Solver Sampler

微分方程(DE)求解器采样器在使用基于ODE/ sde的数值求解器进行反向采样时,将近似误差最小化。微分方程解具有对无穷时间连续过程的强假设,具有领先的性能。通常有两种基本DE公式:SDE公式在联合分布场行走时具有随机性,确定性映射的ODE公式速度更快。对于DE求解器而言,高阶DE求解器具有较小的近似误差和较高的收敛阶,需要更多的评估,并且存在不稳定性问题。在本小节中,我们将介绍基于不同框架和DE求解器的权衡的当前算法。我们把它们分为速度优先和准确性优先。

对于精度先验方法,使用高阶SDE求解器提出了It - o-Taylor采样方案。此外,采用理想导数替换对分数函数进行参数化,避免了高阶导数计算。对于结合线性求解器和高阶求解器的速度先验方法,Gotta Go Fast实现了一种基于方向引导的步长调整算法。edm在确定性扩散ODE上采用二阶Heun求解器和调整时间步长。PNDM探索了不同的数值求解器可以共享相同的梯度,从而在扩散ODE中使用高阶求解器(龙格-库塔法)的三步后探索了线性多步方法。此外,DPM-solver证明了跨可选顺序的统一求解器可能具有更好的性能。

此外,从微分方程的表述角度来看,DPM-solver和DEIS开创了SDE和Diffusion ODE之外的新视角。权衡挤压ODE可以看作是一种半线性形式,通过它可以减少离散化误差。DEIS用指数积分器改进了数值DDIM的多步pc采样方法。dpm求解器为逼近误差提供了理论保证。目前,基于半线性的ODE性能最好,但仍需要其他技术,如阈值限制和解析形式。

此外,去噪MCMC将截断思想应用于微分方程采样。为了加速反向采样,它对MCMC产生的数据和方差进行差分采样,速度更快。

Dynamic Programming Adjustment
动态规划(DP)通过记忆技术实现对所有选择的遍历,在最短的时间内找到最优解。假设从一种状态到另一种状态的每条路径都具有相同的KL散度,动态规划算法探索沿轨迹的最优遍历。目前基于dp的方法取 O ( T 2 ) O(T^2) O(T2) 的计算成本,通过优化ELBO损失的总和。
Mixed-Modeling
混合建模在扩散管道中应用了快速采样、高表现力的生成模型。对于扩散混合建模,扩散模型具有高速采样(如对抗训练网络和自回归编码器)和高表达性(如归一化流)的优点。因此,设计混合模型不仅可以实现有希望的增强,还可以帮助感知扩散模型和其他模型之间的联系。从混合目的的角度来看,混合建模改进可以分为两类:加速混合和表达混合。
Acceleration Mixture

加速混合旨在应用高速生成的VAE和gan,以节省从随机噪声中采样扰动较小的数据的大量步骤。一种模型使用VAE和GAN生成预测的 x 0 ′ x'_0 x0′​ 。另一种类型的模型,如ES-DDPM,将中间样本重建为去噪过程的起点,这可以看作是早期停止技术。

加速混合建模管道。蓝线表示TDPM的流水线。部分摄动数据 x t x_t xt​ 作为GAN发生器的基真条件,在与 x t ′ x'_t xt′​ 进行比较之前,先从潜伏中生成具有相同摄动水平的条件样本 x t x_t xt​。成功的样品被应用作为反向过程的开始。ES-DDPM不使用GAN作为高速发电机,而是遵循TDPM与VAE的模式,用绿线表示。此外,DiffuseVAE在每个采样步骤中使用VAE生成条件- x 0 ^ \hat{x_0} x0​^​。

Expressiveness Mixture

表达性混合支持以不同模式表达数据或噪声的扩散模型。高表达性数据与快速采样生成模型相结合,通过更准确地获取均值和方差来实现加速。高表达性方法可分为噪声调制、空间投影和核表达。对于噪声调制,DiffFlow在每个基于sde的扩散步骤中使用一个流函数,通过最小化过程w.r.t KL-Divergence来调制噪声。得益于特定空间的属性,空间投影方法利用NFs进行数据转换。LSGM和PDM分别使用VAE和flow函数获得潜在变量,以利用快速计算的优势。Score-Flow利用NFs对去量化场进行扩散过程,解决连续密度与离散数据的不匹配问题。核表达方法通过将能量函数作为逆向过程中的过渡核,弥补了非归一化概率密度数据与扩散采样之间的差距。

表达性混合建模管道。表达性增强模型在训练、扩散和采样过程中与DDPM保持相同的过程,用黑线表示。此外,其他颜色突出显示了其他改进。红线显示了DiffFlow的管道,它在每一步添加了一个流函数和相关的逆函数。蓝线和绿线的作品代表了联合训练混合模型的潜在空间扩散思想。在LSGM和PDM中使用了不同的支持生成模型。此外,Score-Flow利用流函数作为从离散空间到去量化空间的投影器。然后用传统的扩散方法生成去量化的样本。
Score & Diffusion Unification

ScoreSDE首先促成了分数与扩散的统一。它建立了一个统一的连续框架,连接扩散和扰动过程,为生成任务提供通用工具。分数-扩散统一模型之所以有效,是因为里程碑统一的洞察力有助于探索有效的抽样机制。此外,推广工作为有益的扩散模型提供了多视角。有两类作品:扩散重塑作品和扩散与评分连接作品。

重构问题基于一个或两个变量(如时间 t 和信噪比)统一扩散管道。FastDPM、VDM和f-DM通过噪声-时间双目标映射、信噪比和信号变换统一了DDPM w.r.t.噪声表。广义DDIM (gDDIM)根据每一步的过渡核将DDIM族统一起来,受益于底层的隐式加速。由于重参数化程度较轻,该方法通常具有简化训练和通过偏见优化实现可控采样的优点。此外,广义框架支持探索新的扩散模式。

连接问题将分数和扩散框架连接起来,将它们扩展到更高的视图。Gong等揭示了分数匹配与归一化流程之间的隐藏联系,通过流ode来表达分数匹配。Bortoli等人提出了一种使用Doob-h变换模拟扩散桥的变分评分匹配方法。GGDM和DMM推广了具有非马尔可夫样本和大范围边际方差的扩散模型,以探索更广泛扩散族的公式。Cold Diffusion提出了一个统一的训练和推理框架,可用于任何转移核和数据分布。Huang等提出了一种变分形式的似然估计,增强了变分间隙最小化的理论支持。通过对扩散模型较少的预设,可以求解和解释更基本的设定

Data Structure Diversification

扩散方法主要用于图像生成任务,这限制了高保真生成在其他领域的应用潜力。到目前为止,扩散机制被证明在不同数据类型的跨学科任务中起作用。更重要的是,传统的基于高斯扰动核和高斯噪声先验的扩散模式有望被扩展到普遍的实践中。为了提高扩散模型的泛化能力,我们将分布多样化分为三个方面:离散空间、连续空间和具有结构约束的约束空间。
Continuous Space
Non-linear Space
现有的去噪和超分辨率方法处理的是线性扰动,而非线性空间对相位恢复和非均匀去模糊等低级视觉任务影响很大。Kawar等人和DPS将伪逆算子和后验抽样近似应用于非线性噪声预测,以解决JPEG伪影校正、图像去模糊和相位恢复问题。
Image & Point Cloud
点云生成最早由Luo等人提出,对点云数据生成潜在样本,并进行变换得到高质量的三维形状。其他技术如完成形状生成和完成任务类似。在潜在空间变换中使用了一些细微的改进,如规范化映射、条件特征提取子网和点体素表示。
Latent Space
与表达性混合建模类似,潜在空间数据分布通常用于扩散应用,因为不同类型的复杂数据结构需要统一的方法来概括和分析。目前大多数方法将数据投射到连续空间中,借助EDM和抗原扩散等扩散模型的高质量生成能力,获得了很好的性能。因此,潜在空间处理应是一种有益的模式,可用于新的应用领域。
Function
传统的高斯分布扩散过程在实际任务中存在局限性,导致了连续函数概率建模。Dutordoir等提出了在函数空间上的第一次扩散模型采样。它通过对关节后验进行采样来捕获多维分布。
Others
Score-flow采用流函数将RGBimage投影到去量化空间,实现了生成准确样本的扩散技术。冷扩散提出了在重构校正的支持下将数据投影到随机分布中的算法。
Discrete Space
深度生成模型在自然语言处理、多模态学习和科学人工智能等领域取得了许多重大成就,具有相关的体系结构和先进的技术。在这些成功中,处理离散数据(如句子、残基、原子和矢量量化数据)对于消除归纳偏差是必要的。因此,从之前的运气来看,用扩散模型进行相关任务似乎是有前景的。我们将主要问题分为文本和分类数据的处理和矢量量化数据的处理。
Text & Categorical

为了处理分类特征,D3PM首先将扩散算法推广到离散空间,通过定义w.r.t来处理句子和图像等离散数据。分类分布Cat():

与D3PM类似,多项扩散和ARDM将分类扩散扩展到多项数据中,用于生成语言文本和分割图以及无损压缩。

Vector-Quantized

为了解决文本到图像生成、文本到3d生成、文本到图像编辑等多模型问题,提出了矢量量化(vector-quantized, VQ)数据,将不同领域的数据组合到码本中。VQ数据处理在自回归编码器中取得了很好的性能。Gu等首次将扩散技术应用到VQ数据中,解决了VQ- vae存在的单向偏差和累积预测误差问题。进一步的文本到图像的工作,如Cohen等人和Improved VQDiffusion,文本到姿态的工作,如Xie等人和Guo等人,文本到多模态的工作,如Weinbach等人和Xu等人都是基于这一核心思想。由概率转移矩阵 Q Q Q 和分类表示向量 v v v 驱动的转移过程定义为:

Constrained Space
基于图的神经网络超越了传统的数据约束,重新表达了现有数据之间的潜在联系,如社交网络、分子和天气条件。此外,多种学习方法具有非冗余表达和全面描述的优点,如蛋白质和RNA。因此,约束空间扩展方法是基于黎曼流形和图的。
Manifold Space

大多数当前的数据结构,如图像和视频,都是在平面几何流形(欧几里德空间)中定义的。然而,在机器人、地球科学和蛋白质建模等领域中存在一系列以黎曼流形定义的数据,而目前欧几里德空间的方法无法捕捉高维黎曼特征。因此,最近的方法RDM、RGSM和Boomerang基于分数SDE框架将扩散采样应用到黎曼流形中。此外,相关的理论著作[Pseudo numerical methods for diffusion models on manifolds][Theory and algorithms for diffusion processes on riemannian manifolds]为流形采样提供了全面的支持。

在获取全局的几何特征时,传统的数据分析一般会导致失败。其原因在于空间本质上是全局线性的,而数据本身往往呈现出强非线性特征。这时可以借助流形,在欧氏空间中嵌入非欧式低维流形。从几何的角度来看,流形本质上反映了全局与局部属性的区别和联系。

定义一个空间以及在该空间中的度量,使得在无穷小的范围内与欧式空间相同,即在每一个无限小的区域内,欧式空间的几何关系成立。这个空间就可以被看作黎曼空间,空间中的几何叫做黎曼几何。因此,可以说黎曼空间是在无限小范围内的欧式空间。

微分几何中,黎曼几何研究具有[黎曼度量]的光滑[流形],即流形切空间上二次形式的选择。它特别关注于角度、弧线长度及体积。把每个微小部分加起来而得出整体的数量。

黎曼流形是一个微分流形,其中每点p的切空间都定义了点积,而且其数值随p平滑地改变。它容许我们定义弧线长度、角度、面积、体积、曲率、函数梯度及向量域的散度。

流形学习的优点是在认知、机器学习方面都有很好的可解释性,但是摩尔定律和深度学习的出现对很多领域的方法的冲击是颠覆性的,以至于大家在构建模型时,更多的是关心性能与表现。所以,无论是学术界还是产业界都把精力放到如何优化深度学习模型的结构和参数优化方面,而端到端的建模方式也使我们不再聚焦特征空间内部究竟发生了什么。但是流形学习与深度学习、机器学习的结合,依然是个研究热点。

Graph
根据[Self-supervised on graphs: Contrastive, generative, or predictive],基于图的神经网络由于在人体姿势、分子和蛋白质中的高表达性,正成为一种日益流行的趋势。目前许多方法都是将扩散理论应用于图空间。在EDP-GNN、Pan等和GraphGDP中,通过邻接矩阵处理图数据,以捕获图的排列不变性。NVDiff通过反向SDE重建节点位置。

Likelihood Optimization

由于对数似然不可处理,大多数变分方法和扩散方法通过变分证据下限(ELBO)原理训练模型。然而,有时对数似然仍然需要竞争,因为ELBO和对数似然之间的变分差距不能同时最小化。因此,有几种方法直接关注似然优化问题来解决这一问题。求解方法可分为改进ELBO和变分间隙优化两类。

ELBO,全称为 Evidence Lower Bound,即证据下界。这里的证据指数据或可观测变量的概率密度。
Improved ELBO
Score Connection

受[Solving schrödinger bridges via maximum likelihood]、[Diffusion schrödinger bridge with applications to score-based generative modeling]的启发,分数连接方法在ELBO优化和分数匹配之间建立了新的联系,通过改进分数训练来解决似然优化问题。Score-flow将ELBO中的前向KL散度视为用加权方案优化分数匹配损失。Huang等将布朗运动作为潜变量来显式跟踪对数似然估计,在变分框架中架起了估计与加权分数匹配之间的桥梁。分析- dpm通过分析KL散度和逆协方差和均值来增强ELBO。同样,ncs++通过向ELBO引入截断因子弥补了理论上的差距。

Re-Design

与损失变换技术相比,重新设计方法通过重新设计噪声尺度和训练目标,直接收紧ELBO。VDM和DDPM++分别连接了关于信噪比和截断因子的高级训练目标,通过寻找最优因子来优化ELBO。改进的DDPM和D3PM提出了基于ELBO的混合损失函数,并采用加权方案改进了ELBO。

L h y b r i d = L s i m p l e + λ L v l b L_{hybrid}=L_{simple}+\lambda{L_{vlb}} Lhybrid​=Lsimple​+λLvlb​

Variational Gap Optimization

除了设计先进的ELBO之外,最小化变分间隙仍然是实现对数似然最大化的一种方法。基于变分间隙优化在声发射领域的成功,INDM采用流动模型来表达变分间隙,通过在潜在空间上联合训练双向流动模型和线性扩散模型来最小化变分间隙。此外,PDM通过引入VAE的编码器损耗来实现变分间隙表达式。通过集体训练,存在一个唯一的最优解来消除差距。

Dimension Reduction

与变分自编码器将数据投影到潜在的较低维度不同,在高维数据集上进行推理非常耗时。然而,考虑到降维可能导致信息丢失,扩散模型在等维转换中具有很高的表达性。实际上,低维流形上的扩散在基于图的表示中有着广泛的应用。值得庆幸的是,通过潜在投影和维数投影技术可以实现降维扩散。
Latent Projection

几种混合建模方法通过流函数和ae编码器将训练数据投影到较低维的潜在空间上,进行扩散和去噪处理。LSGM、INDM和PDM遵循这种模式,在更小的空间内学习更平滑的模型,触发更少的网络评估和更快的采样。此外,采用基于ELBO最大化和对数似然最大化的扩散模型和投影模型联合训练的加权训练技术。

Dimension Projection
维数投影的目的是将图像流形上的可逆信号分解成多个正交信号,从而消除图像流形上的空间冗余。DVDP在扰动和重建过程中进行子空间推理,可以看作是DDPM和VAE的混合。此外,降维尺度和上降采样步骤背后的理论分析也值得探讨。
Classification of Improved Diffusion Techniques

APPLICATION

扩散模型由于具有生成逼真样本的强大能力,被广泛应用于计算机视觉、自然语言处理和生物信息学等各个领域。

Computer vision

Low-level vision

CMDE对基于分数的扩散方法在视觉图像数据条件分布建模方面进行了实证比较,并引入了多速度扩散框架。通过利用条件的可控扩散速度,CMDE在绘画和超分辨率任务中的FID分数方面优于普通条件去噪估计器。

DDRM提出了一种用于图像恢复的高效、无监督后验采样方法。在变分推理的推动下,DDRM成功地应用于超分辨率、去模糊、涂漆和扩散模型的着色。

Palette进一步开发了一个统一的基于扩散的框架,用于低级视觉任务,如着色、上漆、裁剪和恢复。由于其简单和一般的思想,这项工作证明了扩散模型与GAN模型相比具有优越的性能。

DiffC提出了一种无条件生成方法,使用单一扩散模型对损坏的像素进行编码和去噪,这显示了扩散模型在有损图像压缩中的潜力。

SRDiff利用了基于扩散的单图像超分辨率模型,并显示出有竞争力的结果。

RePaint是一种自由形式的绘制方法,它直接使用预训练的扩散模型作为生成先验,仅通过使用给定的图像信息对未遮挡区域进行采样来替换反向扩散。虽然没有对vanilla预训练扩散模型进行修改,但该方法能够在极端任务下优于自回归和GAN方法。

High-level vision

FSDM是一种基于条件扩散模型的少弹生成框架。利用视觉变换和扩散模型的进步,FSDM可以在测试时快速适应各种生成过程,并且在少样本生成下表现良好,具有很强的传递能力。

CARD提出了分类和回归扩散模型,结合基于去噪扩散的条件生成模型和预训练的条件均值估计器来预测给定条件下的数据分布。通过从条件生成的角度和目标与评价指标间接相关的训练来接近监督学习,CARD在扩散模型的帮助下表现出较强的不确定性估计能力。

在CLIP的推动下,GLIDE探索了以文本为条件的逼真图像合成,并发现无分类器引导的扩散模型产生了包含广泛所学知识的高质量图像。

DreamFusion将GLIDE的成就扩展到了3D空间。

为了在光滑和有限的空间内获得富有表现力的生成模型,LSGM借助变分自编码器框架建立了在潜在空间中训练的扩散模型。

SegDiff扩展了扩散模型,通过汇总来自基于扩散的概率编码器和图像特征编码器的特征映射来执行图像级分割。另一方面,视频扩散在时间轴上扩展扩散模型,并利用典型设计的重建引导条件采样方法进行视频级生成。

VQ-Diffusion通过探索离散扩散模型的无分类器引导采样并提出高质量的推理策略,改进了vanilla矢量量化扩散。该方法在ImageNet和MSCOCO等大型数据集上表现出优异的性能。

Diff-SCM基于生成扩散模型构建了深层结构模型。该方法通过对具有确定性正向扩散的潜变量进行推断,并对后向过程进行干预,实现了反事实估计。

3D vision

[Diffusion probabilistic models for 3d point cloud generation]是关于基于扩散的3D视觉任务的早期工作。基于非平衡热力学原理,本文将点云中的点类比为热力学系统中的粒子,采用扩散过程生成点云,取得了较好的性能。

PVD是基于扩散的点云生成的并行工作,但在没有额外形状编码器的情况下进行无条件生成,而使用混合和点体素表示来处理形状。

PDR提出了一种基于扩散的点云补全范式,利用扩散模型生成基于局部观测的粗补全,并对另一个网络生成的输出进行细化。

为了处理点云去噪,[Score-based point cloud denoising]引入了一种神经网络来估计分布的分数,并通过梯度上升对点云进行去噪。

Video modeling

视频扩散将基于扩散的生成模型的进展引入视频领域。

RVD使用扩散模型生成基于上下文向量的确定性下一帧预测的残差。

FDM应用扩散模型来辅助长视频预测,并制作逼真的视频。

MCVD提出了一种基于分组掩模帧的视频预测和插值条件视频扩散框架。

RaMViD利用三维卷积神经网络将图像扩散模型扩展到视频中,并设计了一种用于视频预测、填充和上采样的调节技术。

Medical application

将扩散模型应用于医学图像是一种自然的选择。Score-MRI提出了一种基于弥散的框架来解决磁共振成像(MRI)重建问题。[Solving inverse problems in medical imaging with score-based generative models]是一个并行工作,但提供了一个更灵活的框架,不需要配对数据集进行训练。通过在医学图像上训练的扩散模型,这项工作利用了物理测量过程,并专注于采样算法,以创建与观察到的测量结果和先验估计数据一致的图像样本。

R2D2+[Mr image denoising and superresolution using regularized reverse diffusion]将基于弥散的MRI重建和超分辨率结合到同一个网络中,实现端到端的高质量医学图像生成。

[What is healthy? generative counterfactual diffusion for lesion localization]探索了生成扩散模型在医学图像分割中的应用,并进行了反事实扩散。

Sequential modeling

Natural language processing
得益于扩散模型的非自回归机制,diffusion - lm利用连续扩散迭代地将噪声向量降噪为词向量,并执行可控的文本生成任务。Bit Diffusion提出了一种用于生成离散数据的扩散模型,并应用于图像标题任务。
Time series

为了处理时间序列imputation, CSDI使用了以观测数据为条件的基于分数的扩散模型。受掩模语言模型的启发,开发了一种自监督训练程序,将观测值分离为条件信息和归算目标。

SSSD进一步引入了结构化状态空间模型来捕获时间序列数据中的长期依赖关系。

CSDE提出了一个概率框架来建模随机动力学,并引入了马尔可夫动态规划和多条件正向向后损失来生成复杂时间序列。

Audio

WaveGrad和DiffWave是开创性的作品,将扩散模型应用于原始波形生成,并获得了卓越的性能。GradTTS和DiffTTS也实现了扩散模型,但生成的是mel特征而不是原始波。

DiffVC进一步挑战了一次多对多语音转换问题,并开发了随机微分方程求解器。

DiffSinger将普通的声音生成扩展到基于浅扩散机制的歌唱声音合成。

Diffsound提出了一种以文本为条件的声音生成框架,该框架采用离散扩散模型代替自回归解码器,以克服单向偏置和累积误差。

EdiTTS也是一个用于文本到语音任务的基于扩散的音频模型。通过对先验空间的粗扰动,在去噪反转过程中诱导所需的编辑。

Guided-TTS和Guided-TTS2也是早期的一系列文本到语音模型,它们成功地将扩散模型应用于声音生成。

[Zero-shot voice conditioning for denoising diffusion tts models]将语音扩散模型与谱域调节方法相结合,在训练过程中对未见的声音进行文本到语音的转换。

InferGrad考虑了训练中的推理过程,在推理步数较少的情况下,改进了基于扩散的文本到语音模型,实现了快速、高质量的采样。

SpecGrad引入了信号处理的思想,并基于条件对数谱图调整了扩散噪声的时变谱包络。它将文本到语音和声码器统一到一个基于线性SDE的框架中。

ProDiff提出了一种高质量文本到语音的渐进快速扩散模型。ProDiff不需要数百次迭代,而是通过预测干净的数据来参数化模型,并使用教师合成的mel-谱图作为目标,以减少数据差异并做出清晰的预测。

BinauralGrad是一个基于两阶段扩散的框架,探索了扩散模型在给定单声道音频的双耳音频合成中的应用。

AI for science

Molecular conformation generation

ConfGF是基于扩散的分子构象生成模型的早期工作。在保持旋转和平移等方差的同时,ConfGF通过Langevin动力学生成具有物理启发梯度场的样本。然而,ConfGF只模拟了一阶、二阶和三阶邻居之间的局部距离,因此无法捕获无界原子之间的远程相互作用。为了解决这一挑战,DGSM提出基于原子之间的空间接近度动态构建分子图结构。

GeoDiff发现模型在扩散学习过程中被扰动的距离矩阵所填充,这可能违反数学约束。因此,GeoDiff引入了一个旋转平移不变马尔可夫过程来对密度施加约束。

EDM通过纳入离散原子特征并推导对数似然计算所需的方程,进一步扩展了上述方法。扭转扩散作用于扭转角的空间,并根据限于最灵活自由度的扩散过程产生分子构象。

DiffDock基于先前的几何深度学习方法,对过渡、旋转和扭转角进行去噪得分匹配,生成蛋白质-配体复合物中的药物构象。

Material design

CDVAE探索了稳定物质生成的周期结构。为了解决稳定材料仅存在于具有所有可能的原子周期性排列的低维子空间中的挑战,CDVAE设计了一个基于扩散的网络作为解码器,其输出梯度导致局部能量最小,并更新原子类型以捕获依赖于邻居的特定局部键偏好。

受最近抗体建模成功的启发,最近的工作开发了一种基于扩散的生成模型,明确针对特定抗原结构并生成抗体。该方法对抗体序列和结构进行联合采样,并在序列-结构空间中迭代生成候选抗体。

Anand等引入了一种基于扩散的蛋白质结构和序列生成模型,学习了与旋转和平移等变的结构信息。ProteinSGM将蛋白质设计作为图像绘制问题,并应用基于条件扩散的生成来精确建模蛋白质结构。DiffFolding通过传统的DDPM思想产生集中于内角的蛋白骨架。

Classification of Diffusion-based model Applications

CONCLUSIONS & DISCUSSIONS

扩散模型在越来越广泛的应用领域中变得越来越重要。为了利用扩散模型的力量,本文对扩散模型的几个方面进行了全面和最新的回顾,使用了对各种态度的详细见解,包括理论,改进的算法和应用。我们希望这一调查能对读者在扩散模型增强及其应用方面起到指导作用。

LIMITATIONS & FURTHER DIRECTIONS

关注扩散模型类:大多数现有的改进和应用算法都是基于DDPM的原始设置。然而,关于扩散模型的广义设定,研究者们忽略了许多方面。进一步有意义的工作,探索先验分布,转移核,采样算法,和扩散方案。扩散模型应该被视为一个类,但不是基于ddpm的模型。

训练目标和评价指标:大多数基于扩散的模型将训练目标设置为负对数似然的下限(ELBO)的证据。然而,我们没有明确的理论证明ELBO和NLL是同时优化的。因此,这种不一致性可能导致设计的真实目标与实际精细化之间的隐性不匹配。因此,进一步的分析方法将对数似然优化与现有变量联系起来,或者创建与似然一致的新训练目标,可能会显著提高模型的性能。此外,当前的评估指标如FID和IS分数不能完全匹配主要目标,因为数据分布与可能性匹配不是等变的。理想的评价指标应该是测试扩散模型的样本多样性和恢复效果。考虑到足够多的类,如CLIP的多样性评分可能是一个可行的解决方案。考虑分布距离的流形上真实数据的恢复分数将更准确、全面地描述模型的生成能力。综上所述,训练目标和评价指标需要遵循初始目标。

应用和归纳偏差:人工智能科学和自然语言处理等各个领域在生成模型的帮助下取得了重大进展,但需要复杂的建模来消除归纳偏差。有一系列的任务仍然需要用扩散模型进行改进,以获得比现有生成网络更好的性能。对于目前基于扩散模型的任务,相应的框架主要是基于分数的网络和DDPM。因此,减少步骤的改进算法应该引起更多的关注,这也是我们进行这项调查的动机之一。

APPENDIX A

SAMPLING ALGORITHMS

在本节中,我们将简要介绍当前主流的抽样方法。我们将其分为无条件抽样和条件抽样两部分。对于无条件采样,我们给出了三个地标的原始采样算法。对于条件抽样,我们将其分为有标记条件和无标记条件。
Unconditional Sampling

Ancestral Sampling

Annealed Langevin Dynamics Sampling

Predictor-Corrector Sampling

Conditional Sampling

Labeled Condition

Unlabeled Condition

APPENDIX B

EVALUATION METRIC
Inception Score (IS)

inception分数是基于ImageNet数据集对生成图像的多样性和分辨率进行评估而建立的。它可以分为两个部分:多样性测量和质量测量。多样性度量用 p I S p_{IS} pIS​ 表示,生成的样本的类熵w.r.t.计算,熵越大,样本的多样性越大。质量度量表示为 q I S q_{IS} qIS​,通过使用熵通过样本与相关类图像之间的相似性来计算。这是因为如果样本更接近ImageNet数据集中特定类别的图像,它们将享有高分辨率。因此,为了降低 q I S q_{IS} qIS​ ,提高 p I S p_{IS} pIS​,我们将KL散度应用于初始分数计算:

Frechet Inception Distance (FID)

虽然在Inception Score中有合理的评估技术,但其建立是基于具有1000个类的特定数据集和由随机性(如初始权重和代码框架)组成的训练网络。因此,ImageNet和真实图像之间的偏差可能会导致不准确的结果。此外,样品批次的数量远少于1000个类,从而导致一个值。FID的提出是为了解决来自特定参考数据集的偏差。得分用均值和协方差表示真实数据分布与生成样本之间的距离。

Negative Log Likelihood (NLL)

根据Razavi等人,负对数似然被视为描述所有数据分布模式的通用评估指标。许多关于流场归一化和VAE场的研究,[Simple and effective vae training with calibrated decoders]都将NLL作为评价的选择之一。一些扩散模型,如改进的DDPM,将NLL作为训练目标。

N L L = E [ − l o g p θ ( x ) ] NLL=E[-logp_\theta(x)] NLL=E[−logpθ​(x)]

APPENDIX C

BENCHMARKS

里程碑模型的基准以及相应的FID评分、Inception评分和NLL的改进技术在不同的数据集上提供,包括CIFAR-10、ImageNet和CelebA-64。此外,一些基于数据集的性能,如LSUN、FFHQ和MINST,由于实验数据少得多,没有给出。选择的性能按照NFE的降序排列,以便比较,更容易访问。

Benchmarks on CelebA-64

Benchmarks on ImageNet-64

Benchmarks on CIFAR-10 Dataset

Details for Improved Diffusion Methods

更新时间 2024-02-07