一文看尽297篇文献！中科院领衔发表首篇「基于扩散模型的图像编辑」综述

本文全面研究图像编辑前沿方法，并根据技术路线精炼地划分为3个大类、14个子类，通过表格列明每个方法的类型、条件、可执行任务等信息。

此外，本文提出了一个全新benchmark以及LMM Score指标来对代表性方法进行实验评估，为研究者提供了便捷的学习参考工具。强烈推荐AIGC大模型研究者或爱好者阅读，紧跟热点。

论文地址：https://arxiv.org/abs/2402.17525

开源项目：https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods

摘要

去噪扩散模型已成为各种图像生成和编辑任务的有力工具，有助于以无条件或输入条件的方式合成视觉内容。

这些模型背后的核心理念是学习如何逆转逐渐向图像中添加噪声的过程，从而从复杂的分布中生成高质量的样本。

在这份调查报告中，我们详尽概述了使用扩散模型进行图像编辑的现有方法，涵盖了该领域的理论和实践方面。我们从学习策略、用户输入条件和可完成的一系列具体编辑任务等多个角度对这些作品进行了深入分析和分类。

此外，我们还特别关注图像的inpainting和outpainting，并探讨了早期的传统上下文驱动方法和当前的多模态条件方法，对其方法论进行了全面分析。

为了进一步评估文本引导图像编辑算法的性能，我们提出了一个系统基准 EditEval，其特点是采用了创新指标 LMM Score。最后，我们讨论了当前的局限性，并展望了未来研究的一些潜在方向。

基于扩散模型的图像编辑中研究出版物的统计概述。上图：学习策略。中：输入条件。下图：编辑任务。

介绍

在人工智能生成内容（AIGC）的领域中，利用人工智能来创建和修改数字内容，图像编辑被认为是创新和实际应用的一个重要领域。

与从最小输入创建新图像的图像生成不同，图像编辑涉及改变图像的外观、结构或内容，包括从微妙的调整到重大变革的一系列变化。

这项研究在包括数字媒体、广告和科学研究在内的各个领域都是基础性的，其中改变视觉内容是至关重要的。图像编辑的进化反映了数字技术的进步，从手工、劳动密集型过程发展到由基于学习的算法驱动的先进数字技术。这一进化中的一个关键进步是生成对抗网络（GANs）的引入，显著增强了创意图像操作的可能性。

扩散模型在图像编辑中的应用近年来引起了极大的兴趣，这一点从该领域大量研究出版物的显著增加中可以得到证明。这种日益增长的关注突显了与先前作品相比，扩散模型在提升图像编辑性能方面的潜力和多样性。

鉴于这一重要进步，系统地回顾和总结这些贡献是必要的。然而，现有关于扩散模型的综述文献集中在其他特定的视觉任务上，如视频应用或图像复原和增强。一些提到图像编辑的调查往往只提供了一个粗略的概述，缺少对方法的详细和集中探索。

为了弥补这一差距，我们进行了一项调查，提供了一份深入而全面的分析，专注于图像编辑。我们深入探讨了扩散模型在该领域实现的方法、输入条件和广泛的编辑任务。

该调查批判性地回顾了超过100篇研究论文，根据学习策略将它们组织成三个主要类别：基于训练的方法、测试时微调方法和无需训练和微调的方法。

每个类别进一步基于其核心技术进行划分，分别在第4、5和6节中进行了详细讨论。我们还探索了这些方法中使用的10种不同类型的输入条件，包括文本、掩码、参考图像、类别、布局、姿势、草图、分割图、音频和拖动点，以展示扩散模型在多样化图像编辑场景中的适应性。

此外，我们的调查提出了一个新的图像编辑任务分类，将其分为三个广泛的类别：语义编辑、风格编辑和结构编辑，涵盖了12个具体类型。图1直观地表示了研究在学习策略、输入条件和编辑任务类别上的统计分布。

此外，我们特别关注了inpainting和outpainting，它们共同构成了一种独特的编辑类型。我们探讨了早期的传统方法和当前的多模态条件方法，第7节提供了它们方法学的全面分析。我们还介绍了EditEval，一个旨在评估文本引导的图像编辑算法的基准，详细内容见第8节。

特别是，通过利用大型多模态模型（LMMs）的先进视觉-语言理解能力，提出了一个有效的评估指标，LMM score。最后，我们在第9节中提出了一些当前挑战和潜在的未来趋势作为展望。

总之，这项调查旨在系统地分类和批判性评估基于扩散模型的图像编辑研究的广泛文献。我们的目标是提供一个全面的资源，不仅综合了当前的发现，而且还指导了这一快速发展领域未来研究的方向。

图像编辑的分类

除了扩散模型在图像生成、恢复和增强方面取得的重大进步外，它们在图像编辑方面也实现了显著突破，相比之前占主导地位的生成对抗网络（GANs），提供了更强的可控性。

不同于专注于从零开始创建新图像的图像生成，以及旨在修复和提高退化图像质量的图像恢复和增强，图像编辑涉及修改现有图像的外观、结构或内容，包括添加对象、替换背景和改变纹理等任务。

在这项调查中，我们根据学习策略将图像编辑论文分为三个主要组别：基于训练的方法、测试时微调方法和无需训练和微调的方法，分别在第4、5和6节中进行详细阐述。

此外，我们探讨了这些方法使用的10种输入条件来控制编辑过程，包括文本、掩码、参考图像、类别、布局、姿势、草图、分割图、音频和拖动点。

进一步地，我们调查了这些方法可以完成的12种最常见的编辑类型，它们被组织成以下三个广泛的类别。

- 语义编辑：

此类别包括对图像内容和叙述的更改，影响所描绘场景的故事、背景或主题元素。这一类别内的任务包括对象添加、对象移除、对象替换、背景更改和情感表达修改。

- 风格编辑：

此类别侧重于增强或转换图像的视觉风格和审美元素，而不改变其叙述内容。这一类别内的任务包括颜色更改、纹理更改和整体风格更改，涵盖艺术性和现实性风格。

- 结构编辑：

此类别涉及图像内元素的空间布局、定位、视角和特征的变化，强调场景内对象的组织和展示。这一类别内的任务包括对象移动、对象大小和形状更改、对象动作和姿势更改以及视角/视点更改。

表1全面总结了调查论文的多角度分类，提供了快速搜索的途径。

从多角度对基于扩散模型的图像编辑方法进行了全面的分类。这些方法是根据训练、微调和免训练进行颜色渲染的。输入条件包括文本、类别、参考图像，分割图、姿态、蒙版、布局、草图、拖动点和音频。打勾表示可以做的任务。

基于训练的方法

在基于扩散模型的图像编辑领域，基于训练的方法已经获得了显著的突出地位。这些方法不仅因其稳定的扩散模型训练和有效的数据分布建模而著名，而且在各种编辑任务中表现可靠。

为了彻底分析这些方法，我们根据它们的应用范围、训练所需条件和监督类型将它们分类为四个主要组别，如图2所示。

此外，在这些主要组别中，我们根据它们的核心编辑方法将方法分为不同的类型。这种分类展示了这些方法的范围，从针对特定领域的应用到更广泛的开放世界用途。

比较两种有代表性的CLIP指导方法：DiffusionCLIP 和 Asyrp 的框架图。样本图像来自CelebA数据集上的Asyrp

指令图像编辑方法的通用框架。示例图像来自InstructPix2Pix、InstructAny2Pix和MagicBrush。

测试时微调的方法

在图像生成和编辑中，测试时微调代表着精确性和控制性的重要一步。本节探讨各种微调策略（见图5）来增强图像编辑能力。这些方法，如图6所示，范围从微调整个去噪模型到专注于特定层或嵌入。

我们研究微调整个模型、针对特定参数的方法以及优化基于文本的嵌入。此外，我们还讨论了超网络的集成和直接图像表示优化。这些方法共同展示了图像编辑中微调技术的不断复杂化和有效性，满足广泛的编辑需求和用户意图。

使用不同微调组件的微调框架。样本图像来自Custom-Edit。

免训练和微调方法

在图像编辑领域，无需训练和微调的方法起点是它们快速且成本低，因为在整个编辑过程中不需要任何形式的训练（在数据集上）或微调（在源图像上）。

本节根据它们修改的内容将它们分类为五个类别，如图7和8所示。它们巧妙地利用扩散模型内在的原则来实现编辑目标。

免训练方法的通用框架，其中指出了不同部分中描述的修改。样本图片来自LEDITS++

图像inpainting（补全）和outpainting（外扩）

图像补全和外扩通常被视为图像编辑的子任务，在具有不同目标和挑战的独特位置上占据一席之地。为了更好地解释，我们将它们分为两大类型（见图9），详细内容分别在第7.1节和第7.2节中介绍。

在视觉对比中，传统的上下文驱动的补全（上排）与多模态条件补全（下排）之间存在显著差异。上下两排的样本分别来自于Palette和Imagen Editor。

基准

在前面的章节中，我们深入探讨了基于扩散模型的图像编辑方法的方法学方面。除了这些分析之外，评估这些方法、检查它们在不同编辑任务中的能力至关重要。然而，现有的图像编辑基准测试有限，没有完全满足我们调查中确定的需求。

例如，EditBench主要针对文本和掩码引导的补全，并忽略了涉及全局编辑如风格转换的更广泛任务。TedBench虽然扩展了任务范围，但缺乏详细指导，这对于评估依赖于文本指令而非描述的方法至关重要。

此外，尽管EditVal基准试图提供更全面的任务和方法覆盖范围，但受到其从MS-COCO数据集中获取的图像质量限制，这些图像通常分辨率低且模糊。

为了解决这些问题，我们引入了EditEval，一个旨在评估通用扩散模型基础图像编辑方法的基准。EditEval包括一个精心策划的50张高质量图像的数据集，每张图像都附有文本提示。EditEval评估表1中选出的7个常见编辑任务的性能。

此外，我们提出了LMM分数，这是一个定量评估指标，利用大型多模态模型（LMMs）的能力来评估不同任务上的编辑性能。除了LMM分数提供的客观评估外，我们还进行了用户研究以纳入主观评估。EditEval的构建和应用的详细信息如下所述。

LMM Score与用户研究的皮尔逊相关系数。

LMM Score/CLIPScore与用户研究的皮尔逊相关系数比较。

对7种选定的编辑类型进行直观比较。

挑战和未来方向

尽管在使用扩散模型进行图像编辑方面取得了成功，但仍有一些limitation需要在未来的工作中加以解决。

更少步骤的模型推理

大多数基于扩散的模型在推理过程中需要大量的步骤来获取最终图像，这既耗时又耗费计算资源，给模型部署和用户体验带来挑战。为了提高推理效率，已经研究了少步骤或一步生成的扩散模型。

近期的方法通过从预训练的强扩散模型中提取知识来减少步骤数，以便少步骤模型能够模仿强模型的行为。一个更有趣但更具挑战性的方向是直接开发少步骤模型，而不依赖于预训练的模型，例如一致性模型。

高效模型

训练一个能够生成逼真结果的扩散模型在计算上是密集的，需要大量的高质量数据。这种复杂性使得开发用于图像编辑的扩散模型非常具有挑战性。为了降低训练成本，近期的工作设计了更高效的网络架构作为扩散模型的骨干。

此外，另一个重要方向是只训练部分参数，或者冻结原始参数并在预训练的扩散模型之上添加一些新层。

复杂对象结构编辑

现有的工作可以在编辑图像时合成逼真的颜色、风格或纹理。然而，当处理复杂结构时，它们仍然会产生明显的人为痕迹，例如手指、标志和场景文字。已经尝试解决这些问题。

以前的方法通常使用负面提示，如“六个手指、坏腿等”，以使模型避免生成此类图像，这在某些情况下是有效的，但不够稳健。近期的工作开始使用布局、边缘或密集标签作为指导，编辑图像的全局或局部结构。

复杂的光照和阴影编辑

编辑对象的光照或阴影仍然是一个挑战，这需要准确估计场景中的光照条件。以前的工作如Total Relighting使用网络组合来估计前景对象的法线、反照率和阴影，以获得逼真的重新照明效果。

最近，基于扩散的模型被提议用于编辑面部的光照（DiFaReli）。然而，利用预训练扩散模型强大的光照先验来编辑肖像或通用对象的光照仍然是一个开放领域。

同样，ShadowDiffusion探索了基于扩散的阴影合成，可以生成视觉上令人愉悦的对象阴影。然而，使用扩散模型在不同背景条件下准确编辑对象的阴影仍然是一个未解决的问题。

图像编辑的非鲁棒性

现有基于扩散的图像编辑模型能够为给定的一部分条件合成逼真的视觉内容。然而，它们在许多现实世界场景中仍然会失败。这个问题的根本原因在于模型无法准确地对所有可能的样本在条件分布空间中进行建模。

如何改进模型以始终生成无瑕疵的内容仍然是一个挑战。解决这个问题有几种方法。

首先，扩大模型训练的数据规模以覆盖具有挑战性的场景。这是一种有效但成本较高的方法。

在某些情况下，甚至很难收集到足够数量的数据，如医学图像、视觉检测数据等。

第二，调整模型以接受更多条件，如结构引导、3D感知引导和文本引导，以实现更可控和确定性的内容创作。

第三，采用迭代细化或多阶段训练以逐步改进模型的初始结果。

忠实的评估指标

对图像编辑进行准确评估对于确保编辑内容与给定条件良好对齐至关重要。然而，尽管一些定量指标如FID、KID、LPIPS、CLIP得分、PSNR和SSIM已被用作该任务的参考，但大多数现有工作仍然严重依赖于用户研究来为视觉结果提供相对准确的感知评估，这既不高效也不可扩展。

忠实的定量评估指标仍然是一个开放的问题。最近，已经提出了更准确的指标来量化对象的感知相似性。

DreamSim测量了两幅图像的中等级别相似性，考虑了布局、姿态和语义内容，并且优于LPIPS。

类似地，前景特征平均（FFA）提供了一种简单而有效的方法，用于测量对象的相似性，尽管其姿态、视点、光照条件或背景不同。在本文中，我们还提出了一种有效的图像编辑度量LMM score，借助LMM实现。

总结

我们广泛回顾了基于扩散模型的图像编辑方法，从多个角度审视了这一领域。

我们的分析首先根据学习策略将100多种方法分类为三个主要组别：基于训练、测试时微调和无需训练及微调的方法。

然后，我们将图像编辑任务分为三个独特的类别：语义编辑、风格编辑和结构编辑，总共包含12种具体类型。

我们探索了这些方法及其对提高编辑性能的贡献。在我们的图像编辑基准EditEval中，对7个任务以及最新的先进方法进行了评估。

此外，引入了一种新的度量标准LMM分数，用于这些方法的比较分析。在我们的综述中，我们强调了图像编辑领域内广泛的潜力，并建议了未来研究的方向。