如何“正确“使用Stable Diffusion？文本到图像扩散模型中记忆化实用分析（浙大）

论文链接：https://arxiv.org/pdf/2405.05846 它能被生成吗？文本到图像扩散模型中记忆化的实用分析过去几年见证了由扩散模型驱动的文本引导图像生成领域的重大进展。然而，已经显示出文本到图像扩散模型容易受到训练图像记忆的影响，引发了对版权侵犯和隐私侵犯的担忧。在这项工作中，本文对文本到图像扩散模型中的记忆化进行了实际分析。针对需要保护的一组图像，本文对它们进行了量化分析，而无需收集任何prompt。具体而言，本文首先正式定义了图像的记忆化，并确定了记忆化的三个必要条件，分别是相似性、存在性和概率性。然后，本文揭示了模型预测误差与图像复制之间的相关性。基于这种相关性，本文提出利用反演技术来验证目标图像对记忆化的安全性，并测量它们被记忆化的程度。模型开发人员可以利用本文的分析方法发现被记忆化的图像，或可靠地宣称对抗记忆化的安全性。对流行的开源文本到图像扩散模型 Stable Diffusion 进行了大量实验，证明了本文分析方法的有效性。

介绍

扩散概率模型在图像生成、视频、3D 点云等方面展现了令人印象深刻的能力。这些技术为商业系统或社区奠定了基础，如 Stable Diffusion、Midjourney、DALL·E 2/3 和 Imagen，吸引了数百万活跃用户。扩散模型的普及可以归因于分层去噪过程，该过程在数十亿数据上训练时提供了高稳定性，并且具备了对多模态条件生成的可扩展性。

用于训练最先进的文本到图像生成模型的大规模数据集，例如开源图像描述数据集 LAION-5B，被广泛认为包含可能引起版权和隐私担忧的内容。例如，据报道，LAION-5B可能未经授权地涉及摄影师的作品，其中还发现了私人医疗照片。由于未经筛选的训练数据，扩散模型可能生成侵犯创作者版权或暴露个人信息的内容。

在这项工作中，本文专注于文本到图像扩散模型中的记忆化问题，这是对训练数据误用的最坏情况。文本到图像扩散模型中的记忆化是一种生成失败，当输入一定的prompt但不同的随机种子时，模型总是刚性地生成与其训练集中相同的数据。这种类型的生成被视为失败，因为概率生成模型应该生成新颖和多样化的图像。

下图1展示了 Stable Diffusion 中记忆化的两个例子。文本到图像扩散模型中的记忆化不仅是一种类似于生成对抗网络（GAN）中的mode collapse的技术问题，而且也是对图像所有者利益的偏见。在版权保护方面，即使模型开发者被授权使用受版权保护的图像训练他们的模型，图像所有者也不会希望他们的图像被复制给任意用户，因为这将导致无法控制的传播。

在过去的几年中，文本到图像模型因生成模仿艺术家风格的衍生图像而面临诉讼。然而，与法律地位尚未确定的衍生生成相比，对受版权保护的图像的精确复制是毫无争议地不可容忍的。为了保护隐私，一系列研究提出使用合成数据代替真实数据以防止共享私人信息。为了实现这一目标，潜在的记忆化也应该被谨慎地回避。Carlini等人和Somepalli等人首次证明了文本到图像模型中的记忆化的存在。他们研究了最流行的开源文本到图像扩散模型 Stable Diffusion，并发现了触发模型生成训练图像的prompt。

虽然已发现文本到图像扩散模型容易受到记忆化的影响，但实际分析方法仍然是一个具有挑战性的问题。首先，现有的分析方法都是基于prompt的：它们首先使用原始训练集中的标题生成大量候选图像，然后检测低多样性的风险生成，搜索与训练图像高度相似的生成图像，或检测预测误差较高的prompt。

基于prompt的分析方法无法确定任意图像是否被记忆化。事实上，只有在发现了记忆化后，它们才能意识到哪些图像可能被记忆化。此外，对于那些训练标题似乎不触发记忆化现象的其他图像，它们对记忆化的安全性仍然不确定，并且很难通过现有方法进行分析，因为不可能对所有prompt进行穷尽测试。因此，实际分析方法希望是基于图像而不是基于prompt的。其次，实际分析方法需要量化记忆化。

先前的工作重点是发现被记忆化的图像，而缺乏对每个实例的记忆化的准确描述。对记忆化的量化测量不仅为记忆化图像的安全风险提供了有力的证据，而且允许模型开发者负责地向图像所有者声明对正常图像的安全性。

为了应对这些挑战，本文考虑了一个实际场景，在这个场景中，模型开发者预先定义了一组受版权保护或保护隐私的目标图像。他们的目标是对目标图像进行安全分析，以决定模型是否记忆了它们，并量化它们被记忆的程度。基于这项分析，开发者能够向数据提供者声明目标图像对记忆化的安全性，或者提前发现被记忆的图像并修复这一漏洞。

为了执行安全分析，本文首先正式定义了扩散模型中的图像记忆化，并确定了说一个图像被记忆化的三个条件，分别命名为相似性、存在性和概率性。

相似性条件意味着生成的图像应该与目标图像完全相同。正如之前提到的，这个条件反映了训练数据最坏情况下的误用，并构成了重大的安全威胁。本文不是计算生成图像和目标图像之间的相似度，而是利用模型的预测误差作为度量标准来识别图像的复制。这个度量标准与以前的度量标准在识别图像复制方面同样有效。它还使本文能够反转模型以找到导致复制的输入，基于这个输入本文对其他两个条件进行分析。

存在性条件要求存在一个prompt来触发目标图像的复制。本文提出了一个prompt反演算法来分析这个条件，并通过矛盾验证了这种prompt的存在性。

概率性条件在采样时频繁地复制目标图像。本文提出通过比较模型在目标图像上的预测误差与一个安全模型的预测误差来衡量这个条件。如果目标图像以高概率被复制，那么可以观察到一个明显的分布偏移，远离安全模型的误差分布。

本文通过矛盾验证了大规模数据上训练的无条件扩散模型是安全的，因此可以作为安全模型。本文对 Stable Diffusion 进行了全面的实验，以展示本文的分析方法的有效性。

总的来说，本文的贡献如下：

对文本到图像扩散模型中的记忆化进行了更实用的分析。本文的分析方法是基于图像的，不需要收集大量prompt，比基于prompt的分析方法更可靠。

提供了文本到图像扩散模型中记忆化的正式定义，并确定了它的三个条件。然后，本文提出了有效的度量标准和算法来衡量每个条件，最终量化了目标图像被记忆的程度。

通过对 Stable Diffusion 的详细实验，本文证明了本文分析方法的可行性，揭示了文本到图像扩散模型中记忆化的内在特性。

背景

Diffusion Model

扩散概率模型是一类由一系列去噪自编码器组成的潜在变量模型。编码器不是学习得来的，而是由手动设计的扩散过程取代。给定输入图像和总共 ? 步，扩散过程被建模为一个马尔可夫链，逐渐向输入图像添加高斯噪声，根据权重计划：

逐渐在最后一步 ? 中减小到几乎为零，以使接近纯高斯噪声。生成图像的过程是扩散过程的反向过程，也是一个马尔可夫链，起始于：

如果将扩散过程分为足够的步骤，每个反向步骤可以通过一个高斯变换来近似，该变换经过训练以匹配相应的扩散步骤。这是通过最小化以下目标来实现的：

其中，是一个神经网络，用于预测添加的噪声。训练后，普通的采样过程从随机高斯噪声开始，并通过逐步使用移除预测的噪声，其中当 ? > 1 时，，? = 1 时为 0。普通的采样算法在生成图像时速度极慢，因为它必须调用网络 ? 次（例如，在 Stable Diffusion 中为 1000 步）。为了缓解这个问题，提出了各种高效的采样算法，如 DDIM 采样器、PLMS 采样器等。

条件 Diffusion Model

扩散模型可以扩展为条件变体，以在某些输入条件的指导下生成图像，例如对象类别、文本prompt等。文本到图像模型是一种条件扩散模型，允许用户输入一些prompt来指示生成图像的期望内容。主要有两种类型的引导，即分类器引导和无分类器引导。

分类器引导还会在噪声图像上额外训练一个分类器来预测其关联条件 ?，并利用分类器的梯度来指导采样。大多数扩散模型，如 Stable Diffusion，选择了无分类器引导，因为它不需要训练额外的分类器。无分类器引导隐式训练了两个模型，一个是无条件模型，另一个是条件模型。这两个模型共享参数，无条件模型通过随机替换输入条件 ? 为 null 进行训练（对于文本条件，无条件模型始终输入空字符串）。在采样时，预测的噪声是无条件预测和条件预测的线性组合：

其中，较大的超参数 ? 导致生成的图像与输入条件更一致。

Text-To-Image Diffusion Model

在本文将研究的条件扩散模型实例中，即文本到图像扩散模型中，为了获得语义上有意义的条件 ?，首先将输入prompt进行token化，并投影到一系列连续的token embedding 中，其中 ? 是token的数量。然后，通过预训练的图像-文本模型（例如 CLIP或语言模型，例如 T5）将token embedding进一步编码为条件 ?。根据具体的建模方式，条件 ? 要么通过交叉注意力被合并到噪声预测网络的中间层中，要么与图像token序列串联起来，自回归地建模为单一流。

在先进的文本到图像扩散模型中，Stable Diffusion 在实现和训练数据方面都是开源的，因此本文将利用它进行研究。为了生成高分辨率图像，Stable Diffusion 首先训练一个自编码器，将图像 ? 编码成一个低维表示，该表示在感知上等效于数据空间。然后，在缩减空间中训练扩散模型。在采样时，在生成潜变量后，通过预训练的解码器得到高分辨率图像。

记忆化的定义

首先本文先正式定义记忆化，然后再与现有的定义进行比较：

定义：如果在采样时存在一个prompt，在该prompt的指导下，模型生成的样本与训练样本 ? 几乎完全相同的概率显著，则称训练样本 ? 被记忆化。所谓几乎完全相同并不意味着字面上完全相同或在文件系统中逐字节匹配。它仍然是在感知级别上，但排除了甚至是微小的转换，如视角变化和组件重组。

确切地说，训练样本 ?、存在prompt和显著概率是判断训练样本是否被记忆化的三个条件。为了简洁起见，本文称它们为相似性、存在性和概率条件。现有的研究以不同程度涵盖了这三个条件。

Carlini 等人提供了一个严格的记忆化定义，即如果一个训练图像在训练集中最多出现 ? 次，并且可以通过一些prompt从模型中提取出来，那么它就是重现的记忆化的。如果生成的样本与训练样本完全相同或重现的（下图 2a），本文都将其视为记忆化。

其他的研究没有给出正式的定义，并讨论了记忆化的更广泛范围，以衍生生成的形式，比如部分复制和类似风格的复制（上图 2b）。将记忆化限制在最极端的情况“完全相同”上具有几个优点。

首先，在图像生成模型中对衍生行为的诉讼仍处于非常早期的阶段。要对其合法性做出决定需要时间。相比之下，“完全相同”的记忆化如果相关图像受版权或隐私保护，则绝对不被允许。其次，从技术角度来看，扩散模型固有地经过训练以逐像素地复制训练样本，就像方程 4 中所示。因此，“完全相同”的记忆化不仅在问题级别上定义，而且可能在模型本身中找到证据。这使本文能够利用模型的内部统计数据来衡量其记忆化问题，而不是依赖外部模型来匹配训练图像并生成图像，后者由于潜在的风险，如对抗性攻击，可靠性较低。

存在性条件并不是以前的研究关注的问题，因为它们以基于prompt的方式分析记忆化，因此该条件总是满足的。对于本文的基于图像的分析，存在性条件很重要，以便能够揭示现实风险，稍后将讨论。

至于概率条件，Carlini 等人在其定义中没有明确涉及概率条件，但在他们设计的成员推断攻击中涉及了概率条件，用于检测异常prompt，这激发了本文在本文的定义中加入概率条件。其他的研究并没有强调概率。概率条件对于分析记忆化至关重要；正如本文稍后将展示的那样，扩散模型中可以提取任何样本，但并非所有样本都被记忆化。

图像复制的识别

本文从对扩散模型中记忆化的初步调查开始，主要是通过对图像复制的识别来衡量，该识别旨在确定生成的图像 ?' 是否复制了目标图像（即相似性条件）。有效的识别是进一步衡量的基础。现有的研究采用了“瓷砖式” ?2 距离或 SSCD（用于复制检测的预训练模型）来计算 ?' 与之间的相似性。Wen 等人的度量设计用于检测异常prompt，不能用于识别的复制。然而，为了深入了解训练图像的复制和准确的识别，需要更本质和信息丰富的度量。

方法论

假设输入prompt表示为 ?(?)，其中是一个token embedding的序列，? 是一个文本编码器。为了生成图像，首先从标准正态分布中采样一个随机高斯噪声，然后按照前文介绍的迭代去噪过程进行。除了初始噪声外，扩散模型的基本采样算法在每一步都会添加一个不同的高斯噪声。因此，生成的图像由一系列噪声确定。然而，在实践中，更高效的采样器被使用，例如 DDIM 采样器和 PLMS 采样器，它们只在开始时进行一次采样，然后遵循确定性的去噪过程。如果使用相同的初始噪声，则生成的图像将完全相同。在本文的实验中，本文采用 DDIM 采样器，因此只考虑初始噪声。

为了识别一个噪声-prompt对是否能够复制目标图像，本文发现当本文利用来模糊时，它与模型的预测误差强相关。本文不再考虑默认的预测误差，而是考虑一个更直接和有效的预测误差：

其中，。预测误差等价于重新加权的预测误差。权重项随着 ? 的增大而增加，这有利于在较早的采样步骤中获得更准确的预测（扩散过程中的后续步骤对应于生成过程中的早期步骤）。直觉上，如果扩散模型能够在所有步骤（特别是在早期采样步骤）准确地从模糊的中预测出，那么以为起点的采样轨迹将朝向，最终生成。请注意，只执行单点检测（单个噪声和单个prompt?），不能直接用于分析记忆化。

将起始点对齐。在 Stable Diffusion 中，时间步长计划在一个范围内是离散的（1000）。在最后一步的噪声图像中，与高斯噪声相比，存在微小差异，信噪比（SNR）为 0.0047。然而，本文发现这种微小差异可能对生成结果产生重要影响，即由和生成的图像可能不同。在扩散模型训练过程中，与之间的差距没有限制；因此，生成的行为无法完全被相关损失函数捕捉到。为了消除不一致性，本文使用进行生成，这是图像编辑工作中的一种做法[26]。这相当于从一个有偏的高斯分布中进行采样。

实验设置

通过一对双向实验可以验证本文提出的度量与通过复制之间的相关性。

的识别复制的能力。该实验评估了在给定一个真实数据集的情况下，其中表示复制，否则表示不是，能否准确识别复制。

本文使用 Stable Diffusion V1.4 进行评估。为构建数据集，本文收集了由 Webster发现的一组 78 对记忆化图像-prompt对。每个图像都使用额外的 BLIP 生成的prompt进行增强。BLIP 生成的prompt提供了足够的非复制样本。这导致了 156 个图像-prompt对。对于每个对，本文随机采样了 50 个不同的高斯噪声，然后手动为每个样本注释 ??。最后，本文构建了一个包含 7800 个样本的数据集，其中有 3645 个样本发生了复制。对于 Stable Diffusion，准确估计需要遍历 1000 步。为了提高效率，本文均匀采样了 50 步。按照 Wen 等人，检测性能通过接收者操作特征 (ROC) 下面积 (AUC) 和在 1% 假阳性率下的真阳性率 (TPR@1%FPR) 进行衡量。

的生成复制能力。的有效性也可以从反向进行展示。可以表明，的一个小水平足以生成复制。本文在一个严格的环境中研究了这种效果。对于来自 LAION-Aesthetics V2 6.5+ 的未记忆化（正常）图像，这是 Stable Diffusion 训练集的一个子集，其预测的美学分数不低于 6.5，通常很难采样到一个能够复制的。然而，本文可以通过最小化来反转一个可行的，使其复制原始。

触发罕见事件的能力为其与复制的相关性提供了有力证据。在所有实验中，本文使用 Adam 优化器，初始学习率为 0.1，不使用权重衰减。本文使用批量大小为 32（时间步长），总共训练 1000 次迭代。

结果

识别复制的能力。性能在样本级别和图像级别进行评估。样本级别将所有 7800 个样本一起进行评估。图像级别的评估分别计算每个图像的 AUC 和 TPR@1%FPR，并对其进行平均。下表 1 显示了识别结果。所有指标都表现出几乎完美的性能。下图 3 显示了复制样本和正常样本的分布。对于每个单独的样本，在大多数时间步长上都存在明显的区别（下图 3a），特别是在后续步骤中。然而，样本级别的分布显示了复制样本和正常样本之间的大量重叠（下图 3b）。这表明，并不存在一种普遍的标准来识别所有图像的复制。此外，正常样本的预测误差具有较大的方差（下图 3 右侧），这表明通常生成的图像比记忆生成更加多样化。

生成复制的能力。本文对每个图像的初始噪声进行反演，使用不同的输入prompt，包括它们的训练标题、一个 BLIP 生成的标题和一个空字符串。如下图 4 所示，对于训练图像或随机采样的正常图像，对于原始的训练标题、BLIP 生成的新标题或空标题，最小化都产生了成功反演出导致复制的输入噪声。这表明是训练图像复制的强有力指标。与正常图像相比，对于记忆图像的反演呈现出相对更真实的重构，这表明记忆图像更容易复制。

条件 1：相似性。预测误差符合相似性条件。本文直接利用扩散模型的内部预测误差作为生成图像和目标图像之间相似性的指标。本文相信，基于模型自身的功能进行比较比使用粗略的度量 [8] 或外部独立训练的模型 [40, 41] 更可靠。

触发记忆

识别图像复制工作在扩散模型部署后起到作用，以防止可能的训练图像泄露。图像生成模型的开发者在开发模型过程中对一组敏感图像进行安全性分析也有很强的动机。这对抗记忆化起到了积极的防御作用。安全性分析的主要目标是确定目标图像是否被记忆，并量化它们被记忆的程度。作为一种直接的方法，搜索容易生成目标图像的prompt并不可行，因为这是随机且费力的。相反，本文提出了一种基于反演的分析方法，无需访问任何prompt。

对抗记忆化的安全性分析分为两个步骤。首先，针对每个目标图像，本文尝试反演一个输入prompt，触发模型对其进行记忆的行为。本文通过反证验证，如果一个图像是安全的，那么不可能反演出一个触发其记忆的prompt。其次，本文对无条件扩散模型进行分析，发现在大规模数据上训练的无条件扩散模型不会发生记忆化。因此，它可以作为衡量条件文本到图像模型安全性的一种防护。

在这一节中，本文详细阐述了如何触发图像的记忆化。记忆化的测量将在下一节中描述。

方法论

为了回答目标图像是否可以被记忆化的问题，本文尝试搜索一个可以触发生成目标图像的prompt。这可以通过最小化关于输入token embedding ?的条件预测误差的期望来完成。

然而，这种直接的prompt反转会导致对记忆化的过度估计。实际上，本文总是能够反转出一个最优的，将任何目标图像的预测误差降低到所需的较低水平。结果，图像看起来被"记忆"了。这是因为预训练的词汇 embeddingV只分布在无限大的 embedding空间中的有限数量的位置。一个有效的应该不仅导致较低水平的预测误差，还应该接近词汇 embedding V的流形。这个条件可以通过在方程式7中添加一个正则化项来实现。

其中 ? 是一个超参数，用于控制正则化项的权重。

条件 2：存在。正则化器符合存在条件。它作为对条件预测误差期望的对抗：只有在它们之间的矛盾可以解决时，目标图像才会被记忆。如果对于目标图像来说，正则化目标不可优化，那么本文可以声称该图像不会被记忆。对于这样的断言的可靠性建立在对最小化方程式 8 的优化器的信任之上。对于深度神经网络，本文相信现代优化器 [18, 23]有能力承担责任。

准确约束token embedding ? 到预训练词汇 embedding流形的距离是具有挑战性的，因为预训练词汇 embedding并不呈现出正态分布，如下图 5a 所示（CLIP 用作 Stable Diffusion 的文本编码器）。本文设计了两种正则化器来约束优化后的token embedding 的 ?2-范数。这是由以下观察得到的，即对于正常图像，不加正则化地最小化预测误差通常会产生具有足够大 ?2-范数的token embedding。因此，第一个正则化器等于一个 ?2-范数正则化器。似乎与词汇无关，但利用了预训练词汇 embedding的 ?2-范数相对较小的事实（见下图 5b）。另一个正则化器在的基础上添加了一个项，鼓励学习到的token embedding尽可能接近预训练词汇 embedding中的任意一个。

其中，是在 ?-th token和词汇之间的内积距离上计算的概率分布的熵。这个正则化器可以帮助搜索现实中的难题prompt。

实验设置

本文使用了78张记忆图像和100张来自LAION的随机采样正常图像作为目标图像集。在所有实验中，本文不访问目标图像的训练标题。本文使用Adam优化器，初始学习率为0.01，不进行衰减。?2-范数正则化由Adam的内部权重衰减实现。? 设置为0.01。本文使用批量大小为16，并进行500次迭代的优化。每个图像被调整大小并中心裁剪为512×512，不进行增强。

结果

请注意，一个prompt ? 由 ? 个token embedding组成，每个 embedding代表一个token。稳定扩散的文本编码器默认使用最大长度为 77 个token，其中第一个和最后一个token是填充token，表示prompt的开始和结束。其余的 75 个token可自由优化。

通过将要优化的token数量从 1 调整到 75，本文发现在 Webster（46）发现的 78 个记忆图像中，有 66 个图像的记忆可以通过仅优化 1 个token来触发，有 2 个图像可以通过优化 2 个token来触发，其他 10 个图像是部分记忆图像，无论优化多少token，如下图 6 所示。

相比之下，普通图像的记忆不能通过正则化来触发。下图 7 显示了记忆图像和普通图像的训练统计数据，可以看到，对于记忆图像，预测误差和正则化项可以同时优化到较小的值。相比之下，对于普通图像，只有token embedding的 ?2-范数被最小化，而普通图像的预测误差仍然很高。这表明，对于普通（未记忆）图像来说，减小预测误差和将学习的token与预训练的token对齐之间的矛盾是无法解决的。因此，对于要保护的目标图像，如果本文不能优化遵循预训练token embedding分布以减小预测误差的token embedding，那么本文可以声明这些图像没有被记忆。

对于成功触发某些图像记忆的有效token embedding，学习到的连续token embedding与离散token之间仍然存在差距。简单的正则化器，例如本文使用的 ?2-范数正则化器，并不保证学习到的连续token embedding可以投影到现实token。这是具有挑战性的，因为连续 embedding空间中有无限多个点，其中的一个子集比可能的硬prompt具有更低的误差。token embedding可能被过度优化到产生较低误差但不对应于任何token prompt的区域。此外，基于贪婪算法的现有硬prompt调整方法不适用于搜索触发目标图像记忆的prompt，因为本文观察到触发记忆的prompt并不一定具有贪婪性质。

为了解决这个问题，本文提出了一种简单但有效的算法来优化触发记忆的硬prompt，如算法 1 所示。算法 1 在 ? 个集合的笛卡尔积中执行暴力搜索，每个集合包含与学习到的token embedding距离最小的 ? 个候选token。最优prompt是具有最小预测误差的prompt。该算法的有效性在很大程度上取决于初始化，这是硬prompt调整中的一个常见问题。本文对不同的初始化重复执行算法 1 最多 20 次。本文将本文的算法与两种硬prompt调整算法 AUTOPROMPT 和 PEZ 进行了比较。要优化的token数量设置为 3。对于 20 个倒置prompt，本文选择预测误差最低的一个进行说明。图 8 展示了 2 个成功的倒置示例。

本文的硬prompt倒置算法成功地倒置了一个触发记忆的prompt。这反映出记忆只由几个关键token决定（在示例中为 3 个token）。它还反映出导致训练图像复制的prompt并不是唯一的。关键token的位置可能不同。如示例所示，三个词 "limits"、"business" 和 "podcast" 分别是第 3、4 和 6 个。将它们移到prompt的开头并不会产生影响，就像本文所倒置的那样。然而，token的顺序并不总是没有影响的。将prompt排列为 "businesses limits podcast" 将无法触发记忆。这解释了为什么硬prompt倒置对初始化状态敏感。仅仅通过梯度下降来约束倒置token的位置是困难的。

相比之下，AUTOPROMPT 和 PEZ 在记忆的prompt倒置方面不起作用。这表明，与它们最初的应用相比，在记忆的prompt倒置方面比语义理解任务更困难。本文观察到触发记忆的prompt并没有贪婪可解的属性，因此它们无法被 AUTOPROMPT 和 PEZ 找到。具体地，本文将prompt初始化为 "limits business"，然后对 AUTOPROMPT 和 PEZ 进行运行，搜索第三个token "podcast"。如果它是贪婪可解的，AUTOPROMPT 和 PEZ 将保持前两个词不变，并找到最后一个词 "podcast"。然而，它们逐渐改变了前两个词，并没有收敛。

由于这个困境，连续的token embedding在后续的测量中被采用。虽然连续的token embedding并不严格满足潜在记忆图像的存在条件，但本文希望澄清，出于两个原因，将它们用于测量是合理的。首先，对于潜在的记忆图像，通过正则化反转的连续token embedding足以表明记忆已经发生。其次，对于普通图像，反转硬prompt对它们来说是没有意义的。无论如何将优化的token embedding投影到硬prompt中都会引入额外的误差到测量中。

测量记忆力

本文已经讨论了如何在给定一对噪声和prompt 的情况下识别训练图像的复制，并且如何验证触发训练图像记忆的prompt的存在。在本节中，本文专注于记忆的测量，并描述了测量如何满足最后的可验证性条件。

鉴于先前的结果，一个直观的衡量记忆的方法是首先确定一个用于识别复制的 -预测误差的阈值（参见前文），然后估计当输入倒置prompt（前文）时，不大于该阈值的概率。然而，这种直观的方法难以实现。正如上图 3 所示，没有一个适用于每个图像的通用阈值，因此必须为每个图像确定一个唯一的阈值。要准确地确定阈值，本文可以选择取所有普通prompt? 的的上界或所有可能prompt的的下界。这两个选项都难以实现，因为的上界容易出现过估计（不严格 ?2 有界），而的下界则需要评估所有潜在的prompt，这是费时费力的。

相反，本文避免确定复制和新颖生成的边界，而是提出通过比较的分布与一个安全模型的分布来间接测量记忆。然后，记忆的测量等于倒置prompt引入到安全模型中的威胁程度。受到先前观察结果的启发，本文发现在大规模数据上训练的无条件扩散模型不容易受到记忆的影响，因此可以作为安全模型使用。在本节的其余部分，本文首先验证无条件扩散模型的安全性，然后描述测量方法。

无条件 Model

无条件模型是文本到图像模型的一部分，并在采样时用作惩罚（参见前文）。它之所以可能不受记忆影响，有以下几个原因。首先，无条件模型是训练来最大化数据分布的可能性，没有任何外部指导（在 Stable Diffusion 中为空字符串）。只有在无条件模型频繁生成特定图像时，即表现空间崩溃的形式，记忆才会发生。然而，扩散模型的一个优点是在训练中的稳定性，没有发现任何崩溃。其次，在观察到记忆是由于对图像-prompt对的过度拟合引起的的情况下，无条件模型没有过拟合的机会，因为其训练数据由图像-空对组成，形成了多对一的对应关系。最后，Somepalli 等人发现，当训练数据的数量足够大时，无条件扩散模型不会复制训练图像，而只会生成类似的图像。

方法论。估计模型复制的概率是不可行的，因为这需要找到所有潜在的并累积在它们的 "完全相同" 边界内的概率。因此，通过概率直接估计无条件扩散模型的安全性是不可能的。本文通过基于噪声倒置的矛盾验证来验证无条件扩散模型对记忆的安全性，该倒置可复制目标图像 ? (方程 6)。在实践中，已经证明大规模从 N(0, ?) 中进行采样以生成 ? 对无条件模型不起作用。噪声倒置似乎提供了一种方法，但本文将证明，通过这种方式找到的噪声不可能是从中抽取的。

直接最小化会导致过度优化：即使对于记忆的图像-prompt对，通过最小化获得的噪声也与有所不同，事实上，存在大量正常噪声（可能是从中抽取的噪声）。对于本文的验证来说，是否存在能够复制 ? 的正常噪声变得令人困惑。如果存在这样的噪声，本文可能会过度优化并错过它们。为了避免这种干扰因素，本文假设要优化的噪声 ? 是从另一个高斯分布中抽取的，其中?和是参数。受变分自动编码器（VAE）中的先验匹配启发，本文通过带有正则化目标的方式反转 ? 和：

正则化项计算了噪声抽取的高斯分布与标准高斯分布之间的距离。通过这种重新参数化技巧，本文不直接优化 ?，而是优化其所遵循的分布。这样，扩散模型的预测误差和正则化项就成为两个对手。只有当从接近标准高斯分布的分布中抽取的噪声具有低预测误差（表明记忆）时，它们之间的矛盾才能得到解决。

这个约束条件可以通过条件文本到图像模型中的记忆图像-prompt对来满足，如实验所示。然而，对于无条件模型，它无法解决，这表明无条件模型不容易受到记忆的影响。

实验设置。除了 Stable Diffusion 的无条件模型外，本文还额外调查了一个在人脸数据集 FFHQ 上训练的无条件扩散模型，该数据集包含 70000 张图像。对于 Stable Diffusion，本文对 78 个记忆图像和从其训练集中随机抽样的 100 个普通图像执行噪声倒置。输入prompt被固定为一个空字符串。对于在 FFHQ 上训练的模型，本文使用了 100 个随机抽样的训练图像进行实验。本文对优化后的进行了 Kolmogorov-Smirnov 假设检验（KS 检验），以确定 ?∗ 是否可以从标准高斯分布中抽取。

零假设设定为“ 是从标准高斯分布中抽取的”，对于所有实验，? 值设定为 0.05。在 Kolmogorov-Smirnov 检验中，如果计算得到的 ? 值小于 0.05，则应拒绝零假设，否则接受。对于每个学习得到的高斯分布，本文随机从中抽取 1000 个样本，并计算这 1000 个样本的平均 ? 值。在优化过程中，使用 Adam 优化器，初始学习率为 0.1，采用余弦衰减，没有权重衰减。本文使用批量大小为 32，并训练总共 500 次迭代。

结果。本文首先通过对 Stable Diffusion 中的记忆图像进行研究，展示了本文的正则化噪声倒置（方程 10）的有效性，以规避过度优化。对于每个图像，本文采用它们的训练prompt来触发记忆。下图 9 展示了使用优化噪声的生成结果。无论是否正则化，记忆图像都很容易再现。下图 10 展示了通过未正则化（方程 6）和正则化（方程 10）优化得到的倒置噪声的 ? 值、均值和方差。可以观察到，通过本文的正则化目标进行倒置产生了正态分布的噪声，KS 测试的 ? 值很高，均值为零，方差为单位。它有效地规避了过度优化问题，然后可以用于衡量无条件模型的安全性。

对于无条件模型，本文使用方程 10 进行噪声倒置，有或没有 KL 散度正则化项。结果可以在下图 11 和下图 12 中找到。

对于无条件模型，在约束噪声的正态性时，它无法在两个模型上复制训练图像。然而，没有正态性正则化时，如上图 12 所示，优化的噪声显示出较低的 ? 值，这表明它们不能以高概率从标准高斯分布中抽取。结果表明，无条件模型更安全地保护其训练图像免受复制。请注意，与在 LAION 上训练的 Stable Diffusion 相比，在 FFHQ 上训练的扩散模型对倒置噪声的正态性表现得更好。这可能归因于其有限数量的训练数据（70000） embedding到一个大的潜在空间中。相比之下，Stable Diffusion 在 20 亿数据上训练，潜在空间稍大，为。训练数据数量和潜在空间维度之间的巨大对比“留下了更多空间来记忆一个实例”，这可以从上图 12c 中观察到，在 FFHQ 上倒置的噪声倾向于具有比 LAION 上的噪声更大的方差。

测量

方法论。如上节所讨论的，基于大规模数据训练的无条件扩散模型不容易受到记忆的影响。因此，当从标准高斯分布中抽取时，无条件误差代表了一个安全的分布。它可以作为一种保护，用于衡量任何条件误差分布相对于记忆的安全性，当引入某个prompt? 时。本文考虑最坏情况的条件误差分布，其中是通过方程 8 获得的。然后，本文通过从无条件到最坏情况条件的预测误差的分布转移来衡量被记忆的程度，如下图 13 所示。

分布转移。分布转移可以通过无条件误差分布和最坏情况条件误差分布之间的 Wasserstein 距离来计算。Wasserstein 距离衡量将无条件误差分布转换为条件误差分布的最小成本。Wasserstein 距离适用于记忆的测量，因为它考虑了通过引入prompt降低的错误数量。Wasserstein 距离越大，预测误差降低得越多，目标图像被记忆的程度就越大。本文将这个度量表示为。使用蒙特卡罗方法估计和的分布。

条件 3：概率。基于分布转移的测量符合记忆的概率条件。本文不直接计算记忆的概率，而是通过参考安全的无条件模型计算一个相关的度量。通过这种方式，本文避免确定一个绝对阈值来区分复制和正常生成。根据切比雪夫不等式，无条件预测误差偏离其均值超过 ?? 的概率最多为。因此，当输入一个prompt而不是一个空字符串时，预测误差的分布越向原始的罕见情况转移，触发记忆的可能性就越大。

实验设置。基于prompt倒置结果，可以通过无条件误差分布和最坏情况条件误差分布之间的 Wasserstein 距离来估计目标图像被记忆的程度 M(?_0)。对于任何图像，本文按照方程 8 倒置一系列的token embedding ?∗。所有的 75 个自由token都进行了优化。本文为 78 个记忆图像和 100 个随机抽样的普通图像计算。随机抽样了 1000 个高斯噪声来估计每个误差分布。概率密度函数在范围 [0, 0.4] 上以 2000 个 bin 计算。

结果。下图 14 展示了记忆图像和普通图像的预测误差分布的示例。记忆图像的条件误差分布与无条件误差分布之间存在明显的间隙。然而，普通图像的条件误差分布与其无条件误差分布纠缠在一起。下图 15 展示了所有测试图像的 Wasserstein 距离分布。与普通图像相比，记忆图像呈现出明显更大的 Wasserstein 距离。

回顾一下，测试集中存在部分记忆图像。本文发现，与其他完全记忆图像相比，这些图像对应的距离较低，如下图 16 所示。这表明本文的测量方法能够量化图像被记忆的程度，而不仅仅是简单地区分记忆图像和普通图像。

讨论和总结

在这项工作中，本文对文本到图像扩散模型中的记忆化进行了实际分析。本文的分析针对一组图像，测量它们被记忆的程度，无需收集大量prompt。本文首先提供了训练图像记忆化的正式定义，并确定了说一个图像被记忆的三个条件。本文展示了模型内部的预测误差是训练图像复制的一个强有力指标。基于此，分析触发记忆的prompt的存在通过反转一系列token embedding进行。本文强调了反演验证中正则化的重要性。此外，本文提出了一种正则化的噪声反演方法，以验证在大规模数据上训练的无条件扩散模型是否安全免受记忆化的影响。基于验证，测量图像被记忆的程度是通过无条件误差和条件误差之间的分布转移来衡量的。在实践中，文本到图像扩散模型的开发者可以利用本文的分析方法对一组敏感的训练图像进行安全性分析。

本文的方法使开发者能够发现潜在的记忆化风险，并及时修复，或者负责地向数据提供者声明对记忆化的安全性。本文从记忆化的角度研究了扩散模型中训练数据的安全性。未来，还需要对更广泛范围的情况进行分析。

防御不安全的衍生生成。扩散模型生成的大多数图像都不仅仅是训练图像的副本，这被称为衍生生成。其中，已经发现了相当多的伦理威胁，包括偏见、色情、暴力等。通过编辑方法和几幅图像，扩散模型也可以用于生成个人人类照片的变体和模仿艺术家的作品。过去，大部分的防止不安全生成的努力都集中在训练数据清洗和有毒内容检测上。尽管如此，仍然可能通过视觉同义词或看似无害的prompt来引导它们的产生。为了更可靠地防御不安全的衍生生成，提高扩散模型潜在空间的可解释性将是有益的。本文尚未完全理解扩散模型潜在空间的语义结构。设计训练算法，将人类的伦理观念与扩散模型潜在空间对齐，将是一个有趣的方向。

限制。本文的工作有两个限制。首先，尽管本文的hard prompt反演算法在分析记忆化方面比现有的hard prompt调整方法更有效，但并不适用于所有的记忆化图像，特别是那些需要更多关键token才能触发的图像。在实践中，如果有一个示例的hard prompt可用，那将提供更强的证据。本文希望能够设计更稳定和有效的用于分析记忆化的hard prompt反演算法。第二，本文仅针对无条件和文本到图像扩散模型提供了安全性分析方法。还应对其他类型的条件模型以及相应的正则化方法进行更全面的调查。尽管存在这些限制，但本文相信本文的方法为开发者优化其模型提供了实用的安全性分析工具。

参考文献

[1] Could It Be Generated? Towards Practical Analysis of Memorization in Text-To-Image Diffusion Models

更多精彩内容，请关注公众号：AI生成未来

欢迎加群交流AIGC技术，添加小助手

总结

如何“正确“使用Stable Diffusion？文本到图像扩散模型中记忆化实用分析（浙大）

介绍

背景

Diffusion Model

条件 Diffusion Model

Text-To-Image Diffusion Model

记忆化的定义

图像复制的识别

方法论

实验设置

结果

触发记忆

方法论

实验设置

结果

测量记忆力

无条件 Model

测量

相关工作

图像生成模型中的记忆化

扩散模型中的反演技术

讨论和总结

参考文献