AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化！

文章目录

0 论文工作 1 论文方法 2 效果

0 论文工作

这篇论文提出了一种使用领域特定编码器来快速将文本到图像模型适配到新领域的方案。这种被称为基于编码器的领域微调 (E4T) 的方法，专注于微调一个轻量级编码器，将领域特定的文本提示投影到与预训练文本到图像模型更一致的空间中。通过利用预训练的文本到图像模型，EDT 避免了训练整个模型，从而显著减少了训练时间和资源消耗。
文本到图像个性化的目的是教一个预先训练过的扩散模型对用户提供的新颖概念进行推理，并将它们嵌入到自然语言提示引导下的新场景中。然而，目前的个性化方法面临着漫长的培训时间、高存储需求或身份丢失的问题。为了克服这些限制，论文提出了一种基于编码器的域调优方法。该方法的关键见解是，通过对来自给定领域的大量概念进行欠拟合，用以改进泛化，并创建一个更易于快速添加新概念的模型相同的域。具体来说，使用了两个组件：首先，一个编码器，它将来自给定域的目标概念的单一图像作为输入，一个特定的面孔，并学习将其映射到一个表示该概念的单词嵌入中。第二，一组针对文本到图像模型的规则化的权重偏移量，用来学习如何有效地摄取额外的概念。这些组件一起被用于指导对看不见的概念的学习，允许只使用一张图像和多达5个训练步骤来个性化一个模型——加速个性化化n从几十分钟到几秒，同时保持质量。
这个方法有点像一个lora加textual-inversion.严格来说这些方法都是需要用a100起步的显卡来微调。相比之下lora和controlnet显得更加友好，在3090系显卡上就能玩转。虽然作者说他们的速度快了，但是前提是依赖性能优越的显卡。
论文链接

1 论文方法

EDT 包含两个主要部分：
领域特定编码器：这是一个轻量级的神经网络，经过训练将领域特定的文本提示投影到共享的嵌入空间中。编码器学习表示领域特定的词汇和概念，捕捉目标领域的独特特征。
冻结的文本到图像模型：使用一个预训练的文本到图像模型（例如 Stable Diffusion），不做任何修改。编码器的输出被用作冻结模型的输入，允许模型根据领域特定编码的文本提示生成图像。
训练过程涉及微调领域特定编码器，以最小化编码的文本提示与冻结文本到图像模型中的对应潜在表示之间的差异。

该方法有效地适应了预先训练好的扩散模型（中间）来处理新的概念。训练了两个组件，一个单词嵌入编码器（左）和权重偏移量（右）。编码器的预测是扩散模型嵌入空间中的一种新代码，它最好地描述了输入概念。此外，优化学习的权重偏移，使文本到图像模型专门化到目标领域（例如，猫）。偏移量是学习到的常数，通过一个神经网络进行正则化。在培训期间，使用?0=??。其中??是从高斯先验，??不再是??的一个嘈杂版本。
实现：
论文展示了 E4T 的实际实现，并展示了其在各种领域（包括特定艺术风格、物体类别和视觉效果）上的有效性。该实现使用基于 Transformer 的编码器，并通过对比学习目标进行训练。
优点：
快速个性化：与传统微调方法相比，E4T 显著减少了训练时间，允许快速适应新领域。
资源高效：通过冻结文本到图像模型，E4T 需要更少的计算资源和数据。
领域特定适应性：领域特定编码器使模型能够捕捉目标领域的独特特征，从而实现更准确和相关的图像生成。
泛化性：编码器可以应用于各种领域和图像生成任务。
缺点：
控制有限：冻结的文本到图像模型限制了对生成过程的控制能力，只能捕捉到领域特定的词汇。