当前位置:AIGC资讯 > AIGC > 正文

Learning Multi-dimensional Human Preference for Text-to-Image Generation

Paper name

Learning Multi-dimensional Human Preference for Text-to-Image Generation

Paper Reading Note

Paper URL: https://arxiv.org/abs/2405.14705

Project URL: https://wangbohan97.github.io/MPS/

Code URL: https://github.com/Kwai-Kolors/MPS

TL;DR

2024 年快手提出的文生图评测方案,提出了多维度偏好评分(MPS),这是首个用于评估文本生成图像模型的多维度偏好评分模型。

Introduction

背景

“There are a thousand Hamlets in a thousand people’s eyes.” – Vissarion Belinsky

当前的文本生成图像模型的指标通常依赖于统计度量,这些度量不足以真实反映人类的偏好。 尽管最近的研究试图通过人工标注的图像来学习这些偏好,但它们将人类丰富的偏好简化为一个整体评分。然而,当人类从不同方面评估图像时,偏好结果会有所不同。 当人们从不同角度评估图像时,他们对图像的偏好也会有所不同。具体来说,当查看顶部行的图像时,尽管左侧的图像在美学吸引力方面表现突出,但在语义对齐(例如,河上的两艘船)方面却不如右侧的图像。在底部行的例子中,尽管两张图像在美学上都很吸引人,但右侧图像由于细节质量差(例如,被红色边框标注的扭曲的手和脚)而受到影响。

本文方案

为了学习多维度的人类偏好,我们提出了多维度偏好评分(MPS),这是首个用于评估文本生成图像模型的多维度偏好评分模型。 MPS 在 CLIP 模型上引入了偏好条件模块,以学习这些多样化的偏好。它基于我们的多维度人类偏好(MHP)数据集进行训练,该数据集包含 607,541 张图像上的 918,315 个关于 4 个维度(即美学、语义对齐、细节质量和整体评价)的人类偏好选择。这些图像由多种最新的文本生成图像模型生成。MPS 在 3 个数据集的 4 个维度上都优于现有的评分方法,使其成为评估和改进文本生成图像的有前景的指标。 主要贡献如下: 我们引入了多维度人类偏好(MHP)数据集,用于评估文本生成图像模型。MHP包含平衡的提示词和带有多维度标注的最大图像集合。基于MHP,我们提出了一个标准测试基准,用于评估现有的文本生成图像模型。 我们提出了MPS模型,它学习多维度人类偏好并在不同偏好条件下评估生成图像的分数。 我们的MPS在预测整体偏好和多维度偏好方面表现优于现有方法,在三个数据集上表现出色。

Methods

MHP 数据集

提示词收集与标注
多个数据库精心收集,包括 PromptHero、DiffusionDB 以及 KOLORSdataset (一个内部设计师平台衍生的内部数据集) 根据 parti 的分类架构,确定了 7 个类别,如下图所示。基于人工对最初收集的 59396 个提示词进行标注,筛选出异常的提示词,比如不连贯、难以理解或有标点错误的。筛选后剩余 52057 个提示词。另外通过 GPT4 增广缓解长尾分布问题,增广后有 66389 个提示词。
图像收集与标注
利用了 Diffusion 模型(如 Stable Diffusion 系列和 DeepFloyd IF)、GAN 和自回归模型,基于获得的提示词生成图像。每个模型为每个提示词生成 2-4 张图像。生成的图像来自各种模型架构,具有不同的图像分辨率(例如,512×512、1024×1024、1366×768)和纵横比(例如,1:1、16:9)。相同模型可能也会用不同随机种子生成多个图像。 人工标注对以上生成的图像进行评价:
美学:标注员应根据图像的构图、光影对比、色彩搭配、清晰度、色调、风格、景深、氛围和艺术性来衡量生成图像对的美学质量。 细节质量:标注员应关注图像细节的精细程度,例如纹理、毛发、光影是否存在角色的脸部、手和肢体扭曲,整体视图是否模糊、物体扭曲、严重变形等问题。 语义一致性:标注员应评估生成图像与提示词的语义一致性,评估内容包括生成图像是否准确匹配文本描述(例如,数量、属性、位置、位置关系)以及生成图像中是否存在缺失或冗余内容。 整体评估:基于上述各方面的组合和主观偏好,标注员从整体角度评估每张生成图像的质量。
统计数据
收集了 66,389 个提示词,并利用 9 个最新的文本生成图像模型生成了 607,541 张图像。构建了 918,315 对图像。值得注意的是,其中 20% 的图像对是使用相同模型但不同设置生成的,而其余 80% 是由不同模型生成的。 标注数据分为训练集、验证集和测试集。训练集和验证集分别包含 898,315 对和 10,000 对图像对,测试集包含 10,000 对图像对。

MPS 模型

MPS 模型架构
CLIP 提取图像和提示词、偏好条件的特征。 图像和提示词基于 cross attention 模块进行特征提取。 根据不同的偏好添加,提示词中的特定词语应得到更多的关注,比如当美学被考虑为一个条件时,提示词中与颜色、光线和清晰度相关的词语在计算分数时应更多地被考虑。因此,提出了条件掩码来突出相关的 tokens,同时抑制不相关的 tokens。
训练

我们的目标函数的输入包括我们的评分函数 MPS S ( x , y ∣ c ) S(x, y | c) S(x,y∣c)、提示词 x、两个生成的图像 y1、y2、偏好条件 c 和偏好分数(由人类标注) p,其中 p 取 [1, 0] 表示 y1 被偏好,[0, 1] 表示 y2 被偏好,或 [0.5, 0.5] 表示平局。按照之前的工作,训练目标最小化注释 p 与 softmax 归一化预测 p i , c ^ \hat{p_{i,c}} pi,c​^​ 之间的 KL 散度:

L P = ∑ c ∑ i = 1 2 p i , c ( log ⁡ p i , c − log ⁡ p i , c ^ ) L_P = \sum_{c} \sum_{i=1}^{2} p_{i,c} \left(\log p_{i,c} - \log \hat{p_{i,c}}\right) LP​=c∑​i=1∑2​pi,c​(logpi,c​−logpi,c​^​)

我们使用预训练的 CLIP-H 模型的参数初始化文本和视觉编码器 E t E_t Et​ 和 E v E_v Ev​,而其余参数则随机初始化。我们在 MHP 数据集上训练 MPS 30,000 步,批次大小为 128,学习率为 3e-6,并设置 500 步的预热期。

Experiments

评测设置

偏好条件设置
我们使用以下词集合来表示人类偏好:

美学: 光线、颜色、清晰度、色调、风格、氛围、艺术性。 细节质量: 形状、面部、头发、手、四肢、结构、实例、纹理。 语义对齐: 数量、属性、位置、数字、位置关系。 总体: 光线、颜色、清晰度、色调、风格、氛围、艺术性、形状、面部、头发、手、四肢、结构、实例、纹理、数量、属性、位置、数字、位置关系。

评估设置
我们选择了广泛使用的统计指标来评估文本生成图像模型,即 CLIP 分数和美学分数进行比较。此外,我们还选择了符合人类偏好的方法来评估文本生成图像模型,包括 Image Reward、HPS 和 PickScore。根据以往的工作,我们使用公开可用的预训练模型进行评估,而无需进行微调。

总体偏好准确性
MPS 在三个评测数据集上表现出更好的准确性
多维偏好准确性
CLIP 分数和美学分数关注特定类型的偏好,仅在某些偏好(例如语义对齐或美学)上表现良好。然而,与基于人类偏好训练的模型相比,它们在预测其他偏好方面表现不佳。 偏好模型通常在总体得分和某些其他维度上表现较好,但在某些特定偏好(例如细节)上的泛化能力不足。
偏好模型通常在总体得分和某些其他维度上表现较好,但在某些特定偏好(例如细节)上的泛化能力不足。我们在图 5 中揭示了这种泛化不佳的潜在原因。在图 5 的第一行和第二行中,评分函数仅与所训练的偏好(如语义对齐和总体得分)高度相关,但在其他偏好上表现不佳。需要注意的是,不同偏好的预测是基于相同的数据,只是标注的偏好不同。这表明并非所有偏好都强烈相关,这导致在一个偏好上的改进可能以牺牲其他偏好为代价。因此,仅学习单一得分不足以充分反映人类偏好的复杂性。相比之下,我们的 MPS 通过条件掩码从多个维度学习人类偏好,并在所有维度上保持了人类偏好的高度一致性,如图 5 第三行所示。
可视化
可视化了 MPS 在预测人类偏好时关注的图像和提示的注意力图。使用 GradCAM 和 fv,t 生成图像的注意力热图,利用 Mc 的值表示提示的注意力热图。
HPS 会根据具体的偏好条件关注提示和图像的不同区域。这归因于条件掩码,该掩码仅允许与偏好条件相关的提示词被图像关注。条件掩码确保模型使用不同的输入预测偏好,模型只需计算图像中的补丁与保留的部分提示之间的相似性即可确定最终得分。因此,条件掩码的选择性关注使得利用统一的模型来有效地预测多维偏好成为可能,即使某些偏好与其他偏好的相关性较弱。
消融实验
交叉注意力在 overall 上涨点明显,Mask 提升了各个偏好的性能,并且比单独训练每个偏好的单个模型性能更好

Thoughts

多维度偏好评分确实有应用场景 cross attention 和 mask 的 MPS 网络架构看起来挺合理的,用同一个模型同时在多个偏好维度进行评测,给每个偏好单独训练一个评估模型确实会不合理

总结

### 总结文章
**论文名称**:Learning Multi-dimensional Human Preference for Text-to-Image Generation
**发表年份**:2024年
**来源**:快手(链接:[Paper](https://arxiv.org/abs/2405.14705), [Project](https://wangbohan97.github.io/MPS/), [Code](https://github.com/Kwai-Kolors/MPS))
#### **TL;DR**
快手在2024年提出了一个新的文生图评测方案——多维度偏好评分(MPS),这是首个用于评估文本生成图像模型的多维度偏好评分模型。
#### **背景**
当前文本生成图像模型的评估主要依赖统计度量,但这些不足以真实反映人类的复杂偏好。尽管已有研究通过人工标注学习这些偏好,但这些研究通常将多样的人类偏好简化为单一评分,忽略了在不同维度(如美学、语义对齐、细节质量)上评估图像时的差异。
#### **本文方案**
为了解决上述问题,本文提出了多维度偏好评分(MPS)模型,主要贡献如下:
1. **多维度人类偏好(MHP)数据集**:包含607,541张图像上的918,315个关于四个维度(美学、语义对齐、细节质量和整体评价)的人类偏好选择。数据集基于多种最新的文本生成图像模型,并经过精心的人工标注。

2. **MPS模型**:在CLIP模型上引入偏好条件模块,学习并从不同偏好条件下评估生成图像的质地。MPS在三个数据集的四个维度上均优于现有评分方法。
#### **方法**
1. **MHP数据集的收集与标注**:通过多源数据库(如PromptHero、DiffusionDB)收集提示词,并通过人工标注和GPT4增广生成66,389个提示词,进而利用9种文本生成图像模型生成607,541张图像,构成918,315对图像进行比较标注。
2. **MPS模型**:基于CLIP特征提取,引入条件掩码突出与偏好条件相关的tokens(提示词中的词语)。使用交叉注意力模块结合图像和提示词来预测不同偏好条件下的评分,通过最大化人类标注对数据的预测能力进行优化。
#### **实验**
1. **总体偏好准确性**:MPS在三个评测数据集上评估总体偏好任务时表现优于现有模型。
2. **多维偏好准确性**:CLIP分数和美学分数等工具在特定偏好上表现良好,但在其他偏好上效果不佳。MPS通过条件掩码从多个维度学习人类偏好,并在所有维度上都表现出很好的一致性。
3. **可视化**:通过GradCAM和注意力机制可视化MPS在不同偏好条件下关注的图像和提示区域,展示了其对偏好条件的选择性关注。
4. **消融实验**:证明了交叉注意力和条件掩码的重要性,以及在单个模型中统一学习多维度偏好的优越性。
#### **思考**
多维度偏好评分对于评估和改进文本生成图像模型具有重要意义。本文提出的MPS模型结合交叉注意力和条件掩码,展示了在多个偏好维度上同时评估图像质量的潜力,为未来的研究提供了新思路。

更新时间 2024-09-23