当前位置:AIGC资讯 > AIGC > 正文

AIGC论文阅读——[Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from Videos]

AIGC论文阅读——[Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from Videos]

论文地址:https://arxiv.org/abs/2207.11094
代码地址:https://github.com/filby89/spectre

前言(个人总结)

本文最主要的贡献是提出的loss约束【可重点查阅】,基于前人模型的基础上改进,分析不同loss对结果的影响效果,对于AIGC项目的训练很有启发。模型的解释较多,有利于后续自己训练分析。

目前3D重建存在的问题

1、嘴部区域的形状和运动的重建中的伪影通常很严重(它们与语音音频不能很好地匹配)
2、没有利用人类面部固有的丰富动态信息。即使是包括某种动态建模来重建面部视频的少数方法,也没有明确地模拟嘴部运动和清晰语音之间的强相关性。
3、大多数方法使用来自面部对齐方法预测的地标的弱二维监督作为指导形式,虽然这些标志可以对面部形状进行粗略估计,但它们无法准确表示高度变形的嘴部区域的表达细节。人类嘴巴的形状在感知上与语音相关,并且 3D 说话头部的真实感与说出的句子紧密相关。因此,3D 模型在发出双唇辅音(即 /m/、/p/ 和 /b/)时不会闭上嘴唇,或者在说出圆唇元音时不会嘴唇变圆(例如 /o/ /u/) 的感知自然度较差。

解决方法

本文目的

为了克服上述限制,提出了一种用于 3D 嘴巴表情的视觉语音感知感知重建的方法。对视频中说话的人进行准确的 3D 重建,保留人类认为与语音相对应的嘴部表情和动作。

方案

1、提出了第一种用于 3D 嘴巴表情的视觉语音感知感知重建的方法。
2、提出“唇读”损失,该损失指导拟合过程,以便从 3D 重建的说话头部引发的感知类似于原始视频片段的感知。与传统地标损失,甚至直接 3D 监督相比,唇读损失更适合嘴部运动的 3D 重建。此外,所设计的方法不依赖于任何文本转录或相应的音频,使其非常适合在未标记的数据集中进行训练。
3、进行了广泛的客观和主观(用户研究)评估,证明重建的头部的感知显着增加。我们还建议使用各种唇读指标作为重建 3D 头部中人类语音感知的客观评估。

设计方案

基于先前的两个框架

DECA:https://arxiv.org/pdf/2012.04012
EMOCA :https://arxiv.org/pdf/2204.11312

基于最先进的DECA框架,采用了DECA论文中的符号。给定一个输入图像I,一个粗编码器(一个ResNet50 CNN)共同预测识别参数β、颈部姿势和下巴θ、表达参数ψ、反照率α、光照I和相机(缩放和转换)c。(这些参数是FLAME 3D人脸模型参数的子集)之后,使用这些参数来渲染预测的3D人脸。DECA还包括一个细节编码器,该编码器预测了与紫外线位移图相关的潜在向量,该地图模拟了高频个人特定细节,如皱纹。

EMOCA进一步建立在DECA的基础上,增加了一个额外的表达编码器(ResNet50),用于预测表达向量ψ,从而使重建面部的感知情绪与原始图像相似。我们使用这两个作品作为起点,并专注于设计一个架构,该架构可以增加输入视频的感知表情,专注于嘴巴区域,从而实现逼真的发音运动。EMOCA 专注于保留图像中的情感信息,而本文的工作则专注于准确重建与语音产生相对应的嘴巴和嘴唇的形成。

参数集合

根据FLAME 3D人脸模型命名法,本文将估计参数分为两个不同的集合:

Rigid & Identity parameters

借用DECA的粗编码器(一个ResNet50 CNN)预测每个图像I的身份β、颈部姿势θ、反照率α、光照率l和相机c

Expression & Jaw parameters

与输入序列相对应的Expression ψ和Jaw pose θ参数由一个额外的“感知”CNN编码器来预测,这些参数明确地控制着FLAME框架下的嘴部表情和运动。采用了轻量级的MobileNet v2架构,但也在其输出中插入了一个时间卷积核,以便在输入序列中模拟嘴部运动和面部表情的时间动态,减少系统的计算开销。

Loss 约束

通过使用建议的损失集来学习一组适当的“方向”和“约束”

Perceptual Expression Loss

感知表达损失:感知编码器的输出与身份、反照率、相机和照明的预测一起使用,以便区分地渲染一系列纹理3D网格,这些网格对应于原始输入视频。然后,将输入视频和重建的3D网格输入到情感识别网络(借用EMOCA)中,并获得两个特征向量序列。然后,我们通过尝试最小化两个特征向量序列之间的距离来应用感知表达损失Lem。

即使情绪识别网络被训练来预测情绪,它也可以忠实地保留一组有用的面部特征。因此,这样的损失负责学习一般的面部表情,能够模拟情绪,从而促进衍生重建的真实感。值得注意的是,这种损失对眼睛产生了积极的影响,导致对闭眼、皱眉动作等的更忠实的估计。

Perceptual Lip Movements Loss

感知嘴唇运动损失:感知表达损失不能保留有关嘴部的足够详细信息,因此,需要额外的与嘴部有关的丧失。我们不是只依赖使用2D地标进行弱监督的几何损失,而是使用额外的感知损失,指导输出颚和表情系数来捕捉嘴部运动的复杂性。在提取的2D地标中检测到的不准确性进一步突出了这种感知嘴巴导向损失的必要性。
使用了在LRS3 (Lip Reading in the Wild 3)数据集上训练过的网络,如下图**【在这里可以尝试替换成syncnet模型看一下效果如何】**

它将嘴巴周围裁剪的灰度图像作为输入序列,并输出预测的字符序列。该网络使用连接时间分类(Connectionist Temporal Classification, CTC)损失和注意力相结合的方法进行了训练。模型架构包括一个3D卷积核,随后是一个2D ResNet18,一个12层的共形器,最后是一个输出预测序列的变压器解码器层。
目标:
最小化原始图像序列和输出图像序列之间语音感知运动的感知距离。为此,我们采用可微分渲染的图像序列,然后使用预测的路标在嘴部区域周围裁剪它们。最后,我们从唇读网络的2D ResNet-18的输出中计算相应的特征向量 。通过经验发现,CNN输出的特征更好地模拟了口腔的空间结构,而共形器输出的特征在很大程度上受到序列上下文的影响,并没有保留这种急需的空间结构。在计算特征向量之后,我们将输入图像序列和输出渲染序列之间的感知唇读损失最小化,其中d是余弦距离,K是输入序列的长度。

初始实验包括基于现有唇读网络预测输出的CTC损失的显式唇读损失,给定句子的原始转录。尽管直观直观,但除了需要视频转录外,这种方法还有主要的缺点。首先,它有很大的计算开销,因为整个句子应该马上处理。相比之下,所提出的方法只是对连续帧的子集进行采样,并尝试最小化提取的嘴部相关特征。

Geometric Constraints

几何约束:由于渲染图像和原始图像之间的域不匹配,尽管感知损失有助于保留感知的高级信息,但在某些情况下它们也容易产生伪影。这是可以预料到的;感知损失依赖于预训练的特定于任务的cnn,这些cnn不能以任何方式保证输入流形与真实图像相对应。

通过实施以下几何约束来指导训练过程:
我们通过对初始预测DECA参数的L2范数进行惩罚来正则化表达式和下颌参数:

使用这样的正则化方案,我们间接地强加了一些由DECA及其训练过程硬编码的约束。我们还在3D模型的鼻子、面部轮廓和眼睛的地标与图像之间应用L1损失。

对于口腔区域,我们在口腔标志的内部距离之间采用了更宽松的L2相对损失。上述地标损失包括根据重建面部的预测2D地标与原始图像的2D地标之间的距离明确施加几何损失的替代方案。这种直接的损失可能导致错误的重建,正如补充材料中的消融研究所强调的那样,因为感知损失和2D地标损失通常是相互矛盾的。使用提出的相对地标损失版本可以保留急需的面部几何结构,而无需过于严格的限制感知损失的约束。
最后,用于训练的总损失,为

其中Lc包含前面所述的几何约束。

实验

客观结果

重建的3D面部表情与相应的真实情况之间的差异可能由与人的身份相对应的误差主导,使用几何标准进行评估不一定与人类对表情和嘴部运动的感知不相关。因此,我们通过在输出的渲染图像上应用预训练的唇读网络,客观地评估唇读度量的方法。

为了消除偏差,我们使用了与用于lipread损失的lipread模型不同的架构和预训练的lipread模型进行评估, AV-HuBERT。
我们报告了以下指标:
字符错误率(CER)和单词错误率(WER),以及Viseme错误率(VER)和Viseme-Word错误率(VWER),通过使用Amazon Polly音素到Viseme映射将预测和基本真实转录转换为Viseme获得[1]。结果如表1所示。与其他方法相比,我们的方法在LRS3测试集以及TCDTIMIT和MEAD的跨数据评估中获得了更低的CER、WER和VER分数。在同一表中,我们还包括原始视频片段的结果,这些结果展示了所使用的唇读系统的“域间隙问题”(关于这方面的更多信息请参见讨论部分):预训练的模型已经被训练到初始图像,而没有渲染过程引入的可能的视觉退化。尽管如此,我们的方法通过正确编码语音感知特征,尽管缺少舌头和牙齿等关键特征,但仍显着提高了唇读性能。

主观结果

为了评估人类3D重建面部的真实感和感知,设计并进行了两项网络用户研究。为了减轻在LRS3训练集上训练并向用户展示来自其测试集的视频可能产生的任何数据集内偏差,对于这些研究,我们仅使用了来自MEAD和TCD-TIMIT数据集的视频。

第一项研究:发音的真实性对于这项研究,选择了一种偏好测试设计,通过向用户展示3D重建的面部配对,以及原始镜头,并要求他们在嘴部运动和发音方面选择最真实的一个。
创建了一个问题数据库由来自MEAD数据集的30个视频组成(21个是每个强度和情绪水平的情感视频,9个是中性的),以及来自TCD-TIMIT数据集的10个视频,并使用前面提到的5种方法(DAD, DECA, EMOCA, 3DDFAv2和我们的)进行3D重建。然后,向用户展示了两个随机排序的重建面部,每个都与原始镜头并列,并要求用户在嘴部运动和发音方面选择最逼真的面部。每个用户从数据库中随机抽取了28个问题(每对7个问题——我们的vs其他的),总共有34个用户完成了这项研究。本次研究的结果如表2所示。我们可以看到,我们的方法明显优于所有其他方法(使用二项检验p < 0.01,使用Bonferroni方法进行多重比较调整)。3DDFAv2[29]是最不受欢迎的方法,其次是DECA和EMOCA。结果清楚地强调了从语音感知角度提出的方法的重要性,以及人类如何更好地感知重建的口腔运动。

第二项研究:唇读在第二项研究中,研究人员向用户(与第一项研究相比,这组参与者是分开的)展示了一段静音视频,视频中一个人在用一种比较方法重建的3D说话头的形式说一个特定的单词,然后要求他们读唇读从4个不同的选项中找出要说的是哪个单词(多项选择)。为此,我们从MEAD和TCD-TIMIT数据集中裁剪了40个单个单词,涵盖了不同的唇形,并向每个用户提供了30个单词的随机子集(每个问卷中每种方法6个单词)。总共有31位用户完成了这项研究。分类结果如表b所示。有趣的是,我们的方法获得了与EMOCA和DAD相似的分数,尽管EMOCA并没有明确地对嘴颌进行建模。这表明,尽管我们的方法在发音方面明显更加真实,但正如第一个用户研究所支持的那样,在某些情况下,人类无法正确识别单词,甚至在半错误发音的情况下,例如EMOCA中不切实际的夸张,足以区分特定的单词。补充材料中提供了带有视觉示例的每个单词分析。尽管准确率较低,但我们的系统在非专家执行唇读的挑战性任务中似乎略微优于比较的SoTA方法。

消融实验

我们展示了有和没有地标几何约束的网络训练结果。我们可以看到,在某些情况下,完全去除几何约束并仅使用感知损失进行训练会导致眼睛,鼻子和嘴巴形状周围的伪像。

讨论总结

牙齿和舌头的缺失也很重要,因为它们作为肺泡和牙辅音起着很大的作用。
感知损失假设原始图像和渲染图像属于同一个视觉“域”。尽管如此,这两个特征空间之间确实存在现实主义/领域差距,可能导致不一致;这就是为什么我们需要有相对的地标。因此,地标的丢失和唇读的丢失有时会相互竞争:一方面,唇读试图提高说话头的感知,而地标,如果检测不准确往往会降低真实感。
另一方面,我们观察到,从阈值及更低的角度来看,唇读损失的减少往往会产生伪影;这就是为什么我们需要地标的约束来保留面部形状的真实感。此外,尽管我们的方法包括借用EMOCA的损失,但为了保留嘴外(例如眼睛)的面部表情,由于它仅在LRS3数据集(不包括情绪样本)上进行训练,因此在某些情况下,结果往往不包括EMOCA中存在的情绪强度。此外,请注意,虽然DECA和EMOCA通过计算详细的UV位移图来进行详细的细化,该位移图模拟了人的具体细节,如皱纹,但我们的方法不包括这一步。最后,虽然正如我们已经说过的,我们的方法不需要文本转录或音频,但我们相信,如果数据集中存在这些模式,可以利用它们来提高总体感知。

结论
我们提出了第一种3D说话头的视觉语音感知重建方法。我们的方法不依赖于文本转录或音频;相反,我们采用了一种“唇读”损失,它指导训练过程,以增加对嘴的感知。我们广泛的主观和客观评估已经证实,3D重建的结果明显优于仅依赖于嘴部运动的几何损失的对应方法,以及使用直接3D监督的方法。我们相信,我们已经朝着重建真正逼真的说话头迈出了重要的一步,我们不仅关注事物的纯粹基于几何的方面,而且还关注人类的感知。

模型效果

true_grid

更新时间 2024-06-05