AIGC前沿 | LivePortrait

0. 资源链接

论文超链接: LivePortrait

项目: https://github.com/KwaiVGI/LivePortrait

1. 背景动机

现有AIGC存在的问题

随着智能手机和其他录制设备的普及，人们越来越频繁地捕捉静态肖像来记录珍贵而美好的时刻，但这些静态图像缺乏动态表现力和实时互动性。

尽管基于生成对抗网络（GANs）和扩散模型等先进技术的肖像动画方法已经能够将静态肖像转化为动态视频，但这些方法在计算效率和对细节（如眼睛和嘴唇动作）的精确控制方面仍存在局限。

为了解决这些问题，并满足实时应用场景的需求

本论文研究者们探索了一种新的视频驱动肖像动画框架LivePortrait，旨在实现更高效的计算性能和更精细的动画控制能力。

2. 内容提要

研究背景与目标：论文提出了LivePortrait，这是一个高效的视频驱动肖像动画框架，旨在从单张静态源图像中生成逼真且具有表现力的视频。与依赖于特定录制设备的iPhone Live Photos功能不同，LivePortrait利用深度学习技术，特别是基于隐式关键点的方法，以实现无需额外录制设备的高质量动画效果。研究的主要目标是在保持高推理效率和精确控制的同时，提高动画的现实感和表现力。

方法论与创新点：该框架通过扩展训练数据集至约6900万高质量帧，采用混合图像-视频训练策略，并升级网络架构来增强模型的泛化能力和表达性。LivePortrait的一个关键创新是设计了紧凑的隐式关键点来有效表示一种隐式混合形状，并通过小型多层感知器（MLP）网络实现对眼睛和嘴唇动作的精细控制，这些控制模块的计算开销可以忽略不计。此外，该框架还包括一个拼接模块，用于无缝地将动画合成回原始图像空间，处理更大的图像尺寸和多人图像。

实验结果与应用前景：实验结果表明，LivePortrait在生成速度和质量上均优于现有的基于扩散的方法。该模型在RTX 4090 GPU上的推理速度达到12.8毫秒，能够实时生成高质量的肖像动画。论文还探讨了LivePortrait在视频会议、社交媒体和娱乐等不同场景下的应用潜力，展示了其在音频驱动的肖像动画和动物动画中的泛化能力。此外，论文讨论了技术的社会风险，包括深度伪造（deepfakes）的潜在滥用，并强调了制定伦理指南和负责任使用实践的重要性。

3. 技术细节

3.1 前置知识

Face Vid2vid框架：

Face Vid2vid利用从驱动视频序列中提取的运动特征来为静态肖像图像制作动画。

该框架由几个关键组件构成，包括外观特征提取器(F)、规范隐式关键点检测器(L)、头部姿态估计网络(H)、表情变形估计网络(Δ)、变形场估计器(W)和生成器(G)。

工作流程：

外观特征提取器(F)：将源图像映射到一个3D外观特征体积。

规范隐式关键点检测器(L)：检测源图像的规范隐式关键点。

头部姿态和表情变形：通过头部姿态估计网络(H)和表情变形估计网络(Δ)来确定。

变形场估计器(W)：利用隐式关键点表示生成一个变形场，并使用这个场来变形源特征体积。

生成器(G)：将变形后的特征通过解码器转换成图像空间，生成目标图像。

关键点转换：

源和驱动的3D隐式关键点通过特定的转换公式进行变换，包括考虑姿态、表情变形和平移。

训练和优化：

在第一阶段的训练中，模型的所有组件从零开始进行训练，以优化整体性能。

贡献和改进：

作者在Face Vid2vid的基础上进行了一系列的改进，包括使用更高质量的数据集、混合图像和视频的训练策略、升级网络架构、可扩展的运动转换、以及设计了地标引导的隐式关键点优化和级联损失项，这些都显著提高了模型的动画表达力和泛化能力。

这一节为读者提供了对现有技术的深入了解，并为理解LivePortrait框架的创新之处奠定了基础。通过这些初步知识，读者可以更好地把握LivePortrait如何在现有技术的基础上进行改进和扩展，以实现更高效和可控的肖像动画生成。

3.2 基础模型训练的目标

基础模型训练旨在构建一个强大的隐式关键点基础的视频驱动肖像动画框架，该框架能够显著提高生成质量和动画的泛化能力。

训练策略和方法：

高质量数据筛选：使用公共视频数据集（如Voxceleb、MEAD、RAVDESS）和风格化图像数据集（如AAHQ），以及大量的4K分辨率肖像视频和脸部谈话视频。

混合图像和视频训练：由于风格化肖像视频稀缺，而高质量风格化肖像图像更丰富，作者将单图像视为一帧视频进行训练，以提高模型对风格化肖像的泛化能力。

升级网络架构：将原模型中的多个网络组件统一为单一模型M，使用ConvNeXt-V2-Tiny作为主干网络，直接预测输入图像的规范关键点、头部姿态和表情变形。

可扩展的运动转换：引入尺度因子到运动转换中，以解决原始模型中忽略尺度因子的问题。

地标引导的隐式关键点优化：使用2D地标作为引导，优化隐式关键点的学习，以更好地捕捉微妙的面部表情。

级联损失项：使用一系列损失函数，包括隐式关键点等变性损失、关键点先验损失、头部姿态损失、变形先验损失，以及感知损失和GAN损失，以提高动画的纹理质量和身份保持。

训练过程：

模型在第一阶段从零开始全面训练，使用8个NVIDIA A100 GPU进行大约10天的训练。

训练结果：

通过这些训练策略和方法，基础模型在表达性和泛化能力上得到了显著提升，为后续的拼接和重定向模块训练奠定了基础。

意义和贡献：

这个阶段的训练是实现LivePortrait框架高效性和可控性的关键步骤，为生成逼真且具有表现力的肖像动画提供了坚实的基础

3.3 拼接（Stitching）和重定向（Retargeting）模块的开发和优化

拼接（Stitching）模块：

目的：拼接模块的目的是将动画后的肖像无缝地贴回到原始图像空间，例如在肩部区域避免像素错位。这允许处理更大的图像尺寸和同时动画化多张面孔。

实现：在训练过程中，拼接模块接收源图像和驱动图像的隐式关键点作为输入，并估算出驱动关键点的变形偏移量。然后，使用这个偏移量更新驱动关键点，并生成预测图像。

重定向（Retargeting）模块：

眼睛重定向模块：设计用于解决跨身份再现（cross-id reenactment）时眼睛闭合不完整的问题，特别是当小眼睛的人驱动大眼着的人时。

嘴唇重定向模块：设计原理与眼睛重定向模块类似，确保输入时嘴唇处于闭合状态，以便于更好的动画驱动。

训练策略：

在第二阶段的训练中，基础模型的其他参数保持冻结，只优化拼接和重定向模块。这使得计算开销保持在可忽略的水平。

使用小型多层感知器（MLP）网络来实现重定向，因为它们具有足够的能力来学习所需的控制效果，同时保持计算效率。

损失函数：

拼接损失：包括一致性像素损失和L1范数正则化，确保拼接后的图像与原始图像在肩部区域的一致性，同时控制变形偏移量的平滑度。

眼睛和嘴唇重定向损失：包括预测图像与自重建图像之间的差异，条件控制损失，以及正则化项，确保重定向的准确性和平滑性。

训练过程：

拼接和重定向模块的训练在第一阶段训练完成后进行，只训练这些模块，而其他模块的参数保持不变。

意义和贡献：

通过引入拼接和重定向模块，LivePortrait框架不仅提高了对动画的控制能力，还保持了高效的计算性能。这些模块使得模型能够更好地处理复杂的动画任务，如多人物肖像动画和不同风格肖像的动画化。

3.4 推理

推理流程概述：

推理阶段是模型将源图像和驱动视频序列转换成动画输出的过程。这一过程包括特征提取、关键点转换、拼接和重定向模块的应用，以及最终图像的生成。

推理步骤：

特征提取：首先从源图像中提取特征体积 fs 和规范隐式关键点 xc,s。

运动提取：对于驱动视频序列的每一帧，提取运动参数 sd,i、δd,i、td,i 和头部姿态 Rd,i。

关键点转换：根据源图像和驱动视频的参数，转换源和驱动隐式关键点 xs 和 xd,i。

拼接和重定向：根据需要，应用拼接模块和眼睛及嘴唇重定向模块。这些模块可以根据指示变量 αst、αeyes 和 αlip 来决定是否激活相应的功能。

图像生成：最终，使用变形网络 W 和解码器 D 生成预测图像 Ip,i。

推理算法描述（Algorithm 1）：

算法1详细说明了推理过程，包括输入输出定义、是否应用拼接和重定向的逻辑判断，以及最终图像的生成步骤。

推理时的关键点：

在推理时，模型可以根据指示变量来选择性地应用拼接和重定向模块，这提供了灵活性以适应不同的应用场景。

眼睛和嘴唇的重定向偏移量 ∆eyes,i 和 ∆lip,i 可以独立地添加到驱动关键点上，这允许对特定面部特征进行精细控制。

推理效率：

论文指出，LivePortrait模型在RTX 4090 GPU上的推理速度达到了12.8毫秒，这表明模型具有高效的推理能力，适合实时应用。

应用场景：

推理阶段的设计使得LivePortrait模型能够适用于多种场景，包括视频会议、社交媒体、娱乐以及音频驱动的角色动画等。

3.5 实验

1. 实验部分首先概述了实现细节、基线比较和评估基准，然后展示了在自我重演和跨重演方面的实验结果，并进行了消融研究以验证提出的拼接和重定向模块的有效性。

2. 作者使用峰值信噪比（PSNR）、结构相似性指数（SSIM）、学习感知图像补丁相似性（LPIPS）、L1距离、FID、平均表情距离（AED）、平均姿势距离（APD）和眼球方向的平均角度误差（MAE）等指标来衡量动画结果的生成质量和运动准确性。

3. 通过定性和定量的比较，实验结果表明LivePortrait模型在保持源肖像身份的同时，能够准确传递嘴唇动作和眼神，并且在处理大姿势和多人物输入时表现出更好的稳定性和动画质量，超越了其他基于扩散和非基于扩散的方法。

4. 一些思考

算法优化与实时性：

LivePortrait模型的高效推理速度展示了深度学习在实时应用中的潜力。核心思考点在于如何进一步优化模型结构和计算过程，以实现在更受限的硬件设备上也能流畅运行，这对于推动技术在移动平台和实时系统中的普及至关重要。

跨模态学习与泛化能力：

模型能够处理不同风格和种类的图像，这表明跨模态学习在提升模型泛化能力方面的巨大潜力。思考如何通过算法改进和数据增强策略，使模型能够更好地理解和适应多样化的输入，是提升人工智能系统智能性的关键。

技术创新与伦理平衡：

肖像动画技术在带来创新应用的同时，也引发了关于技术滥用的伦理问题。核心思考是如何在技术创新和伦理标准之间找到平衡点，确保技术进步不会对社会造成负面影响，这包括制定有效的监管政策和技术防护措施。

总结

### 文章总结
**论文背景与动机**
本文提出了一种名为LivePortrait的高效视频驱动肖像动画框架，旨在解决现有AIGC技术中静态图像缺乏动态表现力和实时互动性的问题。尽管GANs和扩散模型等技术能将静态肖像转化为动态视频，但这些方法在计算效率和控制细节上仍存在局限。因此，LivePortrait框架应运而生，旨在进一步提升计算效率和动画控制精度。
**研究内容与创新点**
- **高效与精确**：LivePortrait利用深度学习技术，特别是隐式关键点方法，实现对静态图像的动画转换，无需额外录制设备。通过混合图像-视频训练策略和升级网络架构，LivePortrait显著提高了生成效率和动画质量。
- **精细控制**：该框架设计紧凑隐式关键点以有效表示混合形状，并利用小型MLP网络实现对眼睛和嘴唇动作的精细控制。这些控制模块在保持计算效率的同时，提供了强大的细节控制能力。
- **广泛适用**：LivePortrait还包括拼接模块，支持处理较大图像尺寸和多人图像。重定向模块则解决了跨身份再现时特定面部特征的匹配问题，进一步提升了动画的真实性。
**技术细节**
- **Face Vid2vid框架基础**：LivePortrait基于Face Vid2vid进行了多项优化改进，包括高质量数据筛选、混合训练策略、网络架构升级、可扩展的运动转换、隐式关键点优化和级联损失项设计等。
- **训练与优化**：通过全面训练和逐步优化，尤其是针对拼接和重定向模块的针对性训练，提升了模型的整体性能和泛化能力。
- **推理与应用**：模型在推理阶段具备高效性和灵活性，可以适用于视频会议、社交媒体、娱乐等多种场景，且能够实时生成高质量的肖像动画。
- **实验验证**：实验结果表明，在多项评估指标上，LivePortrait均优于现有技术，展现了其卓越的生成质量和运动准确性。
**思考与展望**
- **算法优化**：未来研究可进一步探索模型结构和计算过程的优化，以实现更高效的实时处理能力，适应更广泛的硬件环境。
- **跨模态学习与泛化**：提高模型的跨模态学习能力，通过数据增强和算法改进，使模型能理解并生成多样化的动画效果。
- **技术创新与伦理平衡**：在推动技术发展的同时，应关注其潜在的伦理问题，制定相应的监管政策和技术防护措施，确保技术合理合法使用。
LivePortrait框架的研究不仅推动了肖像动画技术的发展，也为实时互动媒体和虚拟现实等领域提供了新的解决方案和应用前景。