AI研究也能借鉴印象派？这些栩栩如生的人竟然是3D模型

在 19 世纪，印象主义的艺术运动在绘画、雕塑、版画等艺术领域盛行，其特点是以「短小的、断断续续的笔触，几乎不传达形式」为特征，就是后来的印象派。简单来说印象派笔触未经修饰而显见，不追求形式的精准，模糊的也合理，其将光与色的科学观念引入到绘画之中，革新了传统固有色观念。

在 D3GA 中，作者的目标反其道而行之，是希望创建像照片般逼真的表现。在 D3GA 中，作者对高斯泼溅（Gaussian Splatting）进行创造性的运用，作为现代版的「段笔触」，来创造实时稳定的虚拟角色的结构和外观。

印象派画家莫奈代表作《日出・印象》。

对于虚拟形象的构建工作来说，创造驱动型（即可以生成动画新内容）的逼真人类形象目前需要密集的多视角数据，因为单目方法缺乏准确性。此外，现有的技术依赖于复杂的预处理，包括精确的 3D 配准。然而，获取这些配准需要迭代，很难集成到端到端的流程中去。而其它不需要准确配准的方法基于神经辐射场（NeRFs），通常对于实时渲染来说太慢，或者在服装动画方面存在困难。

Kerbl 等人在经典 Surface Splatting 渲染方法基础上引入了 3D Gaussian Splatting（3DGS）。与基于神经辐射场的最先进方法相比，这种方法在更快的帧率下呈现更高质量的图像，并且不需要任何高度准确的 3D 初始化。

但是，3DGS 是为静态场景设计的。并且已经有人提出基于时间条件的 Gaussian Splatting 可用来渲染动态场景，这些模型只能回放先前观察到的内容，所以不适用于表达新的或其未曾见过的运动。

在驱动型的神经辐射场的基础上，作者对 3D 的人类的外观及变形进行建模，将其放置在一个规范化的空间中，但使用 3D 高斯而不是辐射场。除性能更好以外，Gaussian Splatting 还不需要使用相机射线采样启发式方法。

剩下的问题是定义触发这些 cage 变形的信号。目前在驱动型的虚拟角色中的最新技术需要密集的输入信号，如 RGB-D 图像甚至是多摄像头，但这些方法可能不适用于传输带宽比较低的情况。在本研究中，作者采用基于人体姿势的更紧凑输入，包括以四元数形式的骨骼关节角度和 3D 面部关键点。

通过在九个高质量的多视图序列上训练个体特定的模型，涵盖各种身体形状、动作和服装（不仅限于贴身服装），以后我们就可以通过任何主体的新姿势对人物形象进行驱动了。

方法概览

论文链接：https://arxiv.org/pdf/2311.08581.pdf
项目链接：https://zielon.github.io/d3ga/

目前用于动态体积化虚拟角色的方法要么将点从变形空间映射到规范空间，要么仅依赖正向映射。基于反向映射的方法往往在规范空间中会累积误差，因为它们需要一个容易出错的反向传递，并且在建模视角相关效果时存在问题。

因此，作者决定采用仅正向映射的方法。D3GA 是基于 3DGS 的基础上通过神经表示和 cage 进行扩展，分别对虚拟角色的每个动态部分的颜色和几何形状进行建模。

D3GA 使用 3D 姿势 ϕ、面部嵌入 κ、视点 dk 和规范 cage v（以及自动解码的颜色特征 hi）来生成最终的渲染 C¯ 和辅助分割渲染 P¯。左侧的输入通过每个虚拟角色部分的三个网络（ΨMLP、ΠMLP、ΓMLP）进行处理，以生成 cage 位移∆v、高斯变形 bi、qi、si 以及颜色 / 透明度 ci、oi。

在 cage 变形将规范高斯变形后，通过方程式 9，它们被光栅化成最终的图像。

实验结果

D3GA 在 SSIM、PSNR 和感知度量 LPIPS 等指标上进行评估。表 1 显示，D3GA 在只使用 LBS 的方法中（即不需要为每个帧扫描 3D 数据）其在 PSNR 和 SSIM 上的表现是最佳的，并在这些指标中胜过所有 FFD 方法，仅次于 BD FFD，尽管其训练信号较差且没有测试图像（DVA 是使用所有 200 台摄像机进行测试的）。

定性比较显示，与其它最先进方法相比，D3GA 能更好地建模服装，特别是像裙子或运动裤这样的宽松服装 (图 4)。FFD 代表自由形变网格，其包含比 LBS 网格更丰富的训练信号 (图 9)。

与其基于体积方法相比，作者的方法可以将虚拟角色的服装分离出来，并且服装也是可驱动的。图 5 显示了每个单独的服装层，可以仅通过骨骼关节角度控制，而不需要特定的服装配准模块。