一种新型的NeRF技术可以将视频转换成易于控制的3D模型

译者 | 布加迪

审校 | 重楼

由于人体运动的复杂性和外观在不同环境下的细微差异，由视频片段创建逼真的动画3D模型一直是计算机图形学领域面临的长期挑战。在过去，这个过程依赖成本高昂的劳动密集型技术，比如多摄像头装置和详细的手动建模，因而无法用于普通或低预算的应用系统。

为了解决这个问题，来自弗劳恩霍夫海因里希赫兹研究所的团队采用了一种新技术，通过使用神经辐射场（NeRF）来制作3D人体模型的动画。他们的方法可以直接由标准的RGB视频片段重建这些模型，因而不需要昂贵设备和大量人力。

这项技术向简化动画3D模型的创建迈出了一步，可能使其更唾手可得、对资源的需求更低。我们接下来将深入研究这种方法的细节，分析所生成动画的效果，并讨论这一进步对从业者和爱好者来说可能意味着什么。

追求逼真的数字人

创造逼真的数字人对于电影、视频游戏和虚拟会议非常有用。但是让这些数字人看起来逼真很困难。它们必须从每个角度、每个光线、每个姿势来看都没异样，否则看起来就会很假。

目前，制作这些数字替身需要大量的工作，需要用特殊的摄像头和设备扫描真实的人，这对大多数人来说太贵了，不切实际。

还有另一种方法，就是使用普通视频。然而视频是扁平的，我们失去了使事物看起来三维所需的深度。我们需要智能工具，可以计算出视频中的物体有多深或多远，使平面图像看起来就像真实的3D人。

最近我们在这方面做得更好了，新技术可以从单单一个摄像头角度猜测人的形状。但仍有很多地方有待改进。这些数字人常常看起来不太对劲——它们可能有点扭曲，或者行动不自然。真正的目标是让它们不仅看起来逼真，还以原始视频中没有的新方式来移动。

面向新视图合成的NeRF

神经辐射场（NeRF）是一项最新的技术，用于从不同的视角创建逼真的3D图像。它们的工作原理是使用算法来预测光线与场景的相互作用，从而使新图像看起来逼真，即使是从我们从未见过的角度。

NeRF已经成功地使静态图像看起来像现实生活中的场景。然而，用它们来创建人们移动和改变姿势的图像是比较棘手的问题。这是由于人及其移动很复杂，NeRF需要了解这种复杂性，才能创建清晰的画面。

针对移动对象训练NeRF的传统方法可能导致图像模糊。为了解决这个问题，研究人员提出了一种新方法。他们使用计算机生成的人体模型来帮助指导NeRF。这使得NeRF能够通过理解人体运动时的形状和形式来创建不同姿势的人的清晰精确的图像。这种方法是重要的一步，使NeRF能够很好地处理动态的实际内容（如人的运动）。

技术方法：表面对齐的NeRF

这项研究提出了一种名为表面对齐神经辐射场（UVH-NeRF）的技术，它概述了由视频片段生成详细的3D人体图像的过程。下面详细介绍了该方法：

图2. 网络架构图

1. 针对视频调整3D人体模型：第一步需要将3D人体模型与视频中的主题对齐。这为后续步骤建立了一个基础，提供的3D结构反映了整个视频序列中人的形状和运动。

2. 使NeRF适应人体几何图形：该方法通过以下方式修改了传统的NeRF空间：

将点投射到模型的表面上：它定位3D模型表面上与视频中位置相对应的点。这些点用于将2D图像的纹理映射到模型上。
计算到模型表面的距离：对于空间中的每个点，该技术计算其到模型表面的距离，这有助于确定该点相对于模型的位置（在模型内部、在模型表面上或在模型外部）。
结合关节运动：它使用骨骼关节数据来绘制模型动画，这有助于渲染不同姿势的人。

3. 用神经网络改进空间理解：神经网络被教会了微调这种空间转换，确保NeRF对空间的表示是准确的，并与人类模型保持一致。

进一步的详情包括如下：

保持一致的结构：该技术使用SMPL模型保持统一的结构，以准确地反映人在不同帧中的姿势。
转变NeRF的视角：这种方法改变了NeRF对空间的感知，以模仿人体的形式。不管人的动作如何，它都保持稳定。
创建姿势准确的渲染图：通过将骨骼数据集成到NeRF中，系统可以生成任何某个姿势的解剖学正确的图像。
纠正差异：神经映射模块针对模型或转换中的任何微小错误进行调整，确保对齐和一致性。

这些步骤最终允许NeRF以各种姿势和视角学习人体模型和制作动画，从而创建一个人的多功能动态的3D表示。这一进步为数字媒体、虚拟现实和其他需要高保真人类化身的领域的应用带来了巨大的希望。

结果

当你看图像时，左边是AI的猜测，右边是真实情况，你会发现它们非常接近。AI生成的人物摆出了正确的姿势，甚至衣服似乎也如同该有的那样折叠和起皱。好像AI有一双慧眼，能看到人们做事时衣服的运动方式。

但说实话，这并不完美。如果你眯眼睛，会看到那些失真的细节。AI在精细操作方面有些棘手——手指可能变得模糊，面部特征可能不准确。这与蜡像看起来怪怪的同一个道理，但对于一台仅用几帧就能生成这些图像的电脑来说，这仍然相当出彩。

这项技术大有前途。想想虚拟现实和增强现实，你想让人们看起来尽可能真实，而不必穿那些带着乒乓球的滑稽服装。

当然，在达到一流水平之前，它还有更多的工作要做，但即使这样，它也朝着让数字人畅游各种虚拟空间迈出了坚实的一步。

结论

本文研究的关键创新是成功地将神经辐射场应用于仅使用标准RGB视频片段的3D人体模型动画。这种方法大大简化了创造数字人这个传统的资源密集型过程——这通常需要复杂的摄像头装置和人力。通过证明NeRF可以针对动态内容（比如来自比较易于获取的视频的人体运动）加以调整，本文介绍了一种实用的方法，可以更广泛地应用于各个领域。

这一进步表明，该领域的未来发展可能便于更经济、更高效地生成数字人体模型，这可能会造福游戏、虚拟现实和电影等行业。虽然目前的方法有其局限性，特别是对于复杂的移动和较长的序列而言，但它为进一步的研究和改进奠定了基础。

从本质上讲，这项工作是朝着使人体模型数字化更唾手可得迈出的一步，为其应用范围由专业工作室扩大到个人创作者和小型制作团队提供了可能性。

原文标题：They found a new NeRF technique to turn videos into controllable 3D models，作者：Mike Young