分分钟将图像转换成3D模型

译者 | 布加迪

审校 | 重楼

法国LIGM实验室的研究人员已开发了一种新颖的技术，可以由真实场景周围捕获的图像集合快速创建高度逼真的3D网格模型。他们的方法被称为SuGaR，通过以一种独特的方式采用神经表示和计算几何技术，可以在短短几分钟内重新构建详细的三角形网格模型。这项功能可以为创作者、教育工作者和专业人员提供一种更易于访问的途径，以便在许多应用环境充分利用3D模型。

本文将介绍这种方法的独特之处以及它对其他AI项目意味着什么。

3D重建的挑战

重建真实环境的准确3D模型长期以来一直是一项艰巨的任务，需要专门的设备、精心编排的捕获流程和大量的手动后期处理。激光扫描设备和结构光深相机可以直接捕获几何扫描，但仍存在缓慢、昂贵和笨重的缺点。

基于运动结构的摄影测量方法由相机图像生成稀疏的3D点云，但光由这些点云生成干净、详细的表面模型就非常困难了。虽然质量很出众，但最先进的神经辐射场即使在现代GPU上也需要持续数小时乃至数天的渲染密集型优化周期，才能将其体积场景表示转换成实用的表面网格。

因此，虽然模拟、教育、数字化和创意媒体等领域的许多下游用例都必然会从易于访问的高质量3D场景表示中受益匪浅，但对大多数人来说，捕获和开发方面仍面临极大的障碍。

新颖地结合技术

本文介绍了SuGaR方法。SuGaR方法将新兴的神经场景表示与传统的计算几何算法相结合，克服了这些挑战，并提供了一种独特的快速且易于访问的3D建模途径。

该技术立足于最近一种基于神经粒子的场景表示方法：3D高斯泼溅。通过优化上百万个微小的3D高斯基元的方向、尺寸、放射及其他属性，最准确地再现一组输入相机图像，高斯泼溅可以在短短几分钟内重建生动的场景神经渲染。

经过优化后，独立的高斯粒子仍然是非结构化的。SuGaR的关键创新在于引入了一种新的训练过程，该过程鼓励颗粒在保留细部的同时符合表面。这种对齐便于将粒子当成结构化的点云进行重建。

利用这种点结构，SuGaR随后执行一种名为泊松表面重建的计算技术，直接由对齐的粒子高效地生成网格。同时处理数百万个粒子会得到一个详细的三角模型，而这是传统技术难以实现的。

从本质上讲，SuGaR将大量的计算负载转移到一个快速的、可扩展的前端点云结构中。这将所需的渲染密集型工作负载由最终网格生成转移到别处，从而使快速构建模型成为可能。

验证效果

研究人员通过实验证明了SuGaR在广泛的公共数据集上快速构建高质量模型的效果，这些数据集涉及室内场景、室外景观、详细结构、镜面、照明变化及其他建模挑战。

图1. 使用SuGaR的渲染（a）和重新构建的网格（b）的两个示例。常规地图（c）有助于直观地显示几何形状

示例包括由Mip-NeRF360数据集重建复杂室内环境的建筑模型的详细网格，以及由Tank & Temples数据集生成车辆和建筑物等结构的生动网格。

与现有的最先进的神经和混合重建技术进行定量和定性比较表明，SuGaR提供了显著加快的网格创建速度，渲染质量和几何精度可以媲美所需计算资源多得多的方法。论文作者表示：“我们的方法在由3D高斯泼溅检索3D网格方面要快得多，而3D高斯泼溅本身就比NeRF快得多。正如我们的实验表明的那样，我们通过将高斯函数绑定到网格上所进行的渲染获得了比以前基于网格的解决方案更高的质量。”

论文作者还强调了其方法的速度：“使用我们的方法，检索这样一个可编辑的网格进行逼真的渲染只需几分钟，同时提供了更好的渲染质量，而使用SDF方面最先进的方法也需要数小时。”

结论

SuGaR技术显著改善了3D模型重建。像激光扫描这样的传统方法既昂贵又复杂，虽然神经辐射场具有高质量，但速度慢且耗费大量资源。SuGaR通过将神经场景表示与计算几何相结合改变了这种情况。它先使用一种名为3D高斯泼溅的方法来创建神经渲染，然后它对齐这些粒子，让其行为如同结构化的点云。这是下一步的关键：使用泊松表面重建将这些粒子转换成详细的网格。这个过程更快，因为它将繁重的计算移到了最开始。

SuGaR已经在各种数据集上进行了测试，可处理室内和室外场景等不同的挑战。它不仅比NeRF更快，还保持了高质量和准确性。这使得创建详细的3D模型更快速、更易于访问，这对于模拟、教育和媒体等领域的应用而言很了不起。

原文标题：Turning images into 3D models in minutes, not hours，作者：Mike Young