当前位置:AIGC资讯 > AIGC > 正文

不止3D高斯!最新综述一览最先进的3D重建技术

本文经自动驾驶之心公众号授权转载,转载请联系出处。

写在前面&笔者的个人理解

基于图像的3D重建是一项具有挑战性的任务,涉及从一组输入图像推断目标或场景的3D形状。基于学习的方法因其直接估计3D形状的能力而受到关注。这篇综述论文的重点是最先进的3D重建技术,包括生成新颖的、看不见的视图。概述了高斯飞溅方法的最新发展,包括输入类型、模型结构、输出表示和训练策略。还讨论了尚未解决的挑战和未来的方向。鉴于该领域的快速进展以及增强3D重建方法的众多机会,对算法进行全面检查似乎至关重要。因此,本研究对高斯散射的最新进展进行了全面的概述。

(大拇指往上滑,点击最上方的卡片关注我,整个操作只会花你 1.328 秒,然后带走未来、所有、免费的干货,万一有内容对您有帮助呢~)

三维重建与新视图合成入门

3D重建和NVS是计算机图形学中两个密切相关的领域,旨在捕捉和渲染物理场景的逼真3D表示。3D重建涉及从通常从不同视点捕获的一系列2D图像中提取几何和外观信息。尽管有许多用于3D扫描的技术,但这种对不同2D图像的捕捉是收集关于3D环境的信息的非常简单且计算成本低廉的方式。然后,这些信息可以用于创建场景的3D模型,该3D模型可以用于各种目的,例如虚拟现实(VR)应用、增强现实(AR)覆盖或计算机辅助设计(CAD)建模。

另一方面,NVS专注于从先前获取的3D模型生成场景的新2D视图。这允许从任何期望的视点创建场景的逼真图像,即使原始图像不是从那个角度拍摄的。深度学习的最新进展导致了3D重建和NVS的显著改进。深度学习模型可用于有效地从图像中提取3D几何结构和外观,此类模型也可用于从3D模型中生成逼真的新颖视图。因此,这些技术在各种应用中越来越受欢迎,预计它们在未来将发挥更重要的作用。

本节将介绍如何存储或表示3D数据,然后介绍用于该任务的最常用的公开数据集,然后将扩展各种算法,主要关注高斯飞溅。

3D数据表示

三维数据的复杂空间性质,包括体积维度,提供了目标和环境的详细表示。这对于在各个研究领域创建沉浸式模拟和精确模型至关重要。三维数据的多维结构允许结合深度、宽度和高度,从而在建筑设计和医学成像技术等学科中取得重大进步。

数据表示的选择在众多3D深度学习系统的设计中起着至关重要的作用。点云缺乏网格状结构,通常不能直接进行卷积。另一方面,以网格状结构为特征的体素表示通常会产生高的计算内存需求。

3D表示的演变伴随着3D数据或模型的存储方式。最常用的3D数据表示可以分为传统方法和新颖方法。

Traditional Approaches:

  • Point cloud
  • Mesh
  • Voxel

Novel Approaches:

  • Neural Network/Multi layer perceptron (MLP)
  • Gaussian Splats

数据集

三维重建与NVS技术

为了评估该领域的当前进展,进行了一项文献研究,确定并仔细审查了相关的学术著作。分析特别集中在两个关键领域:三维重建和NVS。从多个相机图像进行3D体积重建的发展跨越了几十年,在计算机图形学、机器人和医学成像中有着不同的应用。下一部分将探讨该技术的现状。

摄影测量:自20世纪80年代以来,出现了先进的摄影测量和立体视觉技术,自动识别立体图像对中的对应点。摄影测量是一种将摄影和计算机视觉相结合来生成物体或场景的3D模型的方法。它需要从各种角度捕捉图像,利用Agisoft Metashape等软件来估计相机位置并生成点云。该点云随后被转换为有纹理的3D网格,从而能够创建重建目标或场景的详细和照片级真实感可视化。

Structure from motion:在20世纪90年代,SFM技术获得了突出地位,能够从2D图像序列中重建3D结构和相机运动。SFM是从一组2D图像中估计场景的3D结构的过程。SFM需要图像之间的点相关性。通过匹配特征或跟踪多个图像中的点来找到对应的点,并进行三角测量以找到3D位置。

深度学习:近年来,深度学习技术,特别是卷积神经网络(CNNs)得到了融合。基于深度学习的方法在三维重建中加快了步伐。最值得注意的是3D占用网络,这是一种为3D场景理解和重建而设计的神经网络架构。它通过将3D空间划分为小的体积单元或体素来操作,每个体素表示它是包含目标还是为空空间。这些网络使用深度学习技术,如3D卷积神经网络,来预测体素占用率,使其对机器人、自动驾驶汽车、增强现实和3D场景重建等应用具有价值。这些网络在很大程度上依赖于卷积和变换器。它们对于避免碰撞、路径规划和与物理世界的实时交互等任务至关重要。此外,3D占用网络可以估计不确定性,但在处理动态或复杂场景时可能存在计算限制。神经网络架构的进步不断提高其准确性和效率。

神经辐射场:NeRF于2020年推出,它将神经网络与经典的三维重建原理相结合,在计算机视觉和图形学中引起了显著关注。它通过建模体积函数、通过神经网络预测颜色和密度来重建详细的3D场景。NeRFs在计算机图形学和虚拟现实中得到了广泛应用。最近,NeRF通过广泛的研究提高了准确性和效率。最近的研究还探讨了NeRF在水下场景中的适用性。虽然提供3D场景几何的鲁棒表示,但计算需求等挑战仍然存在。未来的NeRF研究需要专注于可解释性、实时渲染、新颖的应用程序和可扩展性,为虚拟现实、游戏和机器人技术开辟道路。

高斯散射:最后,在2023年,3D高斯散射作为一种新的实时3D渲染技术出现了。在下一节中,将详细讨论这种方法。

GAUSSIAN SPLATTING的基础

高斯飞溅使用许多3D高斯或粒子来描绘3D场景,每个高斯或粒子都配有位置、方向、比例、不透明度和颜色信息。若要渲染这些粒子,请将其转换为二维空间,并对其进行战略性组织以实现最佳渲染。

图4显示了高斯飞溅算法的体系结构。在原始算法中,采取了以下步骤:

  • Structure from motion
  • Convert to gaussian splats
  • Training
  • Differentiable Gaussian rasterization

STATE OF ART

在接下来的两节中,将探索高斯飞溅的各种应用和进步,深入研究其在自动驾驶、化身、压缩、扩散、动力学和变形、编辑、基于文本的生成、网格提取和物理、正则化和优化、渲染、稀疏表示以及同时定位和映射(SLAM)等领域的不同实现。将对每个子类别进行检查,以深入了解高斯飞溅方法在应对特定挑战和在这些不同领域取得显著进展方面的多用途。图5显示了所有方法的完整列表。

FUNCTIONAL ADVANCEMENTS

本节考察了自首次引入高斯飞溅算法以来在功能能力方面取得的进展。

动态及变形

与一般的高斯飞溅相比,其中3D协方差矩阵的所有参数仅取决于输入图像,在这种情况下,为了捕捉飞溅随时间的动态,一些参数取决于时间或时间步长。例如,位置取决于时间步长或帧。该位置可以由下一帧以时间一致的方式更新。还可以学习一些潜在的编码,这些编码可以用于在渲染期间的每个时间步长中编辑或传播高斯,以实现某些效果,如化身中的表情变化,以及向非刚体施加力。图6显示了一些基于动力学和变形的方法。

动态和可变形模型可以很容易地通过对原始高斯飞溅表示的轻微修改来表示:

Motion and Tracking

大多数与动态高斯飞溅相关的工作都扩展到跨时间步长的3D高斯运动跟踪,而不是每个时间步长都有一个单独的飞溅。Katsumata等人提出了位置的傅立叶近似和旋转四元数的线性近似。

Luiten等人的论文介绍了一种在动态场景中捕获所有3D点的全6个自由度的方法。通过结合局部刚度约束,动态3D高斯表示一致的空间旋转,实现了密集的6自由度跟踪和重建,而无需对应或流输入。该方法在2D跟踪中优于PIP,实现了10倍低的中值轨迹误差、更高的轨迹精度和100%的生存率。这种通用的表示方式有助于4维视频编辑、第一人称视图合成和动态场景生成等应用。

Lin等人介绍了一种新的双域变形模型(DDDM),该模型被明确设计为对每个高斯点的属性变形进行建模。该模型使用频域的傅立叶级数拟合和时域的多项式拟合来捕获与时间相关的残差。DDDM擅长处理复杂视频场景中的变形,无需为每帧训练单独的3D高斯飞溅(3D-GS)模型。值得注意的是,离散高斯点显式变形建模保证了快速训练和4D场景渲染,类似于用于静态3D重建的原始3D-GS。这种方法具有显著的效率提高,与3D-GS建模相比,训练速度几乎快了5倍。然而,在最终渲染中,在保持高保真度薄结构方面存在增强的机会。

Expression or Emotion variation and Editable in Avatars

Shao等人介绍了GaussianPlanes,这是一种通过在三维空间和时间中基于平面的分解实现的4D表示,提高了4D编辑的有效性。此外,Control4D利用4D生成器优化不一致照片的连续创建空间,从而获得更好的一致性和质量。所提出的方法使用GaussianPlanes来训练4D肖像场景的隐式表示,然后使用高斯渲染将其渲染为潜在特征和RGB图像。基于生成对抗性网络(GAN)的生成器和基于2D扩散的编辑器对数据集进行细化,并生成真实和虚假图像进行区分。判别结果有助于生成器和鉴别器的迭代更新。然而,由于依赖于具有流量表示的规范高斯点云,该方法在处理快速和广泛的非刚性运动方面面临挑战。该方法受ControlNet的约束,将编辑限制在粗略级别,并阻止精确的表达或动作编辑。此外,编辑过程需要迭代优化,缺少一个单一步骤的解决方案。

Non-Rigid or deformable objects

隐式神经表示在动态场景重建和渲染中带来了重大变革。然而,当代动态神经渲染方法在捕捉复杂细节和实现动态场景实时渲染方面遇到了挑战。

为了应对这些挑战,Yang等人提出了用于高保真单目动态场景重建的可变形3D高斯。提出了一种新的可变形3D-GS方法。该方法利用了在具有变形场的规范空间中学习的3D高斯,该变形场专门为单目动态场景设计。该方法引入了一种为真实世界的单目动态场景量身定制的退火平滑训练(AST)机制,有效地解决了错误姿势对时间插值任务的影响,而不引入额外的训练开销。通过使用差分高斯光栅化器,可变形的3D高斯不仅提高了渲染质量,而且实现了实时速度,在这两个方面都超过了现有的方法。该方法被证明非常适合于诸如NVS之类的任务,并且由于其基于点的性质而为后期生产任务提供了多功能性。实验结果强调了该方法优越的渲染效果和实时性,证实了其在动态场景建模中的有效性。

DIFFUSION

扩散和高斯飞溅是一种从文本描述/提示生成3D目标的强大技术。它结合了两种不同方法的优点:扩散模型和高斯散射。扩散模型是一种神经网络,可以学习从有噪声的输入中生成图像。通过向模型提供一系列越来越干净的图像,模型学会扭转图像损坏的过程,最终从完全随机的输入中生成干净的图像。这可以用于从文本描述生成图像,因为模型可以学习将单词与相应的视觉特征相关联。具有扩散和高斯飞溅的文本到3D管道的工作原理是首先使用扩散模型从文本描述生成初始3D点云。然后使用高斯散射将点云转换为一组高斯球体。最后,对高斯球体进行渲染,以生成目标的3D图像。

Text based generation

Yi等人的工作介绍了Gaussian Dreamer,这是一种文本到3D的方法,通过高斯分裂无缝连接3D和2D扩散模型,确保3D一致性和复杂的细节生成。图7显示了所提出的生成图像的模型。为了进一步丰富内容,引入了噪声点增长和颜色扰动来补充初始化的3D高斯。该方法的特点是简单有效,在单个GPU上15分钟内生成3D实例,与以前的方法相比,速度优越。生成的三维实例可以直接实时渲染,突出了该方法的实用性。总体框架包括使用3D扩散模型先验进行初始化,并使用2D扩散模型进行优化,通过利用两个扩散模型的优势,能够从文本提示创建高质量和多样化的3D资产。

Chen等人提出了基于高斯散射的文本到3D生成(GSGEN),这是一种利用3D高斯作为表示的文本到三维生成方法。通过利用几何先验,强调高斯散点在文本到三维生成中的独特优势。两阶段优化策略结合了二维和三维扩散的联合指导,在几何优化中形成连贯的粗糙结构,然后在基于紧凑性的外观细化中致密化。

Denoising and Optimisation

李等人的GaussianDiffusion框架代表了一种新颖的文本到三维方法,利用高斯飞溅和Langevin动力学扩散模型来加速渲染并实现无与伦比的真实感。结构化噪声的引入解决了多视图几何挑战,而变分高斯散射模型则缓解了收敛问题和伪影。虽然目前的结果显示真实性有所提高,但正在进行的研究旨在细化变分高斯引入的模糊度和雾度,以进一步增强。

杨等人对现有的扩散先验进行了彻底的检查,提出了一个统一的框架,通过优化去噪分数来改进这些先验。该方法的多功能性扩展到各种用例,始终如一地提供实质性的性能增强。在实验评估中,我们的方法取得了前所未有的性能,超过了当代的方法。尽管它在细化3D生成的纹理方面取得了成功,但在增强生成的3D模型的几何结构方面仍有改进的空间。

OPTIMIZATION AND SPEED

本小节将讨论研究人员为更快的训练和/或推理速度而开发的技术。在Chung等人的研究中,引入了一种方法来优化高斯散射,以使用有限数量的图像进行3D场景表示,同时缓解过拟合问题。用高斯散点表示3D场景的传统方法可能导致过拟合,特别是当可用图像有限时。该技术使用来自预先训练的单目深度估计模型的深度图作为几何指南,并与来自SFM管道的稀疏特征点对齐。这些有助于优化3D高斯散射,减少浮动伪影并确保几何相干性。所提出的深度引导优化策略在LLFF数据集上进行了测试,与仅使用图像相比,显示了改进的几何结构。该研究包括引入提前停止策略和深度图的平滑项,这两项都有助于提高性能。然而,也承认存在局限性,例如依赖于单目深度估计模型的准确性以及依赖于COLMAP的性能。建议未来的工作探索相互依存的估计深度,并解决深度估计困难地区的挑战,如无纹理平原或天空。

傅等人介绍了COLMAP Free 3D Gaussian Splatting(CF-3DGS),这是一种新的端到端框架,用于从序列图像中同时进行相机姿态估计和NVS,解决了以前方法中相机运动量大和训练持续时间长带来的挑战。与NeRF的隐式表示不同,CF-3DGS利用显式点云来表示场景。该方法顺序处理输入帧,逐步扩展3D高斯以重建整个场景,在具有挑战性的场景(如360°视频)上展示了增强的性能和稳健性。该方法以顺序的方式联合优化相机姿势和3D-GS,使其特别适合视频流或有序的图像采集。高斯飞溅的使用能够实现快速的训练和推理速度,展示了这种方法相对于以前方法的优势。在证明有效性的同时,人们承认,顺序优化将应用程序主要限制在有序的图像集合上,这为在未来的研究中探索无序图像集合的扩展留下了空间。

RENDERING AND SHADING METHODS

Yu等人在3D-GS中观察到,特别是当改变采样率时,NVS中会出现伪影。引入的解决方案包括结合3D平滑滤波器来调节3D高斯基元的最大频率,从而解决分布外渲染中的伪影。此外,2D膨胀滤波器被2D Mip滤波器取代,以解决混叠和膨胀问题。对基准数据集的评估证明了Mip Splatting的有效性,尤其是在修改采样率时。所提出的修改是原则性的、直截了当的,需要对原始3D-GS代码进行最小的更改。然而,也存在公认的局限性,例如高斯滤波器近似引入的误差和训练开销的轻微增加。该研究将Mip Splatting作为一种具有竞争力的解决方案,展示了其与最先进的方法的性能相当,以及在分发外场景中的卓越泛化能力,展示了它在实现任意规模的无别名渲染方面的潜力。

Gao等人提出了一种新的3D点云渲染方法,该方法能够从多视图图像中分解材质和照明。该框架支持以可区分的方式对场景进行编辑、光线跟踪和实时重新照明。场景中的每个点都由“可重新照明”的3D高斯表示,携带有关其法线方向、双向反射分布函数(BRDF)等材料特性以及来自不同方向的入射光的信息。为了精确的照明估计,入射光被分为全局和局部分量,并考虑基于视角的可见性。场景优化利用3D高斯飞溅,而基于物理的可微分渲染处理BRDF和照明分解。一种创新的基于点的光线跟踪方法利用边界体层次结构,在实时渲染过程中实现了高效的可见性烘焙和逼真的阴影。实验表明,与现有方法相比,BRDF估计和视图渲染效果更好。然而,对于没有明确边界和优化过程中需要目标遮罩的场景,仍然存在挑战。未来的工作可以探索集成多视图立体(MVS)线索,以提高通过3D高斯散射生成的点云的几何精度。这种“可靠的3D高斯”管道展示了很有前途的实时渲染功能,并通过基于点云的方法为革命性地基于网格的图形打开了大门,该方法允许重新照明、编辑和光线跟踪。

COMPRESSION

Fan等人介绍了一种用于压缩渲染中使用的3D高斯表示的新技术。他们的方法根据其重要性识别并删除冗余高斯,类似于网络修剪,确保对视觉质量的影响最小。利用知识提取和伪视图增强,LightGaussian将信息传递到具有较少球面谐波的较低复杂度表示,从而进一步减少冗余。此外,一种称为VecTree量化的混合方案通过量化属性值来优化表示,从而在精度没有显著损失的情况下实现更小的尺寸。与标准方法相比,LightGaussian实现了超过15倍的平均压缩比,在Mip NeRF 360和Tanks&Temples等数据集上,渲染速度从139 FPS显著提高到215 FPS。所涉及的关键步骤是计算全局显著性、修剪高斯、用伪视图提取知识以及使用VecTree量化属性。总的来说,LightGaussian为将基于大点的表示转换为紧凑格式提供了一个突破性的解决方案,从而显著减少了数据冗余,并大幅提高了渲染效率。

应用和案例研究

本节深入探讨了自2023年7月高斯飞溅算法问世以来,该算法在应用方面的显著进步。这些进步在各种领域都有特定的用途,如化身、SLAM、网格提取和物理模拟。当应用于这些专门的用例时,Gaussian Splatting在不同的应用场景中展示了它的多功能性和有效性。

AVATARS

随着AR/VR应用热潮的兴起,高斯飞溅的大量研究都集中在开发人类的数字化身上。从较少的视角捕捉主题并构建3D模型是一项具有挑战性的任务,高斯飞溅正帮助研究人员和行业实现这一目标。

Joint angles or articulation

这种高斯散射技术专注于根据关节角度对人体进行建模。这类模型的一些参数反映了三维关节的位置、角度和其他类似的参数。对输入帧进行解码以找出当前帧的3D关节位置和角度。

Zielonka等人提出了一种使用高斯散射的人体表示模型,并利用创新的3D-GS技术实现了实时渲染。与现有的照片级真实感可驾驶化身不同,可驾驶3D高斯飞溅(D3GA)不依赖于训练期间的精确3D配准或测试期间的密集输入图像。相反,它利用密集校准的多视图视频进行实时渲染,并引入了由关节中的关键点和角度驱动的基于四面体笼的变形,使其对涉及通信的应用程序有效,如图9所示。

Animatable

这些方法通常训练依赖于位姿的高斯图来捕捉复杂的动态外观,包括服装中更精细的细节,从而产生高质量的化身。其中一些方法还支持实时渲染功能。

姜等人提出了HiFi4G,这种方法可以有效地渲染真实的人类。HiFi4G将3D高斯表示与非刚性跟踪相结合,采用运动先验的对偶图机制和具有自适应时空正则化器的4D高斯优化。HiFi4G实现了大约25倍的压缩率,每帧需要不到2MB的存储空间,在优化速度、渲染质量和存储开销方面表现出色,如图10所示。它提出了一种紧凑的4D高斯表示,桥接高斯飞溅和非刚性跟踪。然而,对分割的依赖性、对导致伪影的较差分割的敏感性,以及对每帧重建和网格跟踪的需求都造成了限制。未来的研究可能侧重于加速优化过程和减少GPU排序依赖性,以便在网络查看器和移动设备上进行更广泛的部署。

Head based

以前的头部化身方法大多依赖于固定的显式基元(网格、点)或隐式曲面(SDF)。基于高斯散射的模型将为AR/VR和基于滤镜的应用的兴起铺平道路,让用户尝试不同的妆容、色调、发型等。

王等人利用规范的高斯变换来表示动态场景。使用显式“动态”三平面作为参数化头部几何的有效容器,与底层几何和三平面中的因子很好地对齐,作者获得了正则高斯的对齐正则因子。使用微小的MLP,因子被解码为3D高斯基元的不透明度和球面谐波系数。Quin等人创建了具有可控视角、姿势和表情的超逼真头部化身。在化身重构过程中,作者同时对变形模型参数和高斯splat参数进行了优化。该作品展示了化身在各种具有挑战性的场景中的动画能力。Dhamo等人提出了HeadGaS,这是一种混合模型,以可学习的潜在特征为基础,扩展了3D-GS的显式表示。然后,这些特征可以与来自参数化头部模型的低维参数线性混合,以导出依赖于表情的最终颜色和不透明度值。图11显示了一些示例图像。

SLAM

SLAM是自动驾驶汽车中使用的一种技术,用于同时构建地图并确定车辆在该地图内的位置。它使车辆能够导航和绘制未知环境的地图。顾名思义,视觉SLAM(vSLAM)依赖于来自相机和各种图像传感器的图像。这种方法适用于各种相机类型,包括简单、复眼和RGB-D相机,使其成为一种具有成本效益的解决方案。通过摄像头,可以将地标检测与基于图形的优化相结合,增强SLAM实现的灵活性。单眼SLAM是vSLAM的一个子集,使用单个相机,在深度感知方面面临挑战,这可以通过结合额外的传感器来解决,如里程计和惯性测量单元(IMU)的编码器。与vSLAM相关的关键技术包括SFM、视觉里程计和束调整。视觉SLAM算法分为两大类:稀疏方法,采用特征点匹配(例如,并行跟踪和映射,ORB-SLAM),密集方法,利用整体图像亮度(例如,DTAM,LSD-SLAM,DSO,SVO)。

网格提取与物理

高斯散射可以用于基于物理的模拟和渲染。通过在三维高斯核中添加更多的参数,可以对速度、应变和其他力学特性进行建模。这就是为什么在几个月内开发了各种方法,包括使用高斯散射模拟物理。

谢等人介绍了一种基于连续体力学的三维高斯运动学方法,采用偏微分方程(PDE)来驱动高斯核及其相关球面谐波的演化。这一创新允许使用统一的模拟渲染管道,通过消除对显式目标网格的需要来简化运动生成。他们的方法通过在各种材料上进行全面的基准测试和实验,展示了多功能性,在具有简单动力学的场景中展示了实时性能。作者介绍了PhysGaussian,这是一个同时无缝生成基于物理的动力学和照片逼真渲染的框架。在承认框架中缺乏阴影演化和使用单点求积进行体积积分等局限性的同时,作者提出了未来工作的途径,包括在材料点法(MPM)中采用高阶求积,并探索神经网络的集成以实现更真实的建模。该框架可以扩展到处理各种材料,如液体,并结合利用大型语言模型(LLM)进步的用户控件。图13显示了PhysGaussian框架的训练过程。

编辑

高斯飞溅还将其翅膀扩展到场景的3D编辑和点操纵。使用将要讨论的最新进展,甚至可以对场景进行基于提示的3D编辑。这些方法不仅将场景表示为3D高斯图,而且对场景具有语义和争议性的理解。

Chen等人介绍了GaussianEditor,这是一种基于高斯Splatting的新型三维编辑算法,旨在克服传统三维编辑方法的局限性。虽然依赖于网格或点云的传统方法难以进行逼真的描绘,但像NeRF这样的隐式3D表示面临着处理速度慢和控制有限的挑战。GaussianEditor通过利用3D-GS来解决这些问题,通过高斯语义跟踪增强精度和控制,并引入层次高斯飞溅(HGS),在生成指导下获得稳定和精细的结果。该算法包括一种专门的3D修复方法,用于有效地去除和集成物体,在广泛的实验中显示出卓越的控制能力、功效和快速性能。图14显示了Chen等人测试的各种文本提示。GaussianEditor标志着3D编辑的重大进步,提供了增强的有效性、速度和可控性。该研究的贡献包括引入高斯语义跟踪进行详细编辑控制,提出HGS在生成指导下实现稳定收敛,开发用于快速删除和添加目标的3D修复算法,以及大量实验证明该方法优于以前的3D编辑方法。尽管GaussianEditor取得了进步,但它依赖于二维扩散模型进行有效监督,在处理复杂提示方面存在局限性,这是基于类似模型的其他三维编辑方法面临的共同挑战。

讨论

传统上,3D场景是使用网格和点来表示的,因为它们的显式性质以及与基于GPU/CUDA的快速光栅化的兼容性。然而,最近的进步,如NeRF方法,专注于连续场景表示,采用了多层感知器优化等技术,通过体积射线行进进行新的视图合成。虽然连续表示有助于优化,但渲染所需的随机采样会引入昂贵的噪声。高斯飞溅通过利用3D高斯表示进行优化,实现最先进的视觉质量和有竞争力的训练时间,弥补了这一差距。此外,基于瓦片的飞溅解决方案可确保实时渲染具有顶级质量。在渲染3D场景时,高斯飞溅在质量和效率方面提供了一些最佳结果。

高斯飞溅已经发展到通过修改其原始表示来处理动态和可变形目标。这涉及到合并参数,如3D位置、旋转、缩放因子和颜色和不透明度的球面谐波系数。该领域的最新进展包括引入稀疏性损失以鼓励ba-sis轨迹共享,引入双域变形模型以捕获与时间相关的残差,以及将生成器网络与3D高斯渲染连接起来的高斯壳映射。还努力解决非刚性跟踪、化身表情变化和高效渲染逼真人类表现等挑战。这些进步共同致力于在处理动态和可变形目标时实现实时渲染、优化效率和高质量结果。

在另一个方面,扩散和高斯飞溅协同作用,从文本提示创建3D目标。扩散模型是一种神经网络,它通过一系列越来越干净的图像来逆转图像损坏的过程,从而学习从有噪声的输入中生成图像。在文本到三维管道中,扩散模型根据文本描述生成初始三维点云,然后使用高斯散射将其转换为高斯球体。渲染的高斯球体生成最终的三维目标图像。该领域的进展包括使用结构化噪声来解决多视图几何挑战,引入变分高斯散射模型来解决收敛问题,以及优化去噪分数以增强扩散先验,旨在实现基于文本的3D生成中无与伦比的真实性和性能。

高斯飞溅已被广泛应用于AR/VR应用的数字化身的创建。这涉及到从最小数量的视点捕捉目标并构建3D模型。该技术已被用于建模人体关节、关节角度和其他参数,从而能够生成富有表现力和可控的化身。这一领域的进步包括开发捕捉高频面部细节、保留夸张表情和有效变形化身的方法。此外,还提出了混合模型,将显式表示与可学习的潜在特征相结合,以实现与表达相关的最终颜色和不透明度值。这些进步旨在增强生成的3D模型的几何形状和纹理,以满足AR/VR应用中对逼真和可控化身日益增长的需求。

Gaussian Splatting还在SLAM中找到了多功能的应用,在GPU上提供实时跟踪和建图功能。通过使用3D高斯表示和可微分的飞溅光栅化管道,它实现了真实世界和合成场景的快速和真实感渲染。该技术扩展到网格提取和基于物理的模拟,允许在没有明确目标网格的情况下对机械特性进行建模。连续介质力学和偏微分方程的进步使高斯核得以进化,简化了运动生成。值得注意的是,优化涉及高效的数据结构,如OpenVDB、用于对齐的正则化项和用于减少误差的物理启发项,从而提高了整体效率和准确性。在压缩和提高高斯散射渲染效率方面也做了其他工作。

对比

从表2可以清楚地看出,在撰写本文时,高斯飞溅是最接近实时渲染和动态场景表示的选项。占用网络根本不是为NVS用例量身定制的。摄影测量是创建具有强烈背景感的高度准确和逼真的模型的理想选择。NeRF擅长生成新颖的视图和逼真的照明效果,提供创作自由和处理复杂场景。高斯飞溅在其实时渲染功能和交互式探索方面大放异彩,使其适用于动态应用程序。每种方法都有其利基市场,并相互补充,为3D重建和可视化提供了各种各样的工具。

挑战和限制

尽管高斯飞溅是一种非常稳健的技术,但它也有一些需要注意的地方。其中一些列出如下:

  • 1)计算复杂性:高斯散射需要对每个像素的高斯函数进行评估,这可能是计算密集型的,尤其是在处理大量点或粒子时。
  • 2)内存使用:存储高斯飞溅的中间结果,例如每个点对相邻像素的加权贡献,可能会消耗大量内存。
  • 3)边缘伪影:高斯散射会在图像的边缘或高对比度区域附近产生不希望的伪影,如振铃或模糊。
  • 4)性能与准确性的权衡:实现高质量的结果可能需要使用大的内核大小或评估每个像素的多个高斯函数,这会影响性能。
  • 5)与其他渲染技术的集成:在保持性能和视觉连贯性的同时,将高斯散射与阴影贴图或环境遮挡等其他技术集成可能会很复杂。

未来方向

实时3D重建技术将实现计算机图形学和相关领域的多种功能,例如实时交互式探索3D场景或模型,通过即时反馈操纵视点和目标。它还可以实时渲染具有移动目标或不断变化的环境的动态场景,增强真实感和沉浸感。实时3D重建可用于仿真和训练环境,为汽车、航空航天和医学等领域的虚拟场景提供逼真的视觉反馈。它还将支持沉浸式AR和VR体验的实时渲染,用户可以实时与虚拟目标或环境交互。总体而言,实时高斯飞溅增强了计算机图形、可视化、模拟和沉浸式技术中各种应用的效率、交互性和真实性。

结论

在本文中,我们讨论了与用于三维重建和新视图合成的高斯散射相关的各种功能和应用方面。它涵盖了动态和变形建模、运动跟踪、非刚性/可变形目标、表情/情绪变化、基于文本的生成扩散、去噪、优化、化身、可动画目标、基于头部的建模、同步定位和规划、网格提取和物理、优化技术、编辑功能、渲染方法、压缩等主题。

具体而言,本文深入探讨了基于图像的3D重建的挑战和进展,基于学习的方法在改进3D形状估计中的作用,以及高斯飞溅技术在处理动态场景、交互式目标操作、3D分割和场景编辑中的潜在应用和未来方向。

高斯飞溅在不同领域具有变革意义,包括计算机生成图像、VR/AR、机器人、电影和动画、汽车设计、零售、环境研究和航空航天应用。然而,值得注意的是,与NeRFs等其他方法相比,高斯散射在实现真实感方面可能存在局限性。此外,还应考虑与过拟合、计算资源和渲染质量限制相关的挑战。尽管存在这些局限性,但高斯散射的持续研究和进步仍在继续解决这些挑战,并进一步提高该方法的有效性和适用性。

更新时间 2024-05-16