高亮反光终结者？谷歌NeRF-Casting：光线追踪就能搞定！

NeRF不再“畏惧”近处高光反射

早期的NeRF变体使用多层感知器（MLPs）从三维坐标映射到体积密度和视点相关的颜色，但是表示详细的三维几何和颜色所需的大型MLPs训练和评估速度极慢。最近的工作专注于通过用类似体素网格的数据结构或网格和小型MLPs的组合替代大型MLPs，使NeRF更加高效。虽然可以扩展到表示详细的大规模场景，但其优势仅限于三维几何和主要的漫反射颜色。

扩展NeRF建模现实的视点相关外观的能力仍然是一个挑战。当前先进的用于闪亮物体视图合成的模型在两个方面存在限制：

只能合成远处环境光照的准确反射，而在渲染近处场景内容的逼真反射方面表现不佳。
依赖大型MLPs来表示任何点的视点相关出射辐射，难以扩展到具有详细反射的更大现实场景。

NeRF-Casting是一种通过将光线追踪引入NeRF渲染模型来解决这些问题的方法。其主要涉及3个领域：

反射建模：传统的反射建模方法使用物理定律和基于图像的技术来表示表面反射特性。近年来，神经网络被用于学习反射特性，特别是在复杂材料和光照条件下。
光线追踪：光线追踪是一种广泛使用的计算机图形技术，通过模拟光线与物体表面的交互来生成逼真的图像。光线追踪技术已被用于生成高质量的反射和折射效果，但计算复杂度高。
三维成像：三维成像技术涉及从多视图数据生成三维表示。NeRF和其他神经网络方法通过学习场景的三维几何和颜色分布，生成新视图，从而在三维成像领域取得了重大进展。

NeRF-Casting不是在每个相机射线的点上查询昂贵的MLP以获得视点相关的外观，而是从这些点投射反射射线到NeRF几何中，采样正确抗锯齿的反射场景内容特征，并使用一个小型MLP将这些特征解码为反射颜色。将光线投射到恢复的NeRF中自然地合成了近处和远处内容的一致反射。此外，通过光线追踪计算外观减少了在场景中的每个点用大型MLP表示高度详细的视点相关函数的负担。

感兴趣的朋友可以看视频效果：https://nerf-casting.github.io

模型细节

NeRF-Casting的三个主要目标：

希望在不依赖计算量大的MLP评估的情况下建模出准确、详细的反射。
希望仅投射少量的反射光线。
希望最小化在这些反射光线的每个点上查询我们表示所需的计算量。

三维体积密度和特征表示基于Zip-NeRF[2]：使用多尺度哈希网格来存储三维特征，一个小型MLP（1层，宽度64）将这些特征解码为密度，一个较大的MLP（3层，宽度256）将这些特征解码为颜色。这意味着沿光线查询样本的密度和特征相对便宜。考虑到这些约束，按照以下流程来渲染镜面外观：

沿每条相机光线查询体积密度，以计算光线的预期终止点和表面法线。
在反射方向上通过预期终止点投射一个反射锥。
使用一个小型MLP将累积的反射特征与其他采样量（例如漫反射颜色特征和每个样本的混合权重）结合起来，为沿光线的每个样本生成一个颜色值。
将这些样本和密度进行阿尔法合成，得到最终颜色。

反射锥追踪

然后通过反射初始光线关于表面法线来构建一个新的反射光线方向

圆锥形反射特征

现在已经定义了一个vMF分布，涵盖了反射射线，目标是估计在vMF分布上的预期体积渲染特征，然后将其解码为反射颜色。这个预期特征可以写成：

使用蒙特卡洛方法对随机采样的射线进行积分估计是非常昂贵的，因为每个样本都需要沿着射线进行体积渲染。受Zip-NeRF的启发，使用一小组代表性样本结合特征减权来近似这个积分。然而与Zip-NeRF不同的是，我们将这两个操作都在二维方向域中执行，而不是在三维欧几里得空间中。

方向采样

反射特征降权

上文描述的方向采样有助于选择一个小的代表性射线集合进行平均。然而，对于具有高粗糙度的表面，采样的射线可能相对于底层的3D网格单元格之间距离较远。这意味着方程9中的特征可能存在伪影，并且反射射线方向的微小变化可能导致外观上的大幅变化。

为了防止这种情况发生，将Zip-NeRF中的“特征降权”技术调整到方向设置中。通过将与vMF锥相比较小的体素对应的特征乘以一个小的乘数来实现这一点，减小它们对渲染颜色的影响。按照Zip-NeRF的做法，定义点 x 处的降权特征为：

颜色解码器

颜色解码器的作用是为沿射线的每个采样点分配一种颜色，使用两种颜色分量的凸组合：

第一个颜色分量Cv类似于典型的 NeRF 视角相关外观模型：

第二个分量Cr，旨在模拟光泽外观，计算如下：

几何表示和正则化

效果欣赏

总结一下

NeRF-Casting是一种使用神经辐射场（NeRF）渲染包含高光物体的场景的方法。

方法：将反射锥从场景中的表面反射并通过NeRF进行追踪，并结合了一套新颖的技术来抗锯齿这些反射，从而能够合成远处和近场内容的准确详细反射，这些反射在表面上始终如一且平滑地移动。

讨论：在定量上优于现有的视图合成技术，特别是对于显示详细镜面反射的光滑表面。定性的视觉改进在图像指标方面的定量改进远远超过了。尤其值得注意的是，该方法合成的反射平滑而一致的运动，比基线方法呈现的视角相关外观更加逼真。这表明标准的图像误差度量（PSNR、SSIM等）不足以评估视角相关外观的质量。

nerf 神经网络解码器高质量 github 数据生成 git 神经辐射场计算机图形多尺度样本生成