本文经自动驾驶之心公众号授权转载,转载请联系出处。
写在前面&笔者的个人理解
近年来,自动驾驶因其在减轻驾驶员负担和提高驾驶安全方面的潜力而越来越受到关注。基于视觉的三维占用预测是一种新兴的感知任务,适用于具有成本效益的自动驾驶感知系统,它可以根据图像输入预测自动驾驶汽车周围三维体素网格的空间占用状态和语义。尽管许多研究已经证明,与以物体为中心的感知任务相比,3D占用预测具有更大的优势,但仍缺乏专门针对这一快速发展的领域的综述。本文首先介绍了基于视觉的三维占用预测的背景,并讨论了这项任务中的挑战。其次,我们从特征增强、部署友好性和标签效率三个方面全面调查了基于视觉的3D占用预测的进展,并深入分析了每类方法的潜力和挑战。最后总结了当前的研究趋势,并提出了一些鼓舞人心的未来展望。
开源链接:https://github.com/zya3d/Awesome-3D-Occupancy-Prediction
总结来说,本文的主要贡献如下:
- 据我们所知,这篇论文是第一篇针对基于视觉的自动驾驶3D占用预测方法的全面综述。
- 本文从特征增强、计算友好和标签高效三个角度对基于视觉的三维占用预测方法进行了结构总结,并对不同类别的方法进行了深入分析和比较。
- 本文提出了基于视觉的3D占用预测的一些鼓舞人心的未来展望,并提供了一个定期更新的github存储库来收集相关论文、数据集和代码。
图3显示了基于视觉的3D占用预测方法的时序概述,图4显示了相应的分层结构分类法。
相关背景
真值生成
生成GT标签是3D占用预测的一个挑战。尽管许多3D感知数据集,如nuScenes和Waymo,提供了激光雷达点分割标签,但这些标签是稀疏的,难以监督密集的3D占用预测任务。Wei等人已经证明了使用密集占用作为GT的重要性。最近的一些研究集中在使用稀疏激光雷达点分割注释生成密集的3D占用注释,为3D占用预测任务提供一些有用的数据集和基准。
3D占用预测任务中的GT标签表示3D空间中的每个体素是否被占用以及被占用体素的语义标签。由于三维空间中有大量的体素,因此很难手动标记每个体素。一种常见的做法是对现有的3D点云分割任务的地面实况进行体素化,然后根据体素中点的语义标签通过投票生成3D占用预测的GT。然而,通过这种方式生成的地面实况是稀疏的。如图1所示,在道路等未标记为已占用的地方,仍有许多已占用的体素。监督具有这种稀疏地面实况的模型将导致模型性能下降。因此,一些工作研究如何自动或半自动生成高质量的密集3D占用注释。
如图2所示,生成密集的三维占用注释通常包括以下四个步骤:
- 取连续的原始激光雷达帧,将激光雷达点分割为静态背景和动态前景。
- 在静态背景上叠加连续的激光雷达帧,并基于定位信息进行运动补偿,以对齐多帧点云,从而获得更密集的点云。在动态前景上叠加连续的激光雷达帧,根据目标帧和目标id对齐动态前景的点云,使其更加密集。注意,尽管点云相对密集,但体素化后仍有一些间隙,需要进一步处理。
- 合并前景和背景点云,然后对它们进行体素化,并使用投票机制来确定体素的语义,从而产生相对密集的体素注释。
- 通过后处理对上一步中获得的体素进行细化,以实现更密集、更精细的注释,作为GT。
数据集
在本小节中,我们介绍了一些常用于3D占用预测的开源、大规模数据集,表1中给出了它们之间的比较。
NUYv2数据集由来自各种室内场景的视频序列组成,由Microsoft Kinect的RGB和Depth相机拍摄。它包含1449对密集标记的对齐RGB和深度图像,以及来自3个城市的407024个未标记帧。虽然主要用于室内使用,不适合自动驾驶场景,但一些研究已将该数据集用于3D占用预测。
SemanticKITTI是一个广泛用于3D占用预测的数据集,包括来自KITTI数据集的22个序列和43000多个帧。它通过覆盖未来的帧、分割体素和通过点投票分配标签来创建密集的3D占用注释。此外,它通过追踪光线来检查汽车的每个位姿,传感器可以看到哪些体素,并在训练和评估过程中忽略不可见的体素。然而,由于它是基于KITTI数据集的,因此它只使用来自前置摄像头的图像作为输入,而后续数据集通常使用多视图图像。如表2所示,我们在SemanticKITTI数据集上收集了现有方法的评估结果。
NuScenes占用率是基于户外环境的大规模自动驾驶数据集NuScenes构建的3D占用率预测数据集。它包含850个序列、200000个帧和17个语义类别。数据集最初使用增强和净化(AAP)管道生成粗略的3D占用标签,然后通过手动增强来细化标签。此外,它还引入了OpenOccupancy,这是周围语义占用感知的第一个基准,以评估先进的3D占用预测方法。
随后,Tian等人在nuScenes和Waymo自动驾驶数据集的基础上,进一步构建了用于3D占用预测的Occ3D nuScene斯和Occ3D Waymo数据集。他们引入了一种半自动标签生成管道,该管道利用现有的标记3D感知数据集,并根据其可见性识别体素类型。此外,他们还建立了大规模3D占用预测的Occ3d基准,以加强不同方法的评估和比较。如表2所示,我们在Occ3D nuScenes数据集上收集了现有方法的评估结果。
此外,与Occ3D裸体和裸体占用类似,OpenOcc也是一个基于裸体数据集为3D占用预测构建的数据集。它包含850个序列、34149个帧和16个类。请注意,该数据集提供了八个前景目标的额外注释,这有助于下游任务,如运动规划。
关键挑战
尽管近年来基于视觉的三维占用预测取得了重大进展,但它仍然面临着来自特征表示、实际应用和注释成本的限制。对于这项任务,有三个关键挑战:(1)从2D视觉输入中获得完美的3D特征是困难的。基于视觉的3D占有率预测的目标是仅从图像输入实现对3D场景的详细感知和理解,然而图像中固有的深度和几何信息的缺失对直接从中学习3D特征表示提出了重大挑战。(2)三维空间中繁重的计算负载。3D占用预测通常需要使用3D体素特征来表示环境空间,这不可避免地涉及用于特征提取的3D卷积等操作,这大大增加了计算和内存开销,并阻碍了实际部署。(3)昂贵的细粒度注释。3D占用预测涉及预测高分辨率体素的占用状态和语义类别,但实现这一点通常需要对每个体素进行细粒度的语义注释,这既耗时又昂贵,给这项任务带来了瓶颈。
针对这些关键挑战,基于视觉的自动驾驶三维占用预测研究工作逐步形成了特征增强、部署友好和标签高效三条主线。特征增强方法通过优化网络的特征表示能力来缓解3D空间输出和2D空间输入之间的差异。部署友好的方法旨在通过设计简洁高效的网络架构,显著降低资源消耗,同时确保性能。即使在注释不足或完全不存在的情况下,高效标签方法也有望实现令人满意的性能。接下来,我们将围绕这三个分支全面概述当前的方法。
特征增强方法
基于视觉的3D占用预测的任务涉及从2D图像空间预测3D体素空间的占用状态和语义信息,这对从2D视觉输入获得完美的3D特征提出了关键挑战。为了解决这个问题,一些方法从特征增强的角度改进了占用预测,包括从鸟瞰图(BEV)、三视角图(TPV)和三维体素表示中学习。
BEV-based methods
一种有效的学习占用率的方法是基于鸟瞰图(BEV),它提供了对遮挡不敏感的特征,并包含一定的深度几何信息。通过学习强BEV表示,可以实现稳健的3D占用场景重建。首先使用2D骨干网络从视觉输入中提取图像特征,然后通过视点变换获得BEV特征,并最终基于BEV特征表示完成3D占用预测。基于BEV的方法如图5所示。
一种直接的方法是利用来自其他任务的BEV学习,例如在3D对象检测中使用BEVDet和BEVFormer等方法。为了扩展这些占用学习方法,可以在训练过程中加入或更换占用头,以获得最终结果。这种自适应允许将占用估计集成到现有的基于BEV的框架中,从而能够同时检测和重建场景中的3D占用。基于强大的基线BEVFormer,OccTransformer采用数据增强来增加训练数据的多样性,以提高模型泛化能力,并利用强大的图像主干从输入数据中提取更多信息特征。它还引入了3D Unet Head,以更好地捕捉场景的空间信息,并引入了额外的损失函数来改进模型优化。
TPV-based methods
虽然与图像相比,基于BEV的表示具有某些优势,因为它们本质上提供了3D空间的自上而下的投影,但它们固有地缺乏仅使用单个平面来描述场景的细粒度3D结构的能力。基于三视角(TPV)的方法利用三个正交投影平面对3D环境进行建模,进一步增强了视觉特征对占用预测的表示能力。首先,使用2D骨干网络从视觉输入中提取图像特征。随后,将这些图像特征提升到三视图空间,最终基于三个投影视点的特征表示实现3D占用预测。基于BEV的方法如图7所示。
除了BEV功能外,TPVFormer还以相同的方式生成前视图和侧视图中的功能。每个平面从不同的视角对3D环境进行建模,并且它们的组合提供了对整个3D结构的全面描述。具体来说,为了获得三维空间中一个点的特征,我们首先将其投影到三个平面中的每一个平面上,并使用双线性插值来获得每个投影点的特征。然后,我们将三个投影特征总结为三维点的合成特征。因此,TPV表示可以以任意分辨率描述3D场景,并为3D空间中的不同点生成不同的特征。它进一步提出了一种基于变换器的编码器(TPVFormer),以有效地从2D图像中获得TPV特征,并在TPV网格查询和相应的2D图像特征之间执行图像交叉关注,从而将2D信息提升到3D空间。最后,TPV特征之间的交叉视图混合注意力实现了三个平面之间的交互。TPVFormer的总体架构如图8所示。
Voxel-based methods
除了将3D空间转换为投影透视(如BEV或TPV)之外,还存在直接对3D体素表示进行操作的方法。这些方法的一个关键优势是能够直接从原始3D空间学习,最大限度地减少信息损失。通过利用原始三维体素数据,这些方法可以有效地捕捉和利用完整的空间信息,从而更准确、更全面地了解占用情况。首先,使用2D骨干网络提取图像特征,然后,使用专门设计的基于卷积的机制来桥接2D和3D表示,或者使用基于查询的方法来直接获得3D表示。最后,基于所学习的3D表示,使用3D占用头来完成最终预测。基于体素的方法如图9所示。
Convolution-based methods
一种方法是利用专门设计的卷积架构来弥合从2D到3D的差距,并学习3D占用表示。这种方法的一个突出例子是采用U-Net架构作为特征桥接的载体。U-Net架构采用编码器-解码器结构,在上采样和下采样路径之间具有跳跃连接,保留低级别和高级别特征信息以减轻信息损失。通过不同深度的卷积层,U-Net结构可以提取不同尺度的特征,帮助模型捕捉图像中的局部细节和全局上下文信息,从而增强模型对复杂场景的理解,从而进行有效的占用预测。
Monoscene利用U-net进行基于视觉的3D占用预测。它引入了一种称为二维特征视线投影(FLoSP)的机制,该机制利用特征透视投影将二维特征投影到三维空间上,并根据成像原理和相机参数计算二维特征上三维特征空间中每个点的坐标,以对三维特征空间的特征进行采样。这种方法将2D特征提升到统一的3D特征图中,并作为连接2D和3D U-net的关键组件。Monoscene还提出了一个插入在3D UNet瓶颈处的3D上下文关系先验(3D CRP)层,该层学习n向体素到体素的语义场景关系图。这为网络提供了一个全局感受场,并由于关系发现机制而提高了空间语义意识。Monoscene的总体架构如图10所示。
Query-based methods
从3D空间学习的另一种方式涉及生成一组查询以捕捉场景的表示。在该方法中,使用基于查询的技术来生成查询建议,然后将其用于学习3D场景的综合表示。随后,应用图像上的交叉注意和自注意机制来细化和增强所学习的表征。这种方法不仅增强了对场景的理解,而且能够在3D空间中进行准确的重建和占用预测。此外,基于查询的方法提供了更大的灵活性来基于不同的数据源和查询策略进行调整和优化,从而能够更好地捕获本地和全局上下文信息,从而促进3D占用预测表示。
深度可以作为选择占用查询的有价值的先验,在Voxformer中,估计的深度被用作预测占用和选择相关查询的先验。只有占用的查询用于使用可变形注意力从图像中收集信息。更新后的查询提议和掩蔽的令牌然后被组合以重建体素特征。Voxformer从RGB图像中提取2D特征,然后利用一组稀疏的3D体素查询来索引这些2D特征,使用相机投影矩阵将3D位置链接到图像流。具体而言,体素查询是3D网格形状的可学习参数,旨在使用注意力机制将图像中的特征查询到3D体积中。整个框架是由类不可知的提议和特定于类的分段组成的两阶段级联。阶段1生成类不可知的查询建议,而阶段2采用类似于MAE的架构将信息传播到所有体素。最后,对体素特征进行上采样以进行语义分割。VoxFormer的总体架构如图11所示。
Occ3D nuScenes数据集上特征增强方法的性能比较如表3所示。结果表明,直接处理体素表示的方法通常能够实现强大的性能,因为它们在计算过程中不会遭受显著的信息损失。此外,尽管基于BEV的方法只有一个投影视点用于特征表示,但由于鸟瞰图中包含的丰富信息以及它们对遮挡和比例变化的不敏感性,它们仍然可以实现可比较的性能。此外,通过从多个互补视图重建3D信息,基于三视角视图(TPV)的方法能够减轻潜在的几何模糊性,并捕捉更全面的场景背景,从而实现有效的3D占用预测。值得注意的是,FB-OCC同时利用了前向和后向视图转换模块,使它们能够相互增强,以获得更高质量的纯电动汽车表示,并取得了优异的性能。这表明,通过有效的特征增强,基于BEV的方法在改善3D占用预测方面也有很大的潜力。
部署友好方法
由于其广泛的范围和复杂的数据性质,直接从3D空间学习占用表示是极具挑战性的。与3D体素表示相关的高维度和密集的计算使得学习过程对资源的要求很高,这不利于实际部署应用。因此,设计部署友好的3D表示的方法旨在降低计算成本并提高学习效率。本节介绍了解决3D场景占用估计中计算挑战的方法,重点是开发准确高效的方法,而不是直接处理整个3D空间。所讨论的技术包括透视分解和从粗到细的细化,这些技术已在最近的工作中得到证明,以提高3D占用预测的计算效率。
Perspective decomposition methods
通过将视点信息从3D场景特征中分离出来或将其投影到统一的表示空间中,可以有效地降低计算复杂度,使模型更加稳健和可推广。这种方法的核心思想是将三维场景的表示与视点信息解耦,从而减少特征学习过程中需要考虑的变量数量,降低计算复杂度。解耦视点信息使模型能够更好地泛化,适应不同的视点变换,而无需重新学习整个模型。
为了解决从整个3D空间学习的计算负担,一种常见的方法是使用鸟瞰图(BEV)和三视角图(TPV)表示。通过将3D空间分解为这些单独的视图表示,计算复杂度显著降低,同时仍然捕获用于占用预测的基本信息。关键思想是首先从BEV和TPV的角度学习,然后通过结合从这些不同视图中获得的见解来恢复完整的3D占用信息。与直接从整个3D空间学习相比,这种透视分解策略允许更高效和有效的占用估计。
Coarse-to-fine methods
直接从大规模3D空间学习高分辨率细粒度全局体素特征是耗时且具有挑战性的。因此,一些方法已经开始探索采用从粗到细的特征学习范式。具体而言,网络最初从图像中学习粗略的表示,然后细化和恢复整个场景的细粒度表示。这两步过程有助于实现对场景占用率的更准确和有效的预测。
OpenOccupancy采用两步方法来学习3D空间中的占用表示。如图14所示。
预测3D占用率需要详细的几何表示,并且利用所有3D体素标记与多视图图像中的ROI进行交互将产生显著的计算和内存成本。如图15所示,Occ3D提出了一种增量令牌选择策略,在交叉注意力计算过程中选择性地选择前景和不确定的体素令牌,从而在不牺牲精度的情况下实现自适应高效计算。具体地,在每个金字塔层的开始,每个体素标记被输入到二进制分类器中,以预测体素是否为空,由二进制地面实况占用图来监督以训练分类器。PanoOcc提出在联合学习框架内无缝集成对象检测和语义分割,促进对3D环境的更全面理解。该方法利用体素查询来聚合来自多帧和多视图图像的时空信息,将特征学习和场景表示合并为统一的占用表示。此外,它通过引入占用稀疏性模块来探索3D空间的稀疏性,该模块在从粗到细的上采样过程中逐渐稀疏占用,显著提高了存储效率。
Occ3D nuScenes数据集上部署友好方法的性能比较如表4所示。由于结果是从不同的论文中收集的,在主干、图像大小和计算平台方面存在差异,因此只能得出一些初步结论。通常,在类似的实验设置下,由于信息丢失较少,从粗到细的方法在性能方面优于透视分解方法,而透视分解通常表现出更好的实时性能和更低的内存使用率。此外,采用较重主干和处理较大图像的模型可以获得更好的精度,但也会削弱实时性能。尽管FlashOcc和FastOcc等方法的轻量级版本已经接近实际部署的要求,但它们的准确性还需要进一步提高。对于部署友好的方法,透视分解策略和从粗到细策略都致力于在保持3D占用预测准确性的同时,不断减少计算负载。
Label-efficient methods
在现有的创建精确占用标签的方法中,有两个基本步骤。第一个是收集与多视图图像相对应的激光雷达点云,并进行语义分割注释。另一种是利用动态物体的跟踪信息,通过复杂的算法融合多帧点云。这两个步骤都相当昂贵,这限制了占用网络利用自动驾驶场景中大量多视图图像的能力。近年来,神经辐射场(Nerf)在二维图像绘制中得到了广泛的应用。有几种方法以类似Nerf的方式将预测的三维占用绘制成二维地图,并在没有细粒度标注或激光雷达点云参与的情况下训练占用网络,这显著降低了数据标注的成本。
Annotation-free methods
SimpleOccupancy首先通过视图变换从图像特征中生成场景的显式3D体素特征,然后按照Nerf风格的方式将其渲染为2D深度图。二维深度图由激光雷达点云生成的稀疏深度图监督。深度图还用于合成用于自我监督的环绕图像。UniOcc使用两个单独的MLP将3D体素logits转换为体素的密度和体素的语义logits。之后,UniOCC按照一般的体积渲染来获得多视图深度图和语义图,如图17所示。这些2D地图由分割的LiDAR点云生成的标签进行监督。RenderOcc从多视图图像中构建类似于NeRF的3D体积表示,并使用先进的体积渲染技术来生成2D渲染,该技术可以仅使用2D语义和深度标签来提供直接的3D监督。通过这种2D渲染监督,该模型通过分析来自各种相机截头体的光线交点来学习多视图一致性,从而更深入地了解3D空间中的几何关系。此外,它引入了辅助光线的概念,以利用来自相邻帧的光线来增强当前帧的多视图一致性约束,并开发了一种动态采样训练策略来过滤未对准的光线。为了解决动态和静态类别之间的不平衡问题,OccFlowNet进一步引入了占用流,基于3D边界框预测每个动态体素的场景流。使用体素流,可以将动态体素移动到时间帧中的正确位置,从而无需在渲染过程中进行动态对象过滤。在训练过程中,使用流对正确预测的体素和边界框内的体素进行转换,以与时间帧中目标位置对齐,然后使用基于距离的加权插值进行网格对齐。
上述方法消除了对显式3D占用注释的需要,大大减少了手动注释的负担。然而,他们仍然依赖激光雷达点云来提供深度或语义标签来监督渲染的地图,这还不能实现3D占用预测的完全自监督框架。
LiDAR-free methods
OccNerf不利用激光雷达点云来提供深度和语义标签。相反,如图18所示,它使用参数化占用字段来处理无边界的室外场景,重新组织采样策略,并使用体积渲染将占用字段转换为多相机深度图,最终通过多帧光度一致性进行监督。此外,该方法利用预先训练的开放词汇语义分割模型来生成2D语义标签,监督该模型将语义信息传递给占用字段。幕后使用单一视图图像序列来重建驾驶场景。它将输入图像的截头体特征视为密度场,并渲染其他视图的合成。通过专门设计的图像重建损失来训练整个模型。SelfOcc预测BEV或TPV特征的带符号距离场值,以渲染2D深度图。此外,原始颜色和语义图也由多视图图像序列生成的标签进行渲染和监督。
这些方法避开了对来自激光雷达点云的深度或语义标签的必要性。相反,他们利用图像数据或预训练的模型来获得这些标签,从而实现3D占用预测的真正的自监督框架。尽管这些方法可以实现最符合实际应用经验的训练模式,但仍需进一步探索才能获得令人满意的性能。
表5显示了Occ3D nuScenes数据集上标签高效方法的性能比较。大多数无注释方法使用2D渲染监督作为显式3D占用监督的补充,并获得了一定的性能改进。其中,UniOcc和RadOcc甚至在所有方法中分别获得了3和4的优异排名,充分证明了无注释机制可以促进额外有价值信息的提取。当仅采用2D渲染监督时,它们仍然可以实现相当的精度,说明了节省显式3D占用注释成本的可行性。无激光雷达的方法为3D占用预测建立了一个全面的自我监督框架,进一步消除了对标签和激光雷达数据的需求。然而,由于点云本身缺乏精确的深度和几何信息,其性能受到极大限制。
未来展望
在上述方法的推动下,我们总结了当前的趋势,并提出了几个重要的研究方向,这些方向有可能从数据、方法和任务的角度显著推进基于视觉的自动驾驶3D占用预测领域。
数据层面
获取充足的真实驾驶数据对于提高自动驾驶感知系统的整体能力至关重要。数据生成是一种很有前途的途径,因为它不会产生任何获取成本,并提供了根据需要操纵数据多样性的灵活性。虽然一些方法利用文本等提示来控制生成的驾驶数据的内容,但它们不能保证空间信息的准确性。相比之下,3D Occupancy提供了场景的细粒度和可操作的表示,与点云、多视图图像和BEV布局相比,有助于可控的数据生成和空间信息显示。WoVoGen提出了体积感知扩散,可以将3D占用映射到逼真的多视图图像。在对3D占用进行修改后,例如添加一棵树或更换一辆汽车,扩散模型将合成相应的新驾驶场景。修改后的三维占用记录了三维位置信息,保证了合成数据的真实性。
自动驾驶的世界模型越来越突出,它提供了一个简单而优雅的框架,增强了模型基于环境输入观测来理解整个场景并直接输出合适的动态场景演化数据的能力。鉴于其能够熟练地详细表示整个驾驶场景数据,利用3D占用率作为世界模型中的环境观测具有明显的优势。如图19所示,OccWorld选择3D占用率作为世界模型的输入,并使用类似GPT的模块来预测未来的3D占用率数据应该是什么样子。UniWorld利用了现成的基于BEV的3D occ-pancy模型,但通过处理过去的多视图图像来预测未来的3D占用数据,这也构建了一个世界模型。然而,无论机制如何,生成的数据和真实数据之间不可避免地存在领域差距。为了解决这个问题,一种可行的方法是将3D占用预测与新兴的3D人工智能生成内容(3D AIGC)方法相结合,以生成更真实的场景数据,而另一种方法是将领域自适应方法相结合以缩小领域差距。
方法论层面
当涉及到3D占用预测方法时,在我们之前概述的类别中,存在着需要进一步关注的持续挑战:功能增强方法、部署友好方法和标签高效方法。特征增强方法需要朝着显著提高性能的方向发展,同时保持可控的计算资源消耗。部署友好的方法应该记住,减少内存使用和延迟,同时确保将性能下降降至最低。标签高效的方法应该朝着减少昂贵的注释需求的方向发展,同时实现令人满意的性能。最终目标可能是实现一个统一的框架,该框架结合了功能增强、部署友好性和标签效率,以满足实际自动驾驶应用的期望。
此外,现有的单智能体自动驾驶感知系统天生无法解决关键问题,如对遮挡的敏感性、远程感知能力不足和视野有限,这使得实现全面的环境意识具有挑战性。为了克服单智能体的瓶颈,多智能体协同感知方法开辟了一个新的维度,允许车辆与其他交通元素共享互补信息,以获得对周围环境的整体感知。如图20所示,多智能体协同3D占用预测方法利用协同感知和学习的力量进行3D占用预测,通过在连接的自动化车辆之间共享特征,能够更深入地了解3D道路环境。CoHFF是第一个基于视觉的协作语义占用预测框架,它通过语义和occupancy任务特征的混合融合,以及车辆之间共享的压缩正交注意力特征,改进了局部3D语义占用预测,在性能上显著优于单车系统。然而,这种方法往往需要同时与多个代理进行通信,面临准确性和带宽之间的矛盾。因此,确定哪些代理最需要协调,以及确定最有价值的协作领域,以实现准确性和速度之间的最佳平衡,是一个有趣的研究方向。
任务层面
在当前的3D占用基准中,某些类别具有明确的语义,如“汽车”、“行人”和“卡车”。相反,“人造”和“植被”等其他类别的语义往往是模糊和笼统的。这些类别包含了广泛的未定义语义,应该细分为更细粒度的类别,以提供驾驶场景的详细描述。此外,对于以前从未见过的未知类别,它们通常被视为一般障碍,无法根据人类提示灵活扩展新的类别感知。对于这个问题,开放词汇任务在2D图像感知方面表现出了强大的性能,并且可以扩展到改进3D占用预测任务。OVO提出了一个支持开放词汇表3D占用预测的框架。它利用冻结的2D分割器和文本编码器来获得开放词汇的语义参考。然后,采用三个不同级别的比对来提取3D占用模型,使其能够进行开放词汇预测。POP-3D设计了一个自监督框架,在强大的预训练视觉语言模型的帮助下,结合了三种模式。它方便了诸如零样本占用分割和基于文本的3D检索之类的开放式词汇任务。
感知周围环境的动态变化对于自动驾驶中下游任务的安全可靠执行至关重要。虽然3D占用预测可以基于当前观测提供大规模场景的密集占用表示,但它们大多局限于表示当前3D空间,并且不考虑周围物体沿时间轴的未来状态。最近,人们提出了几种方法来进一步考虑时间信息,并引入4D占用预测任务,这在真实的自动驾驶场景中更实用。Cam4Occ首次使用广泛使用的nuScenes数据集为4D占用率预测建立了一个新的基准。该基准包括不同的指标,用于分别评估一般可移动物体(GMO)和一般静态物体(GSO)的占用预测。此外,它还提供了几个基线模型来说明4D占用预测框架的构建。尽管开放词汇3D占用预测任务和4D占用预测任务旨在从不同角度增强开放动态环境中自动驾驶的感知能力,但它们仍然被视为独立的任务进行优化。模块化的基于任务的范式,其中多个模块具有不一致的优化目标,可能导致信息丢失和累积错误。将开集动态占用预测与端到端自动驾驶任务相结合,将原始传感器数据直接映射到控制信号是一个很有前途的研究方向。