当前位置:AIGC资讯 > AIGC > 正文

RangePerception:Range View3D检测新思路!

本文经自动驾驶之心公众号授权转载,转载请联系出处。

原标题:RangePerception: Taming LiDAR Range View for Efficient and Accurate 3D Object Detection

论文链接:https://openreview.net/pdf?id=9kFQEJSyCM

作者单位:上海人工智能实验室 复旦大学

论文思路:

基于 LiDAR 的 3D 检测方法目前使用鸟瞰图 (BEV) 或 range view (RV) 作为主要基础。前者依赖体素化和 3D 卷积,导致训练和推理过程效率低下。相反,基于 RV 的方法由于其紧凑性和与 2D 卷积的兼容性而表现出更高的效率,但其性能仍然落后于基于 BEV 的方法。为了消除这种性能差距,同时保持基于 RV 的方法的效率,本研究提出了一种高效且准确的基于 RV 的 3D 目标检测框架,称为 RangePerception。通过细致的分析,本研究确定了阻碍现有基于 RV 的方法性能的两个关键挑战:1)输出中使用的 3D 世界坐标与输入中使用的 2D  range image 坐标之间存在自然域差距(natural domain gap),导致从 range images 中提取信息变得困难 ;2)原始 range image 存在视觉损坏问题(vision corruption issue),影响位于 range image 边缘的目标的检测精度。为了解决上述关键挑战,本文提出了两种名为 Range Aware Kernel (RAK) 和 Vision Restoration Module (VRM) 的新颖算法,它们促进了 range image 表示和世界坐标 3D 检测结果的信息流。在 RAK 和 VRM 的帮助下,在 Waymo Open Dataset 上,与之前最先进的基于 RV 的方法 RangeDet 相比,本文的 RangePerception 的平均 L1/L2 AP 提高了 3.25/4.18。RangePerception 首次作为基于 RV 的 3D 检测方法,与著名的基于 BEV 的方法 CenterPoint 相比,其平均 AP 略高,并且 RangePerception 的推理速度是 CenterPoint 的 1.3 倍。

网络设计:

本文展示了一种高效且准确的基于 RV 的 3D 检测框架,称为 RangePerception。为了克服上述关键挑战,提出了两种名为 Range Aware Kernel (RAK) 和 Vision Restoration Module (VRM) 的新颖算法,并将其集成到 RangePerception 框架中,两者都促进了 range image 表示和世界坐标 3D 检测结果的信息流。在 RAK 和 VRM 的帮助下,本文的 RangePerception 在 WOD 上为 vehicle & pedestrian & cyclist 提供了 73.62、80.24 和 70.33 L1 3D AP,作为 range-view-based 3D 检测方法,实现了最先进的性能。本文的贡献如下。

RangePerception Framework. 本文介绍了一种新颖的高性能 3D 检测框架,名为 RangePerception。RangePerception 是第一个基于 RV 的 3D 检测器,在 WOD 上实现了 74.73/69.17 平均 L1/L2 AP,优于之前最先进的基于 RV 的检测器 RangeDet,后者的平均 L1/L2 AP 为 71.48/64.99,呈现 3.25/4.18 的改进。与广泛使用的基于 BEV 的方法 CenterPoint [6] 相比,RangePerception 还表现出了稍微优越的性能,后者的平均 L1/L2 AP 为 74.25/68.04。值得注意的是,RangePerception 的推理速度是 CenterPoint 的 1.3 倍,这证明其更适合自动驾驶车辆上的实时部署。

Range Aware Kernel. 作为 RangePerception 特征提取器的一部分, Range Aware Kernel (RAK) 是一种专为基于 RV 的网络量身定制的开创性算法。RAK 将 range image 空间分解为多个子空间,并通过从每个子空间中独立提取特征来克服空间错位问题(Spatial Misalignment issue)。实验结果表明,RAK 将平均 L1/L2 AP 提高了 5.75/5.99,而计算成本可以忽略不计。

Vision Restoration Module. 为了解决视觉损坏问题(Vision Corruption issue),本研究提出了 Vision Restoration Module(VRM)。VRM 通过恢复先前损坏的区域来扩展 backbone 网络的感受野。VRM 对于车辆检测特别有帮助,如实验部分所示。

图 2:RangePerception 框架采用 range image  I 作为输入并生成密集预测。为了改进表示学习,该框架在 Range Backbone 之前依次集成了 VRM 和 RAK 模块。随后,使用专门设计的 Redundancy Pruner 来消除深层特征中的冗余,从而减轻后续 Region Proposal Network 和后处理层中的计算成本。

图 1:(a-d) 顶部 LiDAR 信号的示例帧,分别以 RV 和 BEV 表示。(e) 空间错位现象(Spatial Misalignment phenomena)。(f) 视觉损坏现象(Vision Corruption phenomena)。

图 3:Range Aware Kernel 将 range image 空间分解为多个子空间,并通过从每个子空间提取独立的特征来克服空间错位问题(Spatial Misalignment issue)。

图 5:Vision Restoration Module。通过预先定义恢复角 δ,VRM 构建了一个方位角 θ ∈ [−δ, 2π + δ] 的扩展球面空间。因此, range image  I 两侧的视觉损坏问题都得到了解决,显着简化了从 I 边缘提取特征的过程。

实验结果:

总结:

本文介绍了 RangePerception,这是一种基于 RV 的 3D 检测框架,可有效解决空间错位(Spatial Misalignment)和视觉损坏(Vision Corruption)的挑战。通过引入 RAK 和 VRM,RangePerception 在 WOD 上实现了卓越的检测性能,展示了其高效、准确的实际部署潜力。

引用:

@inproceedings{
bai2023rangeperception,
title={RangePerception: Taming Li{DAR} Range View for Efficient and Accurate 3D Object Detection},
author={Yeqi BAI and Ben Fei and Youquan Liu and Tao MA and Yuenan Hou and Botian Shi and Yikang LI},
booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
year={2023},
url={https://openreview.net/forum?id=9kFQEJSyCM}
}

原文链接:https://mp.weixin.qq.com/s/EJCl5kLxhHaa7lh98g2I6w

更新时间 2023-12-07