MonoDETRNext：下一代准确高效的单目3D检测方法！

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面&笔者的个人理解

基于单目视觉的3D目标检测在各个领域都至关重要，但现有方法在准确性和计算效率方面面临着重大挑战。在2D检测和深度估计的成功策略的基础上，本文提出了MonoDETRNext，它寻求在精度和处理速度之间取得最佳平衡。我们的方法包括开发高效的混合视觉编码器，增强深度预测机制，以及引入创新的查询生成策略，并通过高级深度预测器进行增强。在MonoDETR的基础上，MonoDETRNext引入了两种变体：强调速度的MonoDETRNext-F和注重精度的MonoDETRNext-A。我们认为MonoDETRNext为单目3D物体检测建立了一个新的基准，并为未来的研究开辟了道路。我们进行了详尽的评估，证明了该模型相对于现有解决方案的优越性能。值得注意的是，与MonoDETR相比，MonoDETRNext-A在KITTI测试基准上的AP3D指标提高了4.60%，而MonoDETRNext-F提高了2.21%。此外，MonoDETRNext-F的计算效率略高于其前身。

总结来说，本文的主要贡献如下：

提出了两种新的单目3D物体检测模型，即MonoDETRNext-F和MonoDETRNext-A，前者充分平衡了速度和精度，而后者强调了以精度为中心的目标。
构建用于3D目标检测的混合视觉编码器，精通对单目3D目标检测任务至关重要的特征的有效提取，以及集成精细但轻便的深度估计模块，可视化以提高检测精度。
利用迄今为止在2D目标检测范式中根深蒂固的方法，我们提出了一种有说服力的目标查询生成策略，该策略以精心设计的训练策略为基础，旨在有效优化模型性能，以适应单目3D目标检测的需求。

方法

Efficient Hybrid Vision Encoder

根据[36]中的研究结果，可变形DETR将其49%的计算工作量分配给编码器，但该组件仅对平均精度（AP）指标贡献11%。

受RT-DETR架构的启发，我们设计了一种创新的高效混合视觉编码器，专门为3D目标检测任务量身定制。该编码器的特点是减少了计算占用，同时保持了特征提取的效率。如图2所示，我们提出的编码器包括两个集成元件：奇异编码器层和基于CNN的跨尺度特征集成模块（CFIM）。如图3所示，CFIM起着融合单元的作用，将形容词特征融合成新颖的表征。该融合过程如以下公式：

Accurate Depth Predictor

The Sequential Dilated Convolution （SDC）模块，利用膨胀卷积提取多尺度局部特征。与lite-mono类似，我们采用了一种分阶段的方法，通过插入具有不同膨胀率的多个连续膨胀卷积来有效地聚合多尺度上下文。

The Regional-Global Feature Interaction (RGFI)的操作如下：给定输入特征图X，它被线性投影到查询、键和值中。交叉协方差注意力用于增强输入X：

Effective Query Generation and Overall Loss

实验结果

结论和限制

结论：本文介绍了一种新的基于单目视觉的3D目标检测方法。利用2D检测领域的进步，我们提出了高效而精确的MonoDETRNext。在MonoDETR奠定的基础上，我们引入了两种变体：MonoDETRNext-F优先考虑速度，MonoDETRNext-A强调准确性。我们的方法包括开发高效的混合视觉编码器、增强深度预测机制以及改进目标查询生成。通过综合性能评估，我们确定了我们的模型相对于现有方法的优势。通过优化精度和计算效率，MonoDETRNext在单目3D目标检测方面树立了一个新的基准，促进了未来在各种现实世界场景中的研究和应用。

局限性：尽管MonoDETRNext在提高单目3D物体检测的准确性和计算效率方面取得了实质性进展，但仍存在某些局限性。由于单目视觉方法的固有限制，与采用多视图方法或传感器融合技术（如激光雷达与相机的集成）的方法相比，在精度和性能方面仍然存在显著差异。

目标检测准确性计算效率视觉编码器查询生成 3d物体多尺度物体检测深度估计 cad 注意力检测器注意力机制 code 模型性能性能评估高精度 cto action 单视图

MonoDETRNext：下一代准确高效的单目3D检测方法！

写在前面&笔者的个人理解

相关工作回顾

MonoDETR and other monocular 3D detection

Multi-view 3D object detection

LiDAR and multi-source information fusion 3D object detection

方法

Efficient Hybrid Vision Encoder

Accurate Depth Predictor

Effective Query Generation and Overall Loss

实验结果

结论和限制