优于所有方法！HIMap：端到端矢量化HD地图构建

本文经自动驾驶之心公众号授权转载，转载请联系出处。

矢量化高清（HD）地图构建需要预测地图元素的类别和点坐标（例如道路边界、车道分隔带、人行横道等）。现有技术的方法主要基于点级表示学习，用于回归精确的点坐标。然而，这种pipeline在获得element-level信息和处理element-level故障方面具有局限性，例如错误的element 形状或element之间的纠缠。为了解决上述问题，本文提出了一个简单而有效的HybrId框架，命名为HIMap，以充分学习和交互点级和element级信息。

具体来说，引入了一种称为HIQuery的混合表示来表示所有地图元素，并提出了一种点element交互器来交互式地提取元素的混合信息，如点位置和element形状，并将其编码到HIQuery中。此外，还提出了点-element一致性约束，以增强点级和element级信息之间的一致性。最后，集成HIQuery的输出点元素可以直接转换为地图元素的类、点坐标和掩码。在nuScenes和Argoverse2数据集上进行了广泛的实验，结果显示始终优于以前的方法。值得注意的是，在nuScenes数据集上方法实现了77.8mAP ，显著优于以前的SOTA至少8.3 mAP！

论文名称：HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction

论文链接：https://arxiv.org/pdf/2403.08639.pdf

HIMap首先引入一种称为HIQuery的混合表示来表示地图中的所有地图元素。它是一组可学习的参数，可以通过与BEV特征交互来迭代更新和细化。然后，设计了一个多层混合解码器，将地图元素的混合信息（如点位置、元素形状）编码到HIQuery中，并进行点元素交互，见图2。混合解码器的每一层包括点元素交互器、自关注和FFN。在点元交互器内部，执行了一个相互交互机制，以实现点级和元素级信息的交换，避免单级信息的学习偏差。最终，集成HIQuery的输出点元素可以直接转换为元素的点坐标、类和掩码。此外，还提出了点-元素一致性约束，以加强点级和元素级信息之间的一致性。

HIMap框架一览

HIMap的总体pipeline如图3（a）所示。输入 HIMap与各种机载传感器数据兼容，例如来自多视图相机的RGB图像、来自激光雷达的点云或多模态数据。这里我们以多视图RGB图像为例来说明HIMap。

BEV特征提取器：使用BEV特征提取器从多视图RGB图像中提取BEV特征。它包括从每个透视图中提取多尺度2D特征的主干，将多尺度特征细化并融合为单尺度特征的FPN，以及将2D特征映射为BEV特征的2D到BEV特征转换模块。

HIQuery：为了充分学习地图元素的点级和元素级信息，引入HIQuery来表示地图中的所有元素！

混合解码器：混合解码器通过将HIQuery Qh与BEV特征X迭代交互来产生集成的HIQuery。

点元素交互器的目标是交互式地提取地图元素的点级和元素级信息并将其编码到HIQuery中。两个层次的信息相互作用的动机来自于它们的互补性。点级信息包含局部位置知识，而元素级信息提供整体形状和语义知识。因此，该交互使得能够对地图元素的局部信息和整体信息进行相互细化。

考虑到点级表示和元素级表示之间的原始差异，它们分别关注局部信息和整体信息，两级表示的学习也可能相互干扰。这将增加信息交互的难度，降低信息交互的有效性。因此，引入了点元素一致性约束，以增强每个点级别和元素级别信息之间的一致性，元素的可分辨性也可以得到加强！

实验结果对比

论文在NuScenes Dataset和Argoverse2 Dataset上进行了实验！

在nuScenes val-set上的SOTA模型进行比较：

和Argoverse2 val set上的SOTA模型比较：

与nuScenes验证集多模态数据下SOTA模型比较：