当前位置:AIGC资讯 > AIGC > 正文

挖掘BEV潜力的边界!DA-BEV:无监督BEV SOTA新方案!

本文经自动驾驶之心公众号授权转载,转载请联系出处。

写在前面&笔者的个人理解

今天和大家探讨3D视觉感知领域中的一个特定问题:针对纯视觉的鸟瞰图(BEV)的无监督领Domain Adaptation(Unsupervised Domain Adaptation, UDA)。3D视觉感知在移动机器人、自动驾驶、虚拟现实等领域起着重要的作用,而近年来,纯视觉的BEV模型由于其在全面的3D理解、丰富的语义信息、高计算效率和低部署成本方面的优势而受到越来越多的关注。

研究背景上,尽管单目和基于激光雷达的3D感知取得了显著的进步,但当在源域(例如,训练数据的环境)训练的纯视觉BEV模型应用到目标域(例如,不同于训练数据的新环境)时,通常会出现明显的性能下降。这种性能降低主要是由于源域和目标域之间的显著差异所导致。

论文提出的问题是,尽管对于2D计算机视觉任务来说,无监督领Domain Adaptation已经被广泛探索,但对于纯视觉BEV感知来说,如何减少源域和目标域之间的差异仍然是一个极具挑战性且相对欠缺研究的问题。

为了解决这个问题,论文提出了一种名为DA-BEV的新框架,这是第一个针对纯视觉BEV感知的领域自适应框架。DA-BEV通过利用图像视图特征和BEV特征之间的互补性来解决BEV领Domain Adaptation的挑战。具体来说,这个框架通过引入可学习的查询来促进图像视图特征和BEV特征之间的相互作用,同时跨领Domain Adaptation它们。在这一过程中,BEV特征中的全局3D信息有助于适应图像视图特征,而图像视图特征中较少变化的2D信息则有助于适应BEV特征。

DA-BEV的设计包括两种基于查询的领Domain Adaptation技术:基于查询的对抗学习(QAL)和基于查询的自训练(QST)。这两种设计相辅相成,共同实现了有效的无监督BEV感知适应。

论文的主要贡献在于三个方面。首先,它提出了一种基于查询的领Domain Adaptation策略,这种策略利用了图像视图特征和BEV特征的互补性,适用于无监督的BEV感知适应。其次,它设计了DA-BEV,这是一种引入基于查询的对抗学习和基于查询的自训练的框架,有效地联合解决了领域自适应BEV感知的问题。最后,通过广泛的实验,DA-BEV在不同数据集和任务(如3D物体检测和3D场景分割)上展示了其在BEV感知适应方面的优越性能。

详解DA-BEV

DA-BEV整体框架

DA-BEV框架利用图像视图特征和BEV特征之间的互补性来解决BEV领Domain Adaptation的挑战。它设计了一种基于查询的领Domain Adaptation方法,通过引入可学习的查询,实现图像视图特征和BEV特征之间的交互以及它们的协同适应。直观地说,BEV特征中的全局3D信息有助于适应图像视图特征,而图像视图特征中的局部2D信息,由于领域变化较小,有助于适应BEV特征。基于这一理念,论文设计了两种基于查询的领Domain Adaptation技术:基于查询的对抗学习(QAL)和基于查询的自训练(QST)。

在DA-BEV框架中,为了捕获图像视图特征中较少的领域差异,引入了一个图像视图特征解码器 ,以及一组可学习的图像视图查询 。图像视图查询  和图像视图特征  之间的交互产生了图像视图查询特征 ,可以用下式表示:

然后,将查询特征  输入到多标签分类头中,以预测每个对象类别的概率。其中通过多标签分类损失函数进行训练,如下所示:

其中, 表示图像视图多标签分类注释。

为了捕获BEV特征中的全局3D信息,直接使用现成的BEV查询 ,这些查询与BEV特征交互,生成解码的BEV查询特征 。由于BEV特征编码了相机配置,而  是用3D物体注释训练的,所以解码的BEV查询特征  包含了丰富的全局3D信息,包括物体在3D BEV空间中的位置。这有助于适应那些在BEV空间中几乎不捕获全局3D信息的图像视图特征。

Query-based Adversarial Learning (QAL)

在Query-based Adversarial Learning (QAL)中,提出的方法利用从图像视图特征或BEV特征中查询得到的有用信息来规范化对方的对抗学习。具体来说,QAL使用两个域分类器来分别测量图像视图查询特征和BEV查询特征的域间距离,并利用测量得到的域间距离进行相互规范化。

QAL的关键在于同时减轻图像视图特征中的局部2D信息和BEV特征中的全局3D信息的域间差异,这两者对于在3D空间中定位和识别物体和背景都至关重要。此外,2D图像视图查询特征的对抗学习涉及较少的3D信息,其中BEV查询特征可以通过提供丰富的全局3D信息来有效地规范化它。

具体来说,域分类器    被用来测量2D图像视图和3D BEV特征的域间距离。QAL的相互规范化可以表述为以下损失函数:

其中  是用于跨域对齐的广泛采用的对抗学习损失函数。

Query-based Self-training (QST)

在Query-based Self-training (QST)中,提出的方法利用从图像视图特征和BEV特征中查询得到的有用信息来规范化它们的自训练。直观地说,解码的图像视图查询特征捕获了丰富的2D语义和位置信息,这些信息在域间具有较少的差异,而解码的BEV查询特征则捕获了BEV空间中的丰富全局3D信息。因此,这两种特征互补,共同有效地规范化自训练。

QST首先利用来自图像视图或BEV特征的预测来去噪另一方的预测。然后,QST通过积累去噪后的预测,获取全局类别分布,并进一步利用它来促进伪标签的生成。生成的伪标签方法具有三个特点:1)阈值是根据图像视图和BEV特征捕获的2D和3D信息动态确定的;2)通过为每个类别选择相同百分比的伪标签来缓解类别不平衡问题;3)它是在线的,不需要额外的推理轮次。

QST的训练损失可以表述为:

总体目标

综上所述,提出的DA-BEV的整体训练目标可以表述为以下公式:

其中

这一目标结合了图像视图特征和BEV特征的对抗学习和自训练,以实现跨Domain Adaptation。

相关实验

这个实验表格展示了在不同照明条件下,针对纯视觉BEV感知的无监督领Domain Adaptation的结果。具体来说,实验关注的是从白天到夜晚的场景转换。评估指标包括了不同类别的平均精度(Average Precision, AP)以及整体的平均精度(mAP)和标准化检测分数(Normalized Detection Score, NDS)。实验比较了四种方法:Source Only、SFA、MTTrans、STM3D和本文提出的DA-BEV。

  1. 类别细分的AP:表格中展示了对于不同类别(如汽车、卡车、建筑车辆、公共汽车等)的检测精度。这些细分的AP指标重要的是,它们揭示了模型在识别不同类型的物体上的性能,这在实际应用中是非常关键的,因为不同类型的物体对于感知系统的响应可能会有很大不同。
  2. 整体的mAP和NDS:整体的mAP是所有类别AP的平均值,提供了一个整体的性能指标。NDS是一种综合评估,不仅考虑了检测精度,还可能考虑了其他因素如位置准确度、大小估计等。这两个指标给出了一个更全面的性能评估。
  3. 方法比较
  • Source Only 是基线方法,没有进行领Domain Adaptation。
  • SFA、MTTrans、STM3D 是其他领Domain Adaptation方法。
  • DA-BEV (Ours) 是本文提出的方法。
  1. 分析
  • 在大多数类别上,DA-BEV的表现优于其他方法,特别是在“汽车”、“卡车”和“公共汽车”等类别上,这表明DA-BEV在进行领Domain Adaptation时能更好地维持或提高对这些类别的识别能力。

  • 对于“拖车”和“建筑车辆”等类别的检测依然是一个挑战,因为这些类别的AP值普遍较低。

  • 在整体mAP和NDS上,DA-BEV也显著优于其他方法,表明其在不同照明条件下的领Domain Adaptation性能整体更佳。

这个实验结果表明DA-BEV在进行无监督领Domain Adaptation,特别是在照明条件变化较大的情况下,能够有效提高3D物体检测的性能。

上图展示了DA-BEV框架在跨天气条件下(即晴天到雨天)进行3D物体检测的定性结果。左边的六个小图呈现了多相机视角下的3D预测结果,每个视角的图像中都有黄色的3D边界框标注着检测到的车辆。右边是鸟瞰图(BEV)视角的预测结果,其中橙色框表示预测位置,蓝色框代表实际的地面真相(Ground Truth)。在BEV图中,我们可以看到预测框和真实框的对比,能够直观地评估模型预测的准确性。例如,图中的一个交叉标记(X)指出了一个错误预测的位置,这种可视化有助于理解模型在不同环境条件下的表现和适应性。

这张表格进行了对白天到夜间适应中的参数分析。表格列出了不同的阈值参数()和指数移动平均参数()对模型平均精度(mAP)的影响。从左边的表格可以看出,当阈值参数  从10%增加到20%时,mAP从18.24增加到20.27,然后在25%时有所下降到19.57,这可能表明在一定范围内提高阈值可以改进性能,但超过某个点后性能会下降。右边的表格显示,随着  参数的增加,mAP先是增加然后又略微下降,这表明了模型对于参数选择的敏感性,以及在训练过程中保持参数的平衡是提高性能的关键。

另一张表格测试了DA-BEV方法在不同网络骨架上的泛化能力。实验考虑了三种不同的骨架:R50-C5、R50-P4和VoV-P4。在没有Domain Adaptation(Source Only)的情况下,这三种骨架的mAP分别是10.63、11.61和15.93。使用DA-BEV方法后,所有骨架的性能都有所提高,分别达到了13.03、14.22和20.27。这表明DA-BEV能够在不同的网络架构上提供一致的性能增益,从而验证了其泛化能力。

总体来看,这些信息表明DA-BEV是一个有效的框架,能够在不同的天气和光照条件下实现跨Domain Adaptation,并且具有良好的泛化能力。定性结果展示了模型在复杂环境中的实际应用性能,而定量结果则提供了参数选择和模型设计对性能影响的深入分析。

讨论

这篇论文提出的DA-BEV方法在跨域3D物体检测任务中展现了显著的优势,尤其是在处理不同光照和天气条件下的场景适应问题上。通过引入基于查询的自训练和对抗学习,DA-BEV能够有效地利用图像视图和BEV特征之间的互补性,从而改善了模型在目标域上的性能。这在跨天气条件,如从白天到夜间的适应任务中,尤为重要,因为光照变化对感知系统的影响很大。

定性分析表明,DA-BEV可以在多个相机视角中精确地识别和定位物体,并且在鸟瞰图中准确地重建3D场景。这一能力对于实际应用如自动驾驶和机器人导航是非常关键的,因为它们需要在各种环境条件下都能准确地感知周围的环境。此外,该方法在不同的网络骨架上都表现出良好的泛化能力,这意味着它可以与不同的网络架构集成,提高现有系统的适应性。

然而,DA-BEV方法也有其局限性。例如,它在某些特定类别,如拖车和建筑车辆的检测上,性能仍然有限,这可能是因为这些类别在数据集中的表示较少或者它们在不同光照条件下的外观变化更加显著。此外,虽然定性结果令人印象深刻,但在鸟瞰图中仍有少数误差,这表明模型在理解复杂场景方面仍有改进空间。

结论

在本文中,我们提出了DA-BEV,这是首个领域自适应的纯视觉BEV框架,它通过利用图像视图特征和BEV特征的互补性来解决领域自适应BEV的挑战。DA-BEV引入了基于查询的对抗学习(QAL)和基于查询的自我训练(QST),其中QAL/QST利用从图像视图特征或BEV特征中查询得到的有用信息来规范化另一个的对抗学习。广泛的实验展示了DA-BEV在各种数据集和任务上的卓越领域自适应BEV感知性能。展望未来,我们将通过引入它们的时间信息来进一步探索图像视图和BEV特征的互补性。、

原文链接:https://mp.weixin.qq.com/s/GSB8DX2VX6ROh6c-juRgMA

更新时间 2024-02-06