本文经自动驾驶之心公众号授权转载,转载请联系出处。
近年来,端到端自动驾驶技术取得了显著进展,表现出系统简单性和在开环和闭环设置下竞争性驾驶性能的优势。然而,端到端驾驶系统在驾驶决策方面缺乏可解释性和可控性,这阻碍了其在真实世界中的部署。本文利用CARLA模拟器收集了一个全面的端到端驾驶数据集,名为DriveCoT。它包含传感器数据、控制决策和chain-of-thought标签,用于指示推理过程。利用CARLA排行榜2.0中具有挑战性的驾驶场景,这些场景涉及高速驾驶和换道,并提出了一个基于规则的专家策略来控制车辆,并为其推理过程和最终决策生成了真值标签,覆盖了不同驾驶方面和最终决策的推理过程。该数据集可以作为一个开环端到端驾驶基准,可评估各种推理方面的准确性和最终决策。此外,我们提出了一个名为DriveCoT-Agent的基线模型,它是在我们的数据集上训练的,用于生成推理链预测和最终决策。经过训练的模型在开环和闭环评估中表现出很强的性能,证明了我们提出的数据集的有效性。
题目:DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving
作者单位:香港大学,华为,香港中文大学
开源地址:DriveCoT
DriveCoT,它包括一个新的数据集、基准和端到端自动驾驶的基线模型。传感器数据,如相机图像以及指示方向的目标点(左图像中的黄点),作为模型输入。如下右图所示,该模型通过生成不同驾驶方面的预测并进行chain-of-thought推理来获得最终的速度决策。此外,模型还生成了计划的未来转向点(左图中的蓝点)。
DriveCoT Agent的基线模型将过去一段时间的多视点摄像机视频和指示方向的目标点作为输入,以生成关于不同驾驶方面和计划的未来路线点的CoT预测。没有使用单帧图像作为输入,而是利用多视图摄像机视频来捕捉自车和周围物体的运动,从而能够早期预测潜在危险并支持高速驾驶。此外,最终的驾驶决策可以通过图8所示的过程从模型的chain-of-thought预测中得出。除了可解释性之外,训练后的模型在DriveCoT验证数据的开环评估和闭环测试基准方面都显著优于以前的方法。
DriveCoT Dataset
使用CARLA 0.9.14版本收集数据,并修改了提出的基于规则的专家政策,以适应高速驾驶和更具挑战性的场景。此外,使用一组跨越城市、住宅、农村和高速公路区域的预定义路线来执行专家政策,并在遇到许多具有挑战性的场景时驾驶自车。对于每个场景,数据收集在预定义的触发点启动,并在超过20秒的模拟时间或达到下一个场景的触发点时停止。
DriveCoT数据集包括1058个场景和36K个标记样本,以2Hz频率收集,每个场景平均17秒。分别以70%、15%和15%的比例将数据集划分为训练集、验证集和测试集,得到25.3K的训练样本、5.5K的验证样本和5.5K的测试样本。为了防止数据泄露,将同一场景中的所有数据分配给同一集合。此外,确保CoT方面在所有拆分中的分布是相似的。
专家策略
本文提出了一种基于规则的专家政策,该政策可以访问模拟器,经过有效的修改,使其适用于leaderborad2.0中的高速驾驶。根据自车速度为自车设计动态制动距离,以检测潜在的危险,包括红绿灯、停车标志或周围的车辆和行人。此外,拟议的专家政策还考虑了与同一车道上前方车辆的关系,以产生更微妙的速度决策。对于计划的未来航路点,收集具有固定距离间隔的专家航路点,类似于Transuser++,而不是固定时间间隔,以将航路点与目标速度区分开来。此外,当自车速度增加以避免振荡时,计划的路点被选择得离自车更远。
在DriveCoT中,根据场景组织收集的数据。每个场景都有一个元文件,指示场景类型、天气状况和一天中的时间。每个帧样本可以根据文件名与特定场景相关联,每帧包含来自六个1600×900 RGB相机和一个32线激光雷达传感器的传感器数据,以及专家政策的决策过程标签和文本形式和简化分类形式的最终决策。如图8所示,CoT方面包括检查红绿灯危险、停车标志危险、与周围物体的潜在碰撞、与前方车辆的关系等。
DriveCoT-Agent
所提出的基线模型DriveCoT Agent。它将多视图相机视频作为输入,并通过共享的视频SwinTransformer为每个视图提取视频特征。然后,通过变换器编码器融合不同视图的视频标记。对于不同的chain-of-thought driving aspects,为不同的任务定义了单独的可学习查询。这包括碰撞预测、红绿灯识别、停车标志、路口和前方车辆状态预测。此外,路径GRU将相关解码器输出与其他导航信息一起用于生成用于引导的计划路线点。
实验结果
DriveCoT数据集val split的开环评估。以前的方法只能提取二进制速度决策(正常驾驶或制动)。与以前的方法相比,所提出的DriveCoT Agent可以预测更精确、更详细的速度决策和转向路线点。
更多消融实验:
DriveCoT Agent的定性结果。它正确地为(a)车道交通工具、(b)红色交通灯和行人以及(c)道路中间的过街行人刹车。图像中的黄点是目标点,表示方向,而蓝点和绿点表示地面实况和预测的未来路线点。在(d)中,DriveCoT Agent根据嵌入视频输入中的碰撞距离和时间信息,生成与前方车辆有关的适当速度决策!