全球首发！总结七十余种开源数据集，一览自动驾驶开源数据体系

本文经自动驾驶之心公众号授权转载，转载请联系出处。

基于数据驱动的各类深度学习模型任务，近年来随着数据集规模的不断扩大，性能逐渐被提升，国内外各大自动驾驶公司都在不断建立自己的数据库，以及数据闭环系统，期待数据的丰富能够解决下半场自动驾驶问题，那么如何构建数据集？如何搭建自己的数据闭环系统解决长尾等各类问题呢？

现有自动驾驶数据集可大致分为两代，第一代数据集的传感模态复杂度相对较低、数据集规模相对较小，且大多局限于感知级任务，第一代数据集以发布于 2012 年的 KITTI 为代表。相比于第一代数据集，第二代数据集的特征为传感模态复杂度较高、数据集规模与多样性较丰富、所设置任务从感知扩展到预测、规控上，第二代数据集以 2019 年前后提出的 nuScenes、Waymo 为代表。

《自动驾驶开源数据体系：现状与未来》是由上海人工智能实验室牵头，上海交大、复旦大学、百度、比亚迪、蔚来等多个单位参与合作，期望促进新一代自动驾驶数据集与生态体系的建设、推动关键领域自主原创与科技自强的发展。该工作联合学术界、产业界同仁，首次系统性梳理了国内外七十余种开源自动驾驶数据集，并就未来第三代自动驾驶数据集应该具备的特质和数据规模，以及需解决的科学与技术问题，进行了详细分析与讨论。

论文地址：https://opendrivelab.com/Dataset_Survey_Chinese.pdf

项目地址：https://github.com/OpenDriveLab/DriveAGI

概要解读

作为人工智能重要应用领域之一，自动驾驶有望重塑现有的交通和运输模式，大大提高交通效率和安全性，深刻影响着未来的城市和社会发展。现如今，我国智能网联汽车产业迈入了商业化的试水和起步阶段。道路测试和示范应用场景趋于成熟，自动驾驶功能技术加速迭代，车联网应用场景日益丰富，各层面相关法规政策加速出台，共同推动市场进入高速发展期。

自动驾驶技术需要大量数据来训练算法模型，以识别和理解道路环境，从而做出正确的决策和行动，实现准确、稳定和安全的驾驶体验，数据的建设对于自动驾驶技术的发展至关重要！以特斯拉为例，特斯拉所积累的海量数据和驾驶场景是保持其算法优势的重要原因。另一方面，自然语言处理和通用视觉领域大模型的出现，更加印证了海量高质量数据的重要性，给予自动驾驶的数据集建设以启发！

图 1 展示了文章主要内容与组织架构。

第二章从自动驾驶任务侧，将数据集分为感知类、建图类、预测与规划类数据集，分别介绍各种类型数据集现状及发展，并围绕社区生态以及相关国际赛事展开数据集影响力方面的讨论。第三章面向数据算法闭环体系，对比多家商业解决方案，针对数据算法闭环中数据标注与质量把控、仿真技术、基于大模型的数据生成以及自动标注技术环节进行阐述。第四章就新一代数据集应有的特性进行展望

自动驾驶数据集

自KITTI发布以来，后面的数据集传感器模态复杂度逐渐提高，数据集规模与多样性日益增长，任务也从感知延伸至预测与规划！本文统计 2012 年至今近百种数据集，整体上从图 2 看出共 14 个数据集存在较高影响力，其中 KITTI、nuScenes、Waymo 这三个数据集影响力估计值处在第一梯队！

传感器模态复杂度逐渐提高：环视相机，激光雷达，高精地图，超声波雷达传感器，GPS、IMU、HD Map等；数据集规模与多样性日益增长：主流自动驾驶数据集的采集时长由最初的10小时左右逐渐提升至100小时，随着自动标注技术及标注工具的演进，近些年也出现了超过 1000 小时的数据集。除了数据丰富度，驾驶场景的多样性是自动驾驶系统表现的另一关键因素。为了提高算法在特定场景下的表现能力，Reasonable Crowd数据集采集了多个季节和极端天气下人车混行的复杂场景。为增强算法在不同地域的范化能力，Mapillary等数据集分别在多个大洲多个城市进行采集。任务多样化：2019 年的 nuScenes、Waymo、Argoverse V2等数据集，不仅包括感知任务还涵盖预测与规划任务，实现了在同一数据集上进行多种任务研究！

图 2 以数据集发布时间为横轴、数据集影响力估计值为纵轴，定性展示了主要公开数据集的情况。

从自动驾驶国内外挑战赛与榜单可以看出，近几年的赛题不再局限于感知类任务，正逐步朝感知决策一体化、端到端、大模型等方向发展；模型评测的设置从单一的比较分数高低，到多元化、创新性的评价。在未来自动驾驶比赛中，覆盖自动驾驶系统全链路的赛题会更加受研究人员青睐。

自动驾驶比赛与榜单在推动社区发展有至关重要的作用。测试服务器与榜单为广大研究者提供了一个公平比较模型结果的平台，同时让研究人员在榜单及时公开模型细节与代码。在一些较为活跃的榜单上，几乎每个月都能观察到榜首位置的迭代。而举办比赛与维护榜单需要主办方等多方面的共同努力，如提供数据下载途径、基准模型准备、测试服务器维护。

数据算法闭环体系

对于自动驾驶的各个模块来说，海量和高质量的数据是确保性能的必要条件。自动驾驶工程中一个一直存在的问题是长尾问题。其产生原因在于训练模型是数据量不足而导致存在少量情况未被模型学习，而在模型推理阶段，模型并不能对这些时而出现的边缘场景给出正确的结果。另外，对于基于规则的模块，现有的方式是通过人工设计各种规则来使模块输出符合人为设计逻辑的结果。这个方法耗时耗力，并且难以覆盖所有情况，有可能导致自动驾驶系统在某些情况是下失效。而使用数据驱动的神经网络代替这些模块是一个可能的解决方案。

海量数据的引入对于解决现存自动驾驶系统中的各种问题都很有必要。同时，在神经网络学习过程中，数据噪声的引入会不可避免地对优化过程产生负面影响，并降低模型性能。数据质量不仅包括传感器数据的分辨率和同时性等，还包括标签的准确性。在这两个方面中，任意一个方面存在质量问题都直接影响着自动驾驶系统的性能和安全性。由此，海量和高质量的数据成为构建自动驾驶系统必不可少的一个环节。

新一代自动驾驶数据集

数据规模的增大能够显著提升模型性能，但当数据量达到一定程度之后，模型性能增长趋于平缓。并且，自动驾驶车辆在真实世界中会不可避免地遇到训练数据之外的场景。因此，大规模地应用自动驾驶技术必然要求模型能够在罕见场景中做出正确行为，避免发生危险或功能失效的情况。由此看来，在自动驾驶领域我们并不需要一味地去扩充数据量。对于绝大多数交通场景来说，并不需要十分大量的数据就能够覆盖。而更需要关注的是长尾场景，由于某些交通场景十分罕见，如撞车等，数据的缺失会对自动驾驶系统的性能影响巨大。总的来说，在保证数据数量的前提下，场景丰富度对算法性能更为重要。

第一、二代自动驾驶数据集已经不能够继续满足自动驾驶系统的发展需求，新一代数据集的建设亟待提上日程。在大模型蓬勃发展的背景下，大数据成为新一代数据集不可缺少的一个特点。同时，模块化设计的自动驾驶系统在落地过程遇到迭代成本高、性能上界受限等问题，端到端自动驾驶架构逐步受到业界的青睐。除此之外，多模态传感器、高质量标注、模型逻辑推理能力等方面也需要得到重视。新一代数据集应该更侧重于：

面向多模态、保质保量；
面向端到端、决策导向；
面向智能化、逻辑推理；

结论

这篇综述详细评述了自动驾驶公开数据集的现状与挑战。针对数据算法闭环体系，结合当前大模型发展趋势，提出了下一代自动驾驶数据集的愿景与规划。系统性地总结了自动驾驶发展历程中所使用的数据集，展示了通过挑战赛与榜单促进社区发展的重要性。概括性地分析了自动驾驶数据算法闭环体系，并总结其中各个重要环节的作用，最后通过应用案例展现对数据算法闭环体系的使用方法。

原文链接：https://mp.weixin.qq.com/s/PipisRWHV7xqkVnBPjw_Jg