A Survey on Autonomous Driving Datasets: Data Statistic, Annotation, and Outlook(自动驾驶数据集调查：数据统计、标注与展望)

摘要

由于硬件和深度学习技术的最新进展，自动驾驶得到了迅速发展并显示出令人鼓舞的性能。高质量的数据集是开发可靠的自动驾驶算法的基础。以前的数据集调查要么集中在有限的数量上，要么缺乏对数据集特征的详细调查。为此，我们从多个角度对 265 个自动驾驶数据集进行了详尽的研究，包括传感器模式、数据大小、任务和上下文条件。我们引入了一种新颖的指标来评估数据集的影响，这也可以作为创建新数据集的指南。此外，我们还分析了标注流程、现有标注工具以及数据集的标注质量，表明建立标准标注流程的重要性。另一方面，我们深入分析了地理和敌对环境条件对自动驾驶系统性能的影响。此外，我们还展示了几个重要数据集的数据分布，并相应地讨论了它们的优缺点。最后，我们讨论了当前自动驾驶数据集的挑战和未来的发展趋势。

介绍

自主驾驶（AD）旨在通过创造能够准确感知环境、做出智能决策并在无需人工干预的情况下安全驾驶的车辆来彻底改变交通系统。由于令人兴奋的技术发展，各种自动驾驶产品已在多个领域实现，例如robotaxis [1]。自动驾驶的这些快速进步在很大程度上依赖于广泛的数据集，这有助于自动驾驶系统在复杂的驾驶环境中保持稳健和可靠。

近年来，自动驾驶数据集的质量和种类显着增加。数据集开发中第一个明显的现象是各种数据收集策略，包括由模拟器生成并从现实世界记录的合成数据集 [2]-[12] [13]-[29]，仅举几例。其次，数据集的组成各不相同，包括但不限于相机图像和激光雷达点云等多种传感器模式、各种任务的不同注释类型以及数据分布。图 1 描绘了 6 个著名的现实世界数据集（Argoverse 2 [28]、KITTI [13]、nuScenes [22]、ONCE [30]、Waymo [23] 和 ZOD [ 31]）在鸟瞰图（BEV）下，突出显示每个数据集的独特注释特征。传感器安装位置还反映了数据集的各种传感领域，包括机载、车辆到万物 (V2X) 或无人机领域。数据集的几何多样性和不同的天气条件也增强了自动驾驶数据集的通用性。

图 1. 数据集鸟瞰对象分布。每个热图代表一个数据集，并使用 X 和 Y 坐标绘制。 Y 是自我车辆的行驶方向。每个数据集的独特注释特征反映在分布范围、密度和边界框的数量上。

A. 研究差距和动机

我们在图2中展示了每年发布的感知数据集数量，以说明自动驾驶数据集的增长趋势。鉴于公开数据集数量庞大且不断增长，对这些资源的全面调查对于推进自动驾驶的学术和工业研究非常有价值。在之前的工作中，Yin 等人。 [32] 总结了 27 个公开可用的数据集，其中包含在公共道路上收集的数据。作为[32]的后续工作，[33]扩展了数据集的数量。郭等人。 [34] 和贾奈等人。 [35]从应用角度对现有数据集进行了系统介绍。除了描述现有数据集之外，Liu 等人。 [36]讨论了合成数据和真实数据之间的领域适应以及自动标记方法。李等人。 [37]总结了现有数据集并对下一代数据集的特征进行了详尽的分析。但这些调查仅总结了少量数据集，范围不广。 ADDataset[38]收集了大量数据集，但缺乏对这些数据集属性的详细分析。与通用数据集的研究相比，一些研究人员对特定类型的自动驾驶数据集进行了调查，例如异常检测[39]、合成数据集[40]、3D语义分割[41]或决策[42]。此外，一些特定任务的调查[43]、[44]也组织了相关的AD数据集。

我们从以下角度将我们的调查论文与其他自动驾驶数据集调查进行比较：收集的数据集数量（#DATASET）、相关任务、传感域（S. DOMAIN）、传感器模态（S. MODA.）、几何条件（GEO.）、环境条件（ENV.），分析数据分布，介绍注释质量和过程。在环境条件方面，我们指的是天气条件和照明的变化。几何条件包括情景类型和地理范围。我们粗粒度地描述任务类型，包括感知（PERC.）、预测（PRED.）、规划（PL.）、控制（C.）、0和端到端（E2E）。

在这项工作中，我们对自动驾驶中的大量数据集进行了全面、系统的调查。我们将我们的调查与表一中的其他调查进行比较。我们的调查涵盖了从感知到控制的所有任务，考虑了现实世界和合成数据，并提供了对几个关键数据集的数据模式和质量的见解。

B. 主要贡献

本文的主要贡献可概括如下：

我们概述了迄今为止记录的最详尽的自动驾驶数据集调查。我们尽可能全面地展示公开可用的数据集，记录其基本特征，例如发布年份、数据大小、传感器模式、传感域、几何和环境条件以及支持任务。
我们系统地说明了用于收集AD 数据的传感器和传感域。此外，我们描述了自动驾驶的主要任务，包括任务目标、所需的数据模式和评估指标。
我们根据数据集的传感领域和相关任务对数据集进行分类，使研究人员能够有效地识别和编译目标数据集的信息。这种方法有利于更加集中和富有成效的研究和开发工作。
此外，我们引入了影响力评分指标来评估已发布感知数据集的影响力。该指标还可以作为开发未来数据集的指南。我们深入分析具有高影响力分数的数据集，突出它们的优势和实用性。
我们研究数据集的注释质量以及各种自动驾驶任务的现有标记程序。
我们详细的数据统计从不同角度展示了各种数据集的数据分布，展示了其固有的局限性和合适的用例。
我们分析最新技术趋势和下一代数据集的发展方向，例如将语言集成到AD数据中、使用视觉语言模型生成AD数据、标准化数据创建以及促进开放数据生态系统。

图 3。我们介绍了传感器模式，以便直观地了解每个传感器的特性。 (a) 来自 nuScenes [22]，(b) 来自 KITTI [13]，(c) 来自 [46]，(d) 来自 [47]，(e) 来自 [48]。所有数据均来自数据集的开源数据。

图 4. 自动驾驶管线概览。自动驾驶系统可分为两种类型：模块化和端到端。这两种类型都依赖于安装在车辆或基础设施上的各种传感器收集的数据。这些系统在驾驶场景中与周围环境交互并做出响应。

图 5. 各种自动驾驶任务的示例。 (a) 来自 KITTI [13]，(b) 来自 Cityscapes [14]，(c) 来自 V2X-Seq [56]，(d) 来自 BDD100K [24]，(e) 来自 Refer-KITTI [57]，(f) 来自 KITTI-360 [58]，(g) 来自 Dr(eye)ve [59]，(h) 来自 TUMTraf [60]。所有数据均来自数据集的开源数据或托管数据集的网站。