自动驾驶技术在硬件和深度学习方法的最新进展中迅速发展,并展现出令人期待的性能。高质量的数据集对于开发可靠的自动驾驶算法至关重要。先前的数据集调研试图回顾这些数据集,但要么集中在有限数量的数据集上,要么缺乏对数据集特征的详细调查。为此,这里从多个角度对超过200个自动驾驶数据集进行了详尽的研究,包括传感器模态、数据大小、任务和上下文条件。引入了一种新的评估每个数据集影响的度量标准,该标准还可以成为建立新数据集的指南。进一步分析了数据集的标注过程和质量。此外,对几个重要数据集的数据分布进行了深入分析。最后,讨论未来自动驾驶数据集的发展趋势。
自动驾驶(AD)旨在通过创建能够准确感知环境、做出智能决策并在没有人类干预的情况下安全行驶的车辆,彻底改变交通系统。由于令人激动的技术发展,各种自动驾驶产品已在多个领域实施,例如无人出租车。这些对自动驾驶的快速进展在很大程度上依赖于大量的数据集,这些数据集帮助自动驾驶系统在复杂的驾驶环境中变得稳健可靠。
近年来,自动驾驶数据集的质量和种类显著增加。数据集开发的第一个显著现象是各种不同的数据收集策略,包括通过仿真器生成的合成数据集和从真实世界记录的数据集等。其次,数据集在组成方面也各种各样,包括但不限于多种感知数据(如相机图像和LiDAR点云)以及用于自动驾驶各个任务的不同标注类型。下图1以俯视图的方式显示了六个真实世界数据集(Argoverse 2 、KITTI 、nuScenes 、ONCE 、Waymo 和ZOD )的3D目标边界框分布的统计数据,展示了每个数据集的独特标注特性。
根据传感器的设备位置,数据集的多样性还体现在感知领域中,包括车载、V2X、无人机等。此外,几何多样性和天气条件的改变提高了自动驾驶数据集的泛化能力。
下图2中展示了每年发布的感知数据集数量,以从一个角度反映自动驾驶数据集的趋势。由于存在大量且不断增加的公开发布的数据集,对自动驾驶数据集进行全面调查对推动学术和工业研究非常有价值。在先前的工作中,Yin等人总结了27个在公共道路上收集的数据的公开可用数据集。[35]除了描述现有数据集,讨论了合成数据和真实数据之间的域适应以及自动标注方法。[36]总结了现有数据集,并对下一代数据集的特征进行了详尽的分析。然而,这些调查仅总结了少量数据集,导致范围不够广泛。AD-Dataset 收集了大量数据集,但缺乏对这些数据集属性的详细分析。与对所有类型的数据集进行研究相比,一些研究人员对特定类型的自动驾驶数据集进行了调查,例如异常检测、合成数据集、3D语义分割和决策。
因此,本文的目标是提出一项全面而系统的研究,涵盖自动驾驶中的大量数据集,从感知到控制的所有任务,考虑真实世界和合成数据,并深入了解若干关键数据集的数据模态和质量。在下表I中对比了其他数据集调查和作者的调查。
本文的主要贡献可总结如下:
- 对自动驾驶数据集进行了全面调查。尽可能全面地考虑公开可用数据集,记录它们的基本特征,如发布年份、数据大小、传感器模态、感知领域、几何和环境条件以及支持任务。据我们所知,本工作提供了迄今为止记录的最广泛的自动驾驶数据集概述。
- 系统地说明了收集自动驾驶数据的传感器和感知领域。此外,描述了自动驾驶的主要任务,包括任务目标、所需数据模态和评估指标。
- 根据感知领域和支持任务对数据集进行了总结和划分,以帮助研究人员高效选择和收集目标数据集的信息。从而促进更有针对性和有效的研究和开发工作。
- 此外,引入了一个影响分数度量标准,评估了在社区中发布的感知数据集的影响力。这个指标也可以作为未来数据集开发的指导。深入分析了具有最高分数的数据集,突出它们的优势和效用。
- 调查了数据集的标注质量以及各种自动驾驶任务的现有标注程序。
- 进行了详细的数据统计,展示了不同角度的各种数据集的数据分布,展示了它们固有的限制和适用情况。
- 分析了最近的技术趋势,并展示了下一代数据集的发展方向。还展望了大语言模型进一步推动未来自动驾驶的潜在影响。
本文的目标是对现有的自动驾驶数据集进行详尽调查,以提供对该领域未来算法和数据集的开发提供帮助和指导。收集了侧重于四个基本自动驾驶任务的数据集:感知、预测、规划和控制。由于有几个多功能数据集支持多个任务,作者只在它们主要支持的主要范围中解释它们,以避免重复介绍。此外,收集了大量数据集,并以它们的主要特征展示在表格中。然而,对所有收集到的数据集进行详细解释可能无法突显最受欢迎的数据集,可能会妨碍研究人员通过这项调查找到有价值的数据集。因此,只详细描述了最有影响力的数据集。
本文的其余部分结构如下:第二节介绍了用于获取公共数据集以及数据集的评估指标的方法。第三节展示了自动驾驶中使用的主要传感器及其模态。第四节讨论了自动驾驶任务、相关挑战和所需数据。在第五节进一步讨论了几个重要的数据集。在第六节展示了标注过程和影响标注质量的因素。此外,在第七节对几个数据集的数据分布进行了统计。在第八节中,调查了自动驾驶数据集的发展趋势和未来工作。最后,在第九节总结。此调查的分类结构如下图3所示。
本节包括1) 如何收集和筛选数据集(II-A),以及2) 如何评估数据集对自动驾驶领域的影响(II-B)。
作者遵循[42]的方法进行系统性的回顾,以详尽收集已发布的自动驾驶数据集。为确保来源的多样性,作者利用了知名的搜索引擎,如Google、Google Scholar和Baidu来搜索数据集。为了确保从各个国家和地区全面收集数据集,使用英语、中文和德语进行搜索,使用关键词如“autonomous driving datasets”、“intelligent vehicle datasets”以及与目标检测、分类、跟踪、分割、预测、规划和控制相关的术语。
此外,在IEEE Xplore和自动驾驶及智能交通系统领域的相关会议中搜索,以收集来自期刊和会议论文集的数据集。通过关键词搜索和手动标题审查验证了这些来源的数据集。
最后,为了确保包括专业或较少知名的数据集,作者通过Github仓库和Paperwithcodes进行了搜索。类似于数据库,对数据集进行了手动和基于关键词的搜索。
作者引入了一个新的度量标准,即影响分数(impact score),用于评估已发布数据集的重要性,这也可以作为准备新数据集的指南。在本节中,详细解释了计算自动驾驶数据集影响分数的方法。
为了进行公平和可比较的比较,作者仅考虑与感知领域相关的数据集,因为感知领域占据了自动驾驶数据集的很大一部分。此外,为了确保评分系统的客观性和可理解性,考虑了各种因素,包括引用次数、数据维度和环境多样性。所有的值都是从官方论文或开源数据集网站收集而来。
引用分数。首先,作者从总引用次数和平均年引用次数计算引用分数。为了获得公平的引用计数,选择数据集的最早版本的时间作为其发布时间。此外,为了确保比较基于一致的时间框架,所有引用次数都是截至2023年9月20日收集的。总引用次数 反映了数据集的总体影响力。这个指标的较高数值意味着数据集得到了广泛的认可和研究人员的使用。然而,较早发布的数据集可能积累更多的引用。为了解决这种不公平,作者利用平均年引用次数,它描述了数据集的年引用增速。计算函数如下公式1所示。
其中 和 分别表示当前年份和数据集发布年份。另一方面,引用次数 distastes 的范围很广,从几位数到几万位数不等。为了缓解极端的不平衡并突显每个数据集之间的差异,作者对 和 都进行了对数变换,然后进行 Min-Max 归一化,如公式2所示。
最终,引用分数 是和的总和:
数据维度评分。 从四个角度测量数据维度:数据集大小、时间信息、任务数量和标注类别。数据集大小 f 由数据集的帧数表示,反映了其容量和全面性。为了获得数据集大小评分 ,采用与引用分数相同的方法处理帧数,以克服不同数据集之间的极端不平衡。
时间信息对于自动驾驶至关重要,因为它使车辆能够了解周围环境随时间的变化。作者使用 t ∈{0, 1} 表示数据集是否包含时间信息。关于任务数量,作者只考虑与自动驾驶感知领域中的六个基本任务相关的数据集,例如 2D 目标检测、3D 目标检测、2D 语义分割、3D 语义分割、跟踪和车道线检测。因此,任务数量评分被记录为 。类别的数量对于数据集的稳健性和多功能性至关重要。在统计过程中,如果一个数据集支持多个任务并包含各种类型的标注,作者选择类别数量最多的数据。然后,将这些类别分为五个级别,l = {1, 2, 3, 4, 5},基于五分位数。在后续过程之前,作者对 和 l 进行了规范化,以简化计算。
为了尽可能客观地反映数据维度评分 ,作者给四个组成部分分配了不同的权重,如下公式4所示。
环境多样性评分。根据以下因素评估数据集的环境多样性:
- 天气条件,例如雨雪。
- 白天或黄昏等数据收集时间。
- 驾驶场景的类型,例如城市或乡村。
- 几何范围指的是数据记录的国家或城市数量。
值得注意的是,作者将合成数据集的几何范围视为缺失。按照论文对数据进行分类的粒度来量化多样性。此外,对于缺失值,如果数据集宣布数据是在多样化条件下记录的,作者使用中值作为缺失值。否则,将此属性的缺失值设为1。作者将每个因素量化为五个不同级别,然后环境多样性评分 是这四个因素的总和。
最后,利用公式5计算影响分数 。
总影响分数为100,其中60%属于引用分数 ,数据维度分数 和环境多样性分数 占40%。
本节介绍主要用于自动驾驶的传感器及其模态。此外,分析了数据采集和通信领域,如车载、无人机和V2X的协同感知。
高效而准确地从周围环境中收集数据是自动驾驶可靠感知系统的关键。为了实现这一目标,在自动驾驶车辆和基础设施上使用了各种类型的传感器。传感器的示例如下图 4 所示。最常用的传感器是相机、LiDAR 和Radar。事件型和热成像相机也安装在车辆或道路旁边,以进一步提高感知能力。
RGB 图像。RGB 图像通常由单目、双目或鱼眼相机记录。单目相机提供不带深度的 2D 视图;双目相机通过其双镜头提供深度感知;鱼眼相机使用广角镜头捕捉广阔的视野。所有这些相机通过透镜将光传导到图像传感器(例如 CMOS),将这些光转换为表示图像的电子信号。如下图 5 (a) 所示,2D 图像捕捉环境的颜色信息、丰富的纹理、模式和视觉细节。由于这些特性,RGB 图像主要用于检测车辆和行人,并识别道路标志。然而,RGB 图像容易受到低照明、雨、雾或耀斑等条件的影响 。
LiDAR 点云。LiDAR 使用激光束测量传感器与目标之间的距离,从而创建 3D 环境表示 。LiDAR 点云(如下图 5 (b) 所示)提供高分辨率的精确空间信息,可以检测长距离内的目标。然而,这些点的密度会随着距离的增加而减小,导致远处目标的表示更为稀疏。天气条件,如雾,也会限制 LiDAR 的性能。总体而言,LiDAR 适用于需要 3D 简要信息的情况。
Radar点云。Radar通过发射射频波并分析其反射来检测目标、距离和相对速度。此外,Radar在各种天气条件下都具有很强的鲁棒性 。然而,Radar点云通常比 LiDAR 数据更粗糙,缺乏目标的详细形状或纹理信息。因此,Radar通常用于辅助其他传感器。下图 5 (c) 展示了Radar点云。
事件相机。事件型相机异步捕捉数据,仅在像素检测到亮度变化时才激活。捕捉到的数据称为事件(如图 5 (d) 所示)。由于采用了特定的数据生成方法,记录的数据具有极高的时间分辨率,并且可以捕捉快速运动而不模糊 。
热成像相机的红外图像。热成像相机(见下图 5 (e))通过捕捉红外辐射来检测热特征 。由于基于温差生成图像,热成像相机可以在完全黑暗中工作,并且不受雾或烟影响。然而,热成像相机无法分辨颜色或详细的视觉图案。此外,与光学相机相比,红外图像的分辨率较低。
惯性测量单元(IMU)。IMU 是一种电子设备,用于测量并报告目标的特定力、角速度,有时还有目标周围的磁场 。在自动驾驶中,它用于跟踪车辆的运动和方向。虽然 IMU 不包含周围环境的视觉信息,但通过将 IMU 的数据与其他传感器的数据融合,感知系统可以更准确、更鲁棒地跟踪车辆的运动和方向。
作者从收集的数据集中分析传感器的分布,如下图 6 所示。超过一半的传感器是单目相机(53.85%),这是因为它们价格低廉且性能可靠。此外,93 个数据集包含 LiDAR 数据,由于其高分辨率和精确的空间信息而受到重视。然而,由于高昂的成本,限制了 LiDAR 的广泛使用。除 LiDAR 点云外,29 个数据集利用双目相机捕捉深度信息。此外,分别包含Radar、热像相机和鱼眼相机的数据集比例分别为5.41%、3.42%和1.71%。考虑到以事件为基础的相机捕捉动态场景的时间效率,有三个数据集生成基于事件的相机数据。
自动驾驶系统中,自车与周围环境中其他实体之间的感知数据和通信起着至关重要的作用,确保了自动驾驶系统的安全性、效率性和整体功能性。因此,传感器的位置决定了可以收集的数据的质量、角度和范围,因此非常关键。总体而言,在自动驾驶环境中,传感器可以分为以下几个领域:自车、车联网(V2X)、无人机和其他。
自车:自车传感器直接安装在自动驾驶车辆上,通常包括相机、LiDAR、Radar和惯性测量单元(IMU)。这些传感器提供了车辆视角的直接视图,即时反馈车辆周围的情况。然而,由于车辆检测范围的限制,自车传感器可能在提供盲点内障碍物的预警或检测急弯附近的危险方面存在局限性。
车联网(V2X):车联网包括车辆与交通系统中的任何其他组件之间的通信,包括车辆对车辆(V2V)、车辆对基础设施(V2I)和车辆对网络(V2N)(如下图7所示)。除了直接的感知输入外,协同系统确保多个实体协同工作。
- 车到车(V2V) V2V使附近的车辆能够共享数据,包括它们的位置、速度和传感器数据,如相机图像或LiDAR扫描,有助于更全面地了解驾驶场景。
- 车到基础设施(V2I) V2I促进了自动驾驶车辆与基础设施组件之间的通信,例如交通灯、标志或路边传感器。嵌入在道路基础设施中的传感器,包括相机、LiDAR、Radar或基于事件的相机,协同工作以扩展感知范围并提高自动驾驶车辆的情境感知。在这项调查中,作者将通过基础设施或V2I进行的感知都归类为V2I。
- 车到网络(V2N) V2N指的是在车辆和更广泛的网络基础设施之间交换信息,通常利用蜂窝网络为车辆提供对云数据的访问。V2N通过共享跨区域数据或提供有关交通拥堵或道路封闭的实时更新,帮助V2V和V2I的合作感知。
无人机(Drone):无人机提供了一种空中视角,提供了轨迹预测和路径规划所需的数据。例如,来自无人机的实时数据可以集成到交通管理系统中,以优化交通流并提醒自动驾驶车辆前方的事故。
其他 未由前三种类型收集的数据被定义为其他,例如安装在非车辆目标上或多个领域的其他设备。
这一部分深入介绍了自动驾驶中的关键任务,如感知和定位、预测以及规划和控制。自动驾驶流程的概览如下图8所示。详细说明它们的目标、它们所依赖的数据的性质以及固有的挑战。图9展示了自动驾驶中若干主要任务的示例。
感知侧重于根据感知数据理解环境,而定位确定自动驾驶车辆在该环境中的位置。
2D/3D 目标检测
2D或3D目标检测旨在识别和分类驾驶环境中的其他实体。而2D目标检测在图像空间中识别目标,3D目标检测进一步整合由LiDAR提供的精确深度信息。尽管检测技术取得了显著进展,但仍存在一些挑战,如目标遮挡、光照变化和多样的目标外观。
通常情况下,使用AP度量来评估目标检测性能。根据[1],AP度量可表述为:
其中p(r)是精度-召回曲线。
2D/3D 语义分割
语义分割涉及将图像的每个像素或点云的每个点分类到其语义类别。从数据集的角度来看,保持细粒度的目标边界并管理大量标签要求对这个任务来说是一个重要的挑战。
正如中提到的,用于分割的主要度量标准包括平均像素准确率(mPA):
还有mIoU:
其中k*∈N是类别数,和和分别表示真正例、假正例和假反例。
目标跟踪
目标跟踪监控单个或多个目标随时间的轨迹。这项任务需要时间序列的RGB数据、LiDAR或Radar序列。通常,目标跟踪包括单目标跟踪或多目标跟踪(MOT)。
多目标跟踪准确度(MOTA)是用于多目标跟踪的广泛使用的度量,它结合了假反例、假正例和不匹配率(参见方程9):
其中,、和分别是随时间t的假正例、假反例和不匹配错误的数量。是真值。
此外,与其考虑单一阈值不同,Average MOTA(AMOTA)是基于所有目标置信阈值计算的。
高精度地图
高精度地图的目标是构建详细、高度准确的表示,其中包括有关道路结构、交通标志和地标的信息。一个数据集应该提供LiDAR数据以获取精确的空间信息,以及相机数据以获取视觉细节,以确保建立的地图准确性。
根据,高精度地图自动化和高精度地图变更检测越来越受到关注。通常,高精度地图的质量是通过准确度度量来估算的。
SLAM
同时定位与建图(SLAM)涉及构建周围环境的同时建图,并在该地图中定位车辆。因此,来自相机、用于位置跟踪的IMUs以及实时LiDAR点云的数据是至关重要的。引入了两个评估指标,相对位姿误差(RPE)和绝对轨迹误差(ATE),用于评估从输入RGB-D图像估计的轨迹的质量。
预测是指对周围agents的未来状态或行为进行预测。这种能力确保在动态环境中更安全地导航。预测使用了一些评估指标,例如均方根误差(RMSE):
其中N是样本的总数,和分别表示预测轨迹和真值轨迹。
负对数似然(NLL)(见方程11)是另一个重点关注轨迹正确性的度量,可用于比较不同模型的不确定性。
其中C是总类数,是预测的正确性的二进制指示器,是相应的预测概率。
利用来自相机和LiDAR等传感器的时间序列数据,轨迹预测涉及预测其他实体(如行人、骑车人或其他车辆)未来的路径或移动模式。
行为预测预测其他道路使用者的潜在动作,例如车辆是否会变道。训练行为预测模型依赖于具有广泛标注的数据,因为在不同情境中实体可能采取各种潜在动作。
意图预测侧重于推断目标行为背后的意图的高级目标,涉及对人类目标的物理或心理活动进行更深层次的语义理解。由于任务的复杂性,它不仅需要来自感知相机等传感器的数据,还需要其他信息,如交通信号和手势,以推断其他agents的意图。
- 规划: 规划代表对感知环境和预测做出反应的决策过程。经典的三级分层规划框架包括路径规划、行为规划和运动规划。
- 路径规划: 路径规划,也称为路线规划,涉及设定长期目标。这是一个高层次的过程,确定到达目的地的**路径。
- 行为规划: 行为规划位于框架的中层,与决策制定相关,包括变道、超车、合并和十字路口穿越等。这个过程依赖于对其他agents行为的正确理解和交互。
- 运动规划: 运动规划处理车辆实时应该遵循的实际轨迹,考虑到障碍物、道路状况和其他道路agents的预测行为。与路径规划相反,运动规划生成实现局部目标的适当路径。
- 控制: 自动驾驶中的控制机制管理自动驾驶汽车如何执行来自运动规划系统的决定的路径或行为,并纠正跟踪误差。它将高级命令转换为可执行的油门、刹车和转向命令。
端到端自动驾驶是指单个深度学习模型处理从感知到控制的所有任务,绕过传统的模块化流程。这样的模型通常更具适应性,因为它们通过学习来调整整个模型。它们的固有优势在于简单性和效率,通过减少手工制作组件的需求。然而,实施端到端模型面临着关键限制,如大量的训练数据需求、低解释性和不灵活的模块调整。
对端到端自动驾驶进行大规模基准测试可以分为闭环和开环评估。闭环评估基于仿真环境,而开环评估涉及根据来自真实世界数据集的专业驾驶行为评估系统的性能。
本节描述了在感知、预测、规划和控制领域中的具有里程碑意义的自动驾驶数据集。还展示了端到端自动驾驶的数据集。
感知数据集对于开发和优化自动驾驶系统至关重要。它们通过提供丰富的多模态感知数据,确保对周围环境进行有效感知和理解,从而增强车辆的可靠性和稳健性。
作者利用提出的数据集评估指标计算收集的感知数据集的影响分数,随后根据这些分数选择前50个数据集,以创建一个按时间顺序排列的概述,如下图10所示。同时,如前章节中所述,将数据集分为车载、V2X、无人机和其他,从每个类别中选择一个子集,编制一个包含50个数据集的综合表格(下表II)。值得注意的是,表中的数据集是按照其各自类别内的影响分数进行排序的,不代表总体的前50。在以下部分,作者选择了每个感知来源中影响分数最高的几个数据集,并考虑它们的发布年份。
车载
- KITTI: KITTI 自2012年发布以来,深刻影响了自动驾驶领域。KITTI包含通过各种传感器记录的各种真实驾驶场景,包括相机、LiDAR和GPS/IMU。其丰富的标注和高分辨率的传感器数据促进了在各种自动驾驶任务(如目标检测、跟踪、光流、深度估计和视觉里程计)方面的算法开发和基准测试。
- Cityscapes: Cityscapes 包括在复杂城市环境中明确捕获的大量图像。通过精心标注,Cityscapes为30个不同的目标类别提供像素级分割,其中包括各种车辆类型、行人、道路和交通标志信息。由于其复杂性和丰富性,Cityscapes已成为诸如城市场景中语义分割等任务的标准基准。
- SYNTHIA: SYNTHIA 是自动驾驶领域的合成数据集。该数据集包含13,400张图像,具有语义分割的逐像素标注。SYNTHIA的一个显著特点是它能够弥合现实世界和合成数据之间的差距,促进了在不同领域之间开发稳健且可转移的方法。
- Virtual KITTI: Virtual KITTI 通过虚拟环境密切模仿了原始KITTI数据集,通过提供包含各种交通情况和环境条件的高分辨率视频序列而脱颖而出。类似于,Virtual KITTI支持关键的自动驾驶任务,包括目标检测、语义分割和目标跟踪。
- VIPER: VIPER 是从现实虚拟世界的驾驶、骑行和步行视角收集的合成数据集,解决了数据稀缺和标注现实世界数据的高成本挑战。VIPER包含超过25万帧视频,为低级和高级视觉任务提供了真值数据,同时涵盖各种天气条件、光照场景和复杂的城市风景。总体而言,VIPER为研究人员提供了一个宝贵且经济高效的工具,以加速可靠且安全的自动驾驶的发展。
- Apolloscapes:Apolloscapes 提供了超过140,000个高分辨率帧,具有准确的边界框和像素级语义标签,对于训练和验证自动车辆的感知和导航系统至关重要。Apolloscapes支持图像和点云的语义分割,2D/3D目标检测,多目标跟踪和车道线分割,从而实现先进且安全的自动驾驶系统的创建和评估。
- SemanticKITTI:SemanticKITTI 是KITTI家族的一个显著扩展,专注于自动驾驶领域的语义分割。SemanticKITTI包含超过43,000个LiDAR点云帧,使其成为户外环境中3D语义分割最大的数据集之一。SemanticKITTI为28个类别提供精确的标签,如汽车、道路、建筑等,为评估点云语义分割方法的性能提供了强有力的基准,支撑了相关领域的许多研究和创新。
- nuScenes:nuScenes 是自动驾驶领域的重要贡献,提供了一个丰富的数据库,满足感知系统的多样化需求。nuScenes利用LiDAR、Radar和相机记录来自波士顿和新加坡不同城市场景的数据。值得一提的是,其六个相机提供了对周围环境的全面视角,在多视角目标检测任务中得到广泛应用。总体而言,nuScenes数据集是发展自动驾驶技术的基石,支持多任务和应用,并在该领域设立了新的基准。
- Waymo:Waymo Open Dataset ,于2019年推出,通过提供大量的多模态感知数据和高质量标注,显著影响了自动驾驶研究和进展。Waymo数据集的关键贡献包括其对驾驶条件和地理位置的全面覆盖,这对于不同任务(如检测、跟踪和分割)的鲁棒性和通用性至关重要。
- BDD100K:BDD100K 数据集,由伯克利DeepDrive中心于2018年发布,是一个规模庞大且多样化的驾驶数据集,以其规模和多样性而闻名。它包括100,000个大约40秒的视频。同时,它为目标检测、跟踪、语义分割和车道线检测提供了各种标注标签。这个庞大的数据集推动了自动驾驶社区的进展,成为研究人员和工程师提出和改进算法的具有挑战性和多功能的平台。
- RADIATE:RADIATE 是第一个公开的Radar数据集,包含44,140帧在不同恶劣天气条件下收集的带标注的图像,如雨天、雾天、阴天和雪天。它还整合了LiDAR和相机数据,使驾驶环境的全面感知和理解成为可能。
- Argoverse 2:Argoverse 2 作为Argoverse 1 的续集,引入了更多样化和复杂的驾驶场景,展示了迄今为止最大的自动驾驶分类法。它捕捉了六个城市和不同条件下的各种实际驾驶场景。Argoverse 2支持多个重要任务,包括但不限于3D目标检测、语义分割和跟踪。总之,Argoverse 2数据集提供了大量真实驾驶场景的多模态数据,促进了算法的创新和进步,并展示了其在自动驾驶中作为重要资源的实质潜力。
V2X
- V2VNet:V2VNet 引入的数据集专注于利用V2V通信,允许自动车辆从多个视点共享信息,这对于检测被遮挡目标和预测其他交通参与者的行为至关重要。该数据集使用名为Lidarsim 的高保真LiDAR仿真器创建,该仿真器利用真实世界数据生成各种交通场景的逼真LiDAR点云。总的来说,这项工作引起了对V2V作为提高自动车辆能力的有前途的途径的关注。
- DAIR-V2X:DAIR-V2X 是在车辆基础设施协同自动驾驶领域的开创性资源,提供大规模、多模态、多视图的真实世界数据。该数据集旨在解决车辆和基础设施传感器之间的时间不同步以及此类协作系统中涉及的数据传输成本等挑战。DAIR-V2X数据集对自动驾驶的影响很大,因为它为车辆基础设施合作的复杂性设立了一个基准,多亏了其来自真实世界的多种场景。
- Rope3D:Rope3D 是感知系统的重要贡献,通过利用从路边相机收集的数据,填补了自动驾驶中的关键差距。Rope3D包括50,000张图像,处于不同的环境条件,包括不同的照明(白天、夜晚、黄昏)和天气情况(雨天、晴天、多云)。总体而言,Rope3D数据集是推动路边感知在自动驾驶中取得进展的先导工作,同时也是研究人员和工程师开发更健壮、智能的自动驾驶系统的重要工具。
- V2V4Real:V2V4Real 是第一个大规模的真实世界数据集,用于处理V2V合作感知。该数据集从两辆配备有多模态传感器(如LiDAR和相机)的车辆中收集。V2V4Real关注一系列感知任务,如合作3D目标检测、合作3D目标跟踪和Sim2Real域适应。这种多功能性使其成为开发和基准测试自动驾驶算法的宝贵资源。
无人机
- UAVDT:UAVDT 数据集包含80,000个准确标注的帧,其中包括14种属性,如天气条件、飞行姿态、相机视图、车辆类别和遮挡级别。该数据集专注于在城市环境中基于UAV的目标检测和跟踪。此外,UAVDT基准测试包括密集场景、小型目标和显著的相机运动,这对于当前最先进的方法来说都是具有挑战性的。
- DroneVehicle:DroneVehicle 提出了一个大规模的基于无人机的数据集,提供28,439个RGB-红外图像对,用于解决低照明条件下的目标检测问题。此外,它涵盖了各种场景,如城市道路、住宅区和停车场。由于其在广泛条件下的独特无人机视角,这个数据集是发展自动驾驶技术的重要一步。
其它
- Pascal3D+:Pascal3D+ 是PASCAL VOC 2022 的扩展,通过为图像提供更丰富和多样化的标注来克服以前数据集的局限性。Pascal3D+通过为12个刚性目标类别(如汽车、公共汽车、自行车)提供3D姿势标注,并从ImageNet 添加更多图像,实现了高度的可变性。
- TT 100K:清华大学-腾讯100K 解决了在现实驾驶条件下检测和分类交通标志的挑战。它提供了100,000张图像,包括30,000个交通标志实例。除了大规模的数据大小外,高分辨率的图像涵盖了各种照明和天气条件,使其对于交通标志识别的训练和验证具有鲁棒性。
- Mapillary Vistas :由于2017年提出,主要旨在对街景进行语义分割。该数据集包含25,000张图像,标有66个目标类别,并包括37个类别的实例特定标注。它包含来自不同天气、时间和几何位置的图像,有助于减轻对特定区域或条件的偏见。
预测、规划和控制数据集是促进训练和评估驾驶系统的基础,用于预测交通动态、行人移动和其他影响驾驶决策的重要因素。通过仿真各种驾驶场景,它们使自动驾驶车辆能够做出明智的决策,穿越复杂的环境,并在道路上保持安全和高效。因此,作者根据数据大小、模态和引用数量详细展示与这些任务相关的几个高影响力的数据集。将预测、规划和控制数据集总结为任务特定和多任务两组。
任务特定数据集:
- highD。基于无人机的highD 数据集提供了德国高速公路上自然车辆轨迹的大规模收集,包含110,000辆汽车和卡车的后处理轨迹。该数据集旨在克服现有基于场景的安全验证测量方法的局限性,这些方法通常无法捕捉道路用户的自然行为或包含具有足够质量的所有相关数据。
- PIE。由提出的行人意图估计(PIE)数据集在理解城市环境中的行人行为方面取得了重大进展。它包含在多伦多市中心记录的超过6小时的行车录像,涵盖了各种光照条件。PIE数据集提供了对感知和视觉推理的丰富标注,包括带有遮挡标志的边界框、过街意图置信度以及行人行为的文本标签。长时间的连续序列和标注有助于多个任务,如轨迹预测和行人意图预测。
- USyd。USyd 在没有交通信号灯的城市交叉口背景下推动了驾驶员意图预测的进展,这在城市设置中很常见,由于缺乏明确的道路规则和信号,构成了一项挑战。该数据集包括超过23,000辆车穿越五个不同的交叉口的数据,使用车载LiDAR跟踪系统收集。数据模态包括详尽无遗的提供了横向和纵向坐标、航向和速度的车辆轨迹。这些信息对于预测驾驶行为至关重要,考虑到人类驾驶模式中固有的不确定性。
- Argoverse。Argoverse 是3D目标跟踪和运动预测中的一个关键数据集。Argoverse提供了来自7个相机、前视双目图像和LiDAR点云的360°图像。记录的数据涵盖了来自290km映射车道线的300,000多条车辆轨迹。借助丰富的传感器数据和语义地图,Argoverse对于推动预测系统的研究和开发至关重要。
- inD。inD 的重要性在于它大规模、高质量且多样化的轨迹数据,对于道路用户预测模型和城市交叉口环境中自动车辆的基于场景的安全验证至关重要。它涵盖了大约11,500条不同的道路用户轨迹,例如车辆、自行车和行人。这些轨迹的定位误差小于0.1米,对于数据的可靠性至关重要。
- PePscenes。PePscenes 解决了在动态驾驶环境中理解和预测行人动作的需求。该数据集通过添加每帧2D/3D边界框和行为标注,重点关注行人过马路行为,增强了nuScenes 数据集。的一个关键属性是结合各种数据类型,包括语义地图、场景图像、轨迹和自车状态,这对于创建能够理解复杂交通场景的强大模型至关重要。
- openDD。openDD 数据集专注于分析和预测环状交叉口周围的交通场景,这些场景复杂且不受交通信号灯约束。它是在使用高分辨率(4K)的无人机捕获的图像的基础上创建的,跨足了来自501次单独飞行的62小时轨迹数据。该数据集不仅包含轨迹,还包括描述道路拓扑结构的shapefiles和可扩展标注语言(XML)文件,以及每个底层交叉口的参考图像。
- nuPlan。nuPlan 是自动驾驶中世界上第一个闭环机器学习规划基准。这个多模态数据集包括来自美国和亚洲四个城市的约1,500小时的人类驾驶数据,展示了不同的交通模式,如合并、变道、与骑自行车和行人的互动以及在施工区驾驶。nuPlan数据集的这些特征考虑了实际驾驶的动态和互动性质,使其更适合进行更真实的评估。
- exiD。 exiD 轨迹数据集是2022年提出的,对高度交互的高速公路场景具有重要意义。它利用无人机记录交通情况,减少对交通的影响,并确保高数据质量和效率。这个基于无人机的数据集在捕捉各种交互中的多样性方面超过了先前的数据集,特别是涉及高速入口和出口的车道线变更。
- MONA。Munich Motion Dataset of Natural Driving (MONA) 是一个庞大的数据集,包含来自130小时视频的702,000条轨迹,覆盖了具有多个车道线的城市道路、市区高速公路以及它们的过渡。这个数据集展示了0.51米的平均整体位置精度,展示了使用高度精确的定位和LiDAR传感器收集数据的质量。
多任务数据集:
- INTERACTION。 INTERACTION 数据集涵盖了多样、复杂和关键的驾驶场景,结合了全面的语义地图,使其成为一个多功能平台,可用于多种任务,如运动预测、模仿学习以及决策和规划的验证。它包括不同国家的数据,进一步提高了对不同文化驾驶行为进行分析的鲁棒性,这对全球自动驾驶的发展至关重要。
- BLVD。 BLVD 基准有助于动态4D(3D+时间)跟踪、5D(4D+交互)交互事件识别和意图预测等任务,这些对于更深入理解交通场景至关重要。BLVD提供了来自不同交通场景的约120,000帧,包括目标密度(低和高)和照明条件(白天和夜晚)。这些帧被完全标注,包括大量的3D标签,涵盖了车辆、行人和骑手。
- rounD。由提出的rounD数据集对于场景分类、道路用户行为预测和驾驶员建模至关重要,因为它收集了在环状交叉口的大量道路用户轨迹。该数据集利用装备有4K分辨率相机的无人机收集了超过六小时的视频,记录了超过13,000名道路用户。广泛记录的交通情况和高质量的录像使rounD成为自动驾驶中不可或缺的数据集,促进了对公共交通中自然驾驶行为的研究。
- Lyft Level 5。Lyft Level 5 是迄今为止最大规模的用于运动预测的自动驾驶数据集之一,拥有超过1,000小时的数据。它包括17,000个25秒长的场景,一个具有超过15,000个人工标注的高清语义地图,8,500个车道线段和该区域的高分辨率航拍图像。它支持多个任务,如运动预测、运动规划和仿真。详细标注的众多多模态数据使Lyft Level 5数据集成为预测和规划的重要基准。
- LOKI。LOKI 代表着长期和关键意图(Long Term and Key Intentions),是多agents轨迹预测和意图预测中的一个重要数据集。LOKI通过提供大规模、多样化的数据,包括行人和车辆在内,弥补了智能和安全关键系统的一个关键空白。该数据集通过利用带有相应LiDAR点云的相机图像,提供了交通场景的多维视图,使其成为社区中非常灵活的资源。
- SceNDD。SceNDD 引入了真实驾驶场景,展示了多样的轨迹和驾驶行为,可用于开发高效的运动规划和路径跟踪算法。它还适用于自动驾驶汽车不同配置,并包含可以分解为时间戳进行详细分析的预测时间视角。总的来说,SceNDD数据集是自动驾驶预测和规划研究的重要补充。
- DeepAccident。 合成数据集DeepAccident 是第一个为自动驾驶汽车提供直接且可解释的安全评估指标的工作。这个包含57,000个带标注帧和285,000个带标注样本的大规模数据集支持端到端的运动和事故预测,对于提高自动驾驶系统在避免碰撞和确保安全方面的预测能力至关重要。此外,这个多模态数据集对于各种基于V2X的感知任务,如3D目标检测、跟踪和鸟瞰(BEV)语义分割,都是多才多艺的。
- Talk2BEV。创新的数据集Talk2BEV 推动了从传统的自动驾驶任务转向在自动驾驶背景下将大型视觉语言模型与BEV地图相结合的趋势。Talk2BEV利用了视觉语言模型的最新进展,允许对道路场景进行更灵活、全面的理解。该数据集包含超过20,000个多样的问题类别,全部由人工标注,并源自。所提出的Talk2BEV-Bench基准可用于多项任务,包括决策制定、视觉和空间推理以及意图预测。
- V2X-Seq(预测)。轨迹预测数据集是现实世界数据集V2X-Seq 的重要组成部分,包含约80,000个基础设施视图和80,000个车辆视图场景,以及额外的50,000个协同视图场景。这种感知领域的多样性为研究和分析车辆基础设施协同(VIC)轨迹预测提供了更全面的视角。
端到端已经成为自动驾驶中的一个趋势,作为模块化架构的替代。一些多功能数据集(如nuScenes 和Waymo )或仿真器(如CARLA )提供了开发端到端自动驾驶的机会。同时,一些工作提出了专门用于端到端驾驶的数据集。
- DDD17。 DDD17 数据集因其使用事件型相机而显著,该相机提供标准主动像素传感器(APS)图像和动态视觉传感器(DVS)时间对比事件的同时流,提供了视觉数据的独特组合。此外,DDD17捕捉了包括高速公路和城市驾驶在内的各种驾驶场景,以及不同的天气条件,为训练和测试端到端自动驾驶算法提供详尽而现实的数据。
在本调查中总结的其他数据集显示在表IV、表V、表VI中。
自动驾驶算法的成功和可靠性不仅依赖于大量的数据,还依赖于高质量的标注。本节首先解释了标注数据的方法。此外分析了确保标注质量的最重要方面。
不同的自动驾驶任务需要特定类型的标注。例如,目标检测需要实例的边界框标签,分割基于像素或点级别的标注,对于轨迹预测来说,标注连续的轨迹至关重要。另一方面,如下图11所示,标注流程可以分为三种类型:手动标注、半自动标注和全自动标注。在本节详细说明了不同类型标注的标注方法。
标注分割数据。标注分割数据的目标是为图像中的每个像素或LiDAR帧中的每个点分配一个标签,以指示它属于哪个目标或区域。在标注之后,属于同一目标的所有像素都用相同的类别进行标注。对于手动标注过程,标注者首先在目标周围画出边界,然后填充区域或直接涂抹像素。然而,以这种方式生成像素/点级别标注是昂贵且低效的。
许多研究提出了全自动或半自动的标注方法以提高标注效率。提出了一种基于弱监督学习的完全自动标注方法,用于分割图像中提出的可行驶路径。[265]是一种半自动标注方法,利用目标先验生成分割mask。之后,[266]提出了一种考虑20个类别的半自动方法。Polygon-RNN++ 提出了一种交互式分割标注工具,遵循[268]的思路。[269]不使用图像信息生成像素级标签,而是将3D信息转移到2D图像领域生成语义分割标注。对于标注3D数据,[270]提出了一个图像辅助标注流程。[271]利用主动学习选择少量点并形成最小训练集,以避免标注整个点云场景。[272]引入了一种使用半/弱监督学习进行标注的高效标注框架,以标注室外点云。
标注2D/3D边界框。边界框标注的质量直接影响了自动驾驶车辆感知系统(如目标检测)在现实场景中的有效性和鲁棒性。标注过程通常涉及使用矩形框标注图像或使用长方体标注点云,以精确包围感兴趣的目标。
Labelme 是一种专注于为目标检测标注图像的工具。然而,由专业标注者生成边界框面临与手动分割标注相同的问题。Wang等人 提出了一种基于开源视频标注系统VATIC的半自动视频标注工具。[275]是另一种用于自动驾驶场景的视频标注工具。与白天标注相比,处理夜间的边界框标注更具挑战性。[276]介绍了一种利用轨迹的半自动方法来解决这个问题。
与2D标注相比,3D边界框包含了更丰富的空间信息,如准确的位置、目标的宽度、长度、高度以及空间中的方向。因此,标注高质量的3D标注需要一个更复杂的框架。Meng等人 应用了一个两阶段的弱监督学习框架,使用人为循环来标注LiDAR点云。ViT-WSS3D 通过对LiDAR点和相应弱标签之间的全局交互建模来生成伪边界框。Apolloscape 采用了类似于的标注流程,包括3D标注和2D标注两个分支,分别处理静态背景/目标和移动目标。3D BAT 开发了一个标注工具箱,以辅助在半自动标注中获取2D和3D标签。
标注轨迹。轨迹本质上是一系列点,映射了目标随时间的路径,反映了空间和时间信息。为自动驾驶标注轨迹数据的过程涉及对驾驶环境中各种实体的路径或运动模式进行标注,如车辆、行人和骑车者。通常,标注过程依赖于目标检测和跟踪的结果。
在轨迹标注的先前工作中,[280]在线生成了用于演习的动作,并被标注到轨迹中。[281]包括一个众包步骤,后跟一个专家集成的精确过程。[282]开发了一个主动学习框架来标注驾驶轨迹。精确地预测行人的运动模式对于驾驶安全至关重要。Styles等人 引入了一种可扩展的机器标注方案,用于无需人工努力的行人轨迹标注。
在合成数据上进行标注。由于在真实世界数据上进行手动标注的费时昂贵,通过计算机图形和仿真器生成的合成数据提供了解决这个问题的替代方法。由于数据生成过程是可控的,场景中每个目标的属性(如位置、大小和运动)都是已知的,因此可以自动且准确地标注合成数据。
生成的合成场景被设计成模仿真实世界的条件,包括多个目标、各种地貌、天气条件和光照变化。为了实现这个目标,一些研究人员利用了《侠盗猎车手5》(GTA5)游戏引擎构建了数据集 。[284]基于多个游戏构建了一个实时系统,用于生成各种自动驾驶任务的标注。SHIFT 、CAOS 和V2XSet 是基于CARLA 仿真器创建的,而不是应用游戏视频。与[11]相比,V2X-Sim 研究了使用多个仿真器 ,为V2X感知任务生成数据集。CODD 进一步利用生成用于合作驾驶的3D LiDAR点云。其他工作利用Unity开发平台 生成合成数据集。
现有基于监督学习的自动驾驶算法依赖于大量的标注数据。然而,在质量低的标注上进行训练可能会对自动驾驶车辆的安全性和可靠性产生负面影响。因此,确保标注的质量对于提高在复杂的现实环境中行驶时的准确性是至关重要的。根据研究,标注质量受到多个因素的影响,例如一致性、正确性、精度和验证。一致性是评估标注质量的首要标准。它涉及在整个数据集上保持一致性,对于避免在训练在这些数据上的模型时产生混淆至关重要。例如,如果特定类型的车辆被标注为汽车,那么在所有其他情况下,它应该被一致地进行相同的标注。标注精度是另一个重要的指标,它指的是标签是否与目标或场景的实际状态相匹配。相比之下,正确性强调标注的数据是否适用于数据集的目的和标注准则。在标注之后,验证标注数据的准确性和完整性是至关重要的。这个过程可以通过专家或算法的手动审查来完成。验证有助于在问题影响自动驾驶车辆性能之前有效地防止数据集中的问题,从而减少潜在的安全风险。[288]提出了一种面向数据的验证方法,适用于专家标注的数据集。
KITTI 的一个标注失败案例如下图12所示。在相应的图像和LiDAR点云中说明了真值边界框(蓝色)。在图像的左侧,汽车的标注(用红色圈出)不准确,因为它未包含整个汽车目标。此外,尽管相机和LiDAR清晰捕捉到两辆汽车(绿色长方体突出显示),但它们未被标注。
这一部分将详细系统地从不同角度分析数据集,例如全球数据的分布,时间趋势,以及数据分布。
在图13中展示了191个自动驾驶数据集的全球分布概况。该图表显示美国处于领先地位,拥有40个数据集(占比21%),突显了其在自动驾驶领域的领导地位。德国拥有24个数据集,反映了其强大的汽车工业和对自动驾驶技术推动的影响。中国紧随其后,拥有16个数据集,表明中国在这一领域的兴趣和投资。另一个值得注意的点是,全球范围内有11个数据集,欧洲地区(不包括德国)有24个数据集。这种多样化的区域分布增强了收集到的数据的稳健性,并突显了研究界和工业界的国际合作和努力。
另一方面,尽管较小的部分代表了包括加拿大、韩国、英国、日本和新加坡在内的其他国家,这些国家都是拥有坚实技术背景和积累的发达国家——这一统计数据反映了极端的地区偏见。美国、西欧和东亚的主导地位导致了自动驾驶系统在这些地区典型的环境条件下过度拟合的偏见。这种偏见可能导致自动驾驶车辆在各种或未知的地区和情况下无法正常运行。因此,引入来自更广泛国家和地区的数据,如非洲,可以促进自动驾驶车辆的全面发展。
此外,由CARLA 等仿真器生成的35个合成数据集占18.32%。由于实际驾驶环境录制的局限性,这些合成数据集克服了这些缺点,对于开发更强大和可靠的驾驶系统至关重要。
在图10中,作者介绍了从2007年到2023年(截至本文撰写时)具有前50影响分数的感知数据集的时间趋势概览。这些数据集根据它们的数据来源领域进行了颜色编码,并且合成数据集用红色外框标注,清晰地展示了朝着多样化数据收集策略的进展。一个明显的趋势显示了多年来数据集的数量和种类的增加,表明随着自动驾驶领域的不断发展,需要高质量数据集。
总体而言,由于自动驾驶汽车有效而准确地感知周围环境的能力的重要性,大多数数据集提供了来自装备在自车上的传感器的感知视角(车载)。另一方面,由于实际世界数据成本高昂,一些研究人员提出了高影响力的合成数据集,如VirtualKITTI (2016年),以减轻对实际数据的依赖。在仿真器的有效性的推动下,近年来发布了许多新颖的合成数据集。在时间线上,像DAIR-V2X (2021年)这样的V2X数据集也呈现出向合作驾驶系统的趋势。此外,由于无人机提供的非遮挡视角,基于无人机的数据集,如2018年发布的UAVDT ,在推动感知系统方面发挥着关键作用。
在图14中介绍了这些数据集每帧目标数量的情况。值得注意的是,Waymo 展示了大量帧数少于50个目标的情况,同时在图表中占据了广泛的位置,说明了它在每帧中从低到高的目标密度涵盖了各种场景。相反,KITTI 展示了一个更为受限的分布和有限的数据规模。Argoverse 2 具有大量帧数的高目标计数,其峰值约为70,这表明了它在一般情况下复杂的环境表示。对于 ONCE ,其目标密度均匀地分布在支持的感知范围内。像 nuScenes 和 ZOD 这样的数据集展示了类似的曲线,快速上升然后缓慢下降,暗示了环境复杂性的适度水平,每帧中目标数量具有相当的可变性。
除了场景中目标数量之外,基于与自车的距离的目标分布是揭示数据集的多样性和显著差异的另一个重要点,如下图15所示。Waymo 数据集展示了大量标注目标在近场到中场场景中。相反,Argoverse 2 和 ZOD 展示了更宽的检测范围,有些帧甚至包括超过200米的边界框。nuScenes 的曲线意味着它在较短范围内的目标非常丰富,这在城市驾驶场景中是典型的。然而,随着距离的增加,nuScenes 数据集的目标数量迅速减少。ONCE 数据集覆盖了目标在不同距离上更均匀的分布,而KITTI 数据集更注重近距离检测。
本文主要关注分析现有数据集,这些数据集通常包含丰富的视觉数据,并旨在完成模块化pipeline中的任务。然而,随着技术的迅速发展,尤其是大语言模型的出色性能,下一代自动驾驶数据集出现了许多新的趋势,提出了新的挑战和需求。
端到端驾驶数据集。与模块化设计的自动驾驶pipeline相比,端到端架构简化了整体设计过程并减少了集成复杂性。UniAD 的成功验证了端到端模型的潜在能力。然而,端到端自动驾驶的数据集数量有限 。因此,引入专注于端到端驾驶的数据集对推动自动驾驶车辆的发展至关重要。另一方面,在数据引擎中实施自动标注pipeline可以显著促进端到端驾驶框架和数据的开发 。
自动驾驶数据集中引入语言。视觉语言模型(VLMs)最近在许多领域取得了令人印象深刻的进展。其在为视觉任务提供语言信息方面的固有优势使得自动驾驶系统更具解释性和可靠性。强调了多模式大语言模型在各种自动驾驶任务中的重要作用,例如感知 ,运动规划 和控制 。下面表 VII 中展示了包含语言标签的自动驾驶数据集。总体而言,将语言纳入自动驾驶数据集是未来数据集发展的趋势。
通过VLMs生成数据。正如所提到的,VLMs的强大能力可以用于生成自动驾驶数据。例如,DriveGAN 通过在没有监督的情况下解开不同组件来生成高质量的自动驾驶数据。此外,由于世界模型理解驾驶环境的能力,一些工作探索了使用世界模型生成高质量驾驶视频。DriveDreamer 作为从真实场景中派生的先驱性工作,解决了游戏环境或仿真设置的局限性。
域自适应。域自适应是开发自动驾驶车辆时面临的关键挑战 ,它指的是在一个数据集(源域)上训练的模型在另一个数据集(目标域)上能够稳定执行的能力。这个挑战表现在多个方面,如环境条件的多样性 、传感器设置 或从合成到真实的转换 。
本文对200多个现有的自动驾驶数据集进行了详尽而系统的回顾和分析。从传感器类型和模态、感知领域以及与自动驾驶数据集相关的任务开始。引入了一个称为"影响分数"的新型评估指标,以验证感知数据集的影响力和重要性。随后,展示了几个高影响力数据集,涉及感知、预测、规划、控制和端到端自动驾驶。此外,解释了自动驾驶数据集的标注方法,并调查了影响标注质量的因素。
此外,描述了收集到的数据集的年代和地理分布,为理解当前自动驾驶数据集的发展提供了全面的视角。同时,研究了几个数据集的数据分布,为理解不同数据集之间的差异提供了一个具体的观点。最后,讨论了下一代自动驾驶数据集的发展和趋势。
<p>在当今信息爆炸的时代,写作成为了人们表达思想、分享知识和传递情感的重要方式之一。对于很多人来说,写作并非易事。我们会陷入困境,无法找到灵感,我们会苦恼于语言表达的准确性,还有时候我们可能遭遇到了创作瓶颈,随着科技的进步和人工智能技术的发展,AI写作工具成为了我们拓展创意思维和提升写作能力的新伙伴。下面就让我为大家介绍几款本人亲测实用的AI写作工具。以上介绍的几款国内的AI写作软件希望能够帮你提高写作质量,如果对大家有帮助别忘了点个赞哦。</p>
讯享网
1.写作兔
这是一个微信公众号
面向专业写作领域的ai写作工具,写作助手包括,ai论文,ai开题报告、ai公文写作、ai商业计划书、文献综述、ai生成、ai文献推荐、AI论文摘要,帮助用户在线快速生成。
写作主打简单、易操作,200+写作模板,小白也能快速上手。只要输入简单的要求和描述,就能自动生成各种高质量文稿内容。
写作功能特色:
多场景写作模板,不限于某个领域, 12+ 种职位的 100+ 工作场景,10秒即可生成一篇专业文章。无论你需要修改简历、撰写公文,还是分享工作心得,我们都能让写作变得轻松无压力。
AI文档续写:策划活动方案卡壳,写小说灵感枯竭。只需上传你的文档,AI 就能帮你续写、修改、扩展和润色。笔灵AI写作轻松解决写作焦虑。
与AI对话:除了AI 改写、 AI续写,AI 一键生成文案,笔灵AI写作还支持 AI 聊天机器人、AI专家对话,全面满足你的 AI 使用需求。
写作兔,AI写作生成器一键伪原创,AI智能改写,伪原创工具,原创文案生成器,智能写作,智能创作,软文写作,文章生成工作报告等。
2.飞鸟写作
这是一个微信公众号
面向专业写作领域的ai写作工具,写作助手包括,ai论文,ai开题报告、ai公文写作、ai商业计划书、文献综述、ai生成、ai文献推荐、AI论文摘要,帮助用户在线快速生成。
写作主打简单、易操作,200+写作模板,小白也能快速上手。只要输入简单的要求和描述,就能自动生成各种高质量文稿内容。
写作功能特色:
多场景写作模板,不限于某个领域, 12+ 种职位的 100+ 工作场景,10秒即可生成一篇专业文章。无论你需要修改简历、撰写公文,还是分享工作心得,我们都能让写作变得轻松无压力。
AI文档续写:策划活动方案卡壳,写小说灵感枯竭。只需上传你的文档,AI 就能帮你续写、修改、扩展和润色。笔灵AI写作轻松解决写作焦虑。
与AI对话:除了AI 改写、 AI续写,AI 一键生成文案,笔灵AI写作还支持 AI 聊天机器人、AI专家对话,全面满足你的 AI 使用需求。
飞鸟写作,飞鸟AI写作神器,免费伪原创写作生成器,AI写作文案,AI写作助手,AI一键写作文智能改写神器,AI写作,七燕写作神器
3.蝉小红
蝉小红,小红书直播电商&品牌种草数据查询分析服务平台。
蝉小红,蝉大师旗下数字营销产品。是专业的蝉妈妈小红书数据分析平台,数据通过公开渠道获取,蝉小红进行统计分析,它专注于通过多维度数据监测统计分析,提供小红书直播诊断服务、博主带货销量排行榜、小红书精细化种草运营策略等服务。
此外,蝉小红通过对小红书多维度数据监测统计分析,为商家提供小红书博主账号的笔记、合作品牌和粉丝等多维度数据监测统计分析、电商行业洞察热点趋势,品类品牌种草舆情分析报告,爆款商品销量查询。蝉小红为品牌商家定制小红书精细化投放服务和种草运营策略,帮助商家定制小红书的精准化投放策略。
蝉大师致力于营销领域的大数据与ai智能赋能,帮助品牌在内容电商时代,实现内容营销与电商的数智化经营,驱动品牌新增长。旗下包括:蝉妈妈、蝉魔方、蝉管家、蝉圈圈、蝉小红等多个产品,提供蝉选、蝉妈妈智库等多项服务。截至目前,已经为超过100万家知名公司和中小企业提供优质服务。
4.猫啃网
猫啃网致力于为广大设计师不定期提供新,全且免费的,可商用,无版权问题的免费字体下载。
猫啃网致力于为广大设计师不定期提供新最全且免费的,可商用,无版权问题的免费字体下载。
猫啃网,设计师应该都知道。这里面的字体非常多,一共收集了五百多块免费的中文字体全部都有详细的分类,而且为了让用户下载更方便,能商用的字体都一一标注好了,猫啃网也是我目前看到过的免费可商用字体网站里面对字体的各种具体协议以及相关制作者整理得最清楚的那个,放心下载就行。
5.录咖 - AI语音转文字
录咖的设计非常简单,任何用户都可以轻松上手。只需要上传文件,选择语言进行转换,转换完成支持一键复制全文。
优点:
无需登陆,打开网站即可直接使用
操作简单,好用
转换速度非常快
准确率较高
支持转换英法德西日等上百种多语言
缺点:依赖于网络进行转换,无法离线完成
6.今日热榜
今日热榜提供各站热点聚合:微信、今日头条、百度、知乎、V2EX、微博、贴吧、豆瓣、天涯、虎扑、Github、华尔街见闻等多个网站平台站点的热点排行榜服务,追踪全网热点、简单高效阅读
今日热榜是一个实用的热榜合集网站,它集合了包括科技、娱乐、新闻、社区等几十个网站的实时热榜,并且每天都会实时更新,提供用户当前热门的新闻、资讯、话题和讨论等内容。
今日热榜通过算法实时跟踪各大社交媒体平台、新闻网站和论坛等渠道的热门话题和讨论,将其整合在一起,用户可以点击网站上的任意热榜,跳转到对应的网站,方便用户浏览和了解当前的热门事件和热点话题。用户可以在今日热榜上查看各类热门榜单,如热搜榜、微博热议榜、知乎热榜等以及各类新闻和资讯内容。
今日热榜提供各站热点聚合:微信、今日头条、百度、知乎、V2EX、微博、贴吧、豆瓣、天涯、虎扑、Github、华尔街见闻等多个网站平台站点的热点排行榜服务,追踪全网热点、简单高效阅读。
7.深言达意
深言达意是一款可根据模糊描述,找词找句的Ai写作工具。核心功能包括据意查词、据意查句。根据模糊的描述,找到贴切的词语和名言佳句,支持汉英双语。深言达意基于先进的人工智能算法实现。
深言达意是一款可根据模糊描述,找词找句的智能写作工具。产品基于强大的语言理解和算法能力,助你在深邃词海中快速找到更恰切的表达,妙笔生花,灵感迸发。 产品核心功能“据意查词查句”,可以实现高效准确找到与输入意思相关的好词好句;支持筛选词语、成语、惯用语和古汉语等多类别;覆盖名言、古诗文、小说散文等多场景;支持中英文输入和双语搜索结果。
深言达意由清华大学自然语言处理实验室(THUNLP)和北京智源人工智能研究院(BAai)共同打造,提供高效、准确的写作辅助功能,深言达意基于先进的人工智能算法实现。
8.猫耳FM - M站
猫耳FM(M站)是一家广播剧弹幕音图站,同时也是中国声优基地。
猫耳FM(M站) - 让广播剧流行起来,猫耳FM(M站)是一家弹幕音图站,同时也是中国声优基地,在这里可以听电台,音乐,翻唱,小说和广播剧,用二次元声音连接三次元。M站(猫耳FM)目前有电台、有声漫画,娱乐,音乐、配音/广播剧、声优库6个板块。
猫耳FM(M站)由站长“魔王SK”于2010年7月12日创建。猫耳FM(M站)建站的初衷是为用户提供一个音频和图片的分享网站。现拥有有别于大陆其他网站的弹幕系统。
猫耳FM(M站)功能版块:
剧好听 - 你追的小说和漫画在这里都有声音剧,关灯上床躺着慢慢听。纯爱、悬疑、灵异、少女、治愈应有尽有。
陪你入睡 - 睡前时光,听着小姐姐或者男神的温柔声音入睡; 深夜难眠,来一段催眠的雨声树林声降降火。
经典必听 - 有选择困难?不怕。猫耳为你筛选出不容错过的精品内容,七大分类精彩纷呈,总有一款适合你。
语音直播 - 汇集中日知名 CV、二次元、段子手、催眠等不同领域的大咖主播;开启语音连麦,和大咖互动,用声音交友;做主播,被搭讪被打赏,从此生活奔小康!
随时随地 - 排队堵车做家务时利用碎片时间听书充电,鬼畜段子娱乐版块填充你的休闲时间,情感电台深夜鬼话承包你的后半夜。 更多惊喜,等你发现。
9.Unsplash
Unsplash是一个高质量免版权图片素材网站,都是真实的摄影照片,照片分辨率也很大,速度快。
Unsplash是一个免费高质量免版权图片素材网站,该平台上面有超过100万张免费高分辨率图片,而且这些图片都具备CC0知识共享许可协议,也就是说所有在Unsplash上发布的照片都可以免费使用,无论是用于商业用途或者非商业用途。 Unsplash 不需要注册就可以直接下载图片,同时在下载的时候还可以根据自己的需求选择相应尺寸的图片。
Unsplash是英文的,如果不会英文,可以通过搜索引擎英译中再COPY进去。
Unsplash作为一个提供免费高分辨率图片的网站,由摄影师们从全世界上传他们的照片,并允许任何人免费使用。这个网站的目标是“赋予摄影师创作和分享的自由”。
Unsplash的图片质量非常高,每张图片都经过严格的筛选和编辑,确保提供给用户的是精美而专业的作品。Unsplash的图片库中包含了各种类型的照片,包括风景、建筑、人物、动物、食物等等。
用户可以通过关键词搜索来找到他们需要的图片,也可以通过浏览照片集合和主题来寻找灵感。此外,用户还可以关注他们喜欢的摄影师,以便及时查看他们的最新作品。
Unsplash也为开发者提供了API,使他们能够在自己的应用、网站或平台上集成Unsplash的图片库。
以上就是我分享的全部内容啦,喜欢宝贝记得点赞收藏呀~会不定时分享一些好用的干货和有趣网站,你的关注和赞同是我更新的动力!
讯享网 <p>Animate Anyone是一款专为角色动画而设计的先进扩散模型。通过驱动信号从静态图像生成角***,Animate Anyone引入了一系列创新性的技术,包括ReferenceNet、高效的姿势指导器以及有效的时间建模方法。这些设计保证了生成的视频在外观特征一致性、可控性和连贯性方面达到了出色的效果。</p> Animate Anyone适用于将静态图像转换为角***,特别适用于时尚视频合成和人类舞蹈生成。下面我们将看到Animate Anyone在不同使用场景下的应用示例。
用户可以通过Animate Anyone将时尚照片转换为生动、逼真的动画视频,展现时尚的魅力。
在TikTok数据集上,Animate Anyone可用于生成生动的人类舞蹈视频,充满创意和表现力。
动漫和卡通爱好者可以使用Animate Anyone为他们喜爱的角色创作出色的动画视频。
通过驱动信号从静态图像生成角***。 利用扩散模型的力量。 设计ReferenceNet来通过空间注意力合并详细特征。 引入高效的姿势指导器来指导角色的动作。 采用有效的时间建模方法,以确保视频帧之间的平滑跨帧过渡。 扩展训练数据,使方法可以为任意角色制作动画。
通过在时尚视频和人类舞蹈合成的基准上评估,Animate Anyone展现了其在角色动画领域取得的最先进结果。欢迎点击上方链接,前往Animate Anyone网站,亲身感受这一革命性角色动画生成工具的魅力。
微软与IDC联合发布一项研究报告,深入探讨AI在企业中的应用和商业价值。其中,71%的受访者表示已经在使用AI,企业部署AI后平均14个月获得投资回报,每一美元投资可带来3.5美元回报;52%的受访者表示缺乏熟练劳动力是实施和扩展AI的最大障碍。此外,研究发现AI在员工体验、客户互动和内部业务流程等领域带来了诸多创新突破。
随着AI智能科技在社会中的广泛应用,对经济所产生的影响也变得越来越大。目前,各类组织正逐渐认识到AI智能科技带来的巨大变革,然而在投资AI智能科技时,其商业意义与价值成为了决策关键。企业领导人和决策者需要了解在他们的组织内,哪些行业和应用场景最适合利用AI创造价值,以及投资回报、预期价值实现的时间等,并明确实施的关键步骤。
为了帮助企业了解AI智能科技所带来的机会及其商业价值, IDC对全球2000多名负责在其组织内部实施AI转型的企业领导人、决策者进行了调查,深入探讨AI如何推动组织经济效益。这项研究建立在微软专注于职场效率的《工作趋势指数》的结果之上,并分析了公司如何从AI智能科技投资中实现收益,包括创造新的收入来源、提供独特的客户体验以及内部流程的改进。研究的关键发现包括:
◉ 71%的受访者表示,他们的公司已经在使用AI技术;
◉ 92%的AI智能科技项目在12个月或更短时间内完成部署;
◉ 企业在部署AI智能科技后,平均在14个月内就能获得投资回报;
◉ 企业在AI智能科技上的每一美元投资,都能带来平均3.5美元的回报;
◉ 52%的受访者表示,缺乏熟练劳动力是他们实施和扩展AI智能科技的最大障碍。
微信图片_319.png
这项研究充分证明了AI技术所具备的商业价值,我们如今已在员工体验、客户互动和内部业务流程等核心场景中深刻感受到它所带来的变革,同时也看到了AI技术是如何助力创新突破瓶颈的。借助于生成式AI智能技术,这种价值在全球更是得以指数级增长。
IDC AI和自动化集团副总裁日图·乔蒂(Ritu Jyoti)强调:“据IDC预测,未来10年内生成式AI智能技术将为全球GDP带来近10万亿美元的增长。要评估新增投资生成式AI智能技术带来的价值,我们需要构建商业案例,通过模拟潜在成本和责任价值来实现。”
这波创新浪潮极大地加速了AI的普及和应用,改变了人们的工作和生活,吸引了越来越多的企业客户积极拥抱AI带来的商业转型机遇。
<p>胡润研究院今日发布《2023胡润世界500强》报告,其中首次包括了世界500强中的非国有企业。根据报告,OpenAI以500亿美元的估值首次进入胡润世界500强,而该公司目前正在洽谈以860亿美元的估值筹集新一轮融资。</p> 根据报告,进入胡润世界500强的门槛相比去年提高了7%,即145亿元,至2170亿元人民币。总价值比去年增长了12%,即42万亿元,至382万亿元。
从行业分布来看,金融服务业在500强榜单中占据首位,其次是消费品、软件与服务、医疗健康和零售。这五个行业合起来占据了500强的一半。
OpenAI以500亿美元的估值进入胡润世界500强,这显示了人工智能领域的新兴企业在全球商业市场中的崛起。值得注意的是,OpenAI目前正在洽谈一轮融资,估值预计将达到860亿美元,这进一步突显了该公司在人工智能领域的影响力和市值增长。
如今,人们发表的文章或作品被剽窃,而剽窃者免费使用或为此获利的事例屡见不鲜。从互联网到AI,莫不如此。
比如,如今火热的OpenAI,其AI模型就很少为其使用的内容付费,该公司在2023年创造了13亿美元的收入。
OpenAI的狡辩
在《纽约时报》针对OpenAI进行的版权诉讼中,OpenAI为自己辩护称,“我们使用互联网公开的内容训练AI模型的行为是合理的。”
根据OpenAI的这一逻辑,任何人放到网上的作品都是在参与一种公平的游戏,都可以被利用并纳入该公司的大型语言模型。
《纽约时报》声称,该报发表的数百万篇文章现在被OpenAI用来训练与其进行业务竞争的聊天机器人。他们从该报作者和编辑的工作成果中赚取了数十亿美元,却没有支付稿费。
OpenAI还声无赖地声称,《纽约时报》可以选择不让他们的报道被ChatGPT的LLM使用。但是,如果是这样的话,那么,ChatGPT直接抄袭《纽约时报》获得普利策奖的一篇调查报告该如何解释呢?该报告是《纽约时报》的记者历时18个月对纽约市出租车行业的掠夺性贷款行为进行调查而发表的一篇详尽报道。
事实面前,OpenAI解释,ChatGPT可能采用的是其所谓“记忆”的方法。该公司辩称,“这是我们在不断学习和进步过程中罕见的一次失败,但当特定内容在训练数据中不止一次出现时,就像它的片段出现在许多不同的公共网站上一样,这种情况更为常见。”
与此同时,OpenAI声称,“《纽约时报》的报道没有对我们现有模型的训练做出有意义的贡献,也不会对未来的训练产生足够的影响。”GPT-3中权重最高的数据集是Common Crawl,排名前三的数据来源是维基百科、美国专利数据库和《纽约时报》。
剽窃者想要免费获得一切
正如Futurism网站的特约撰稿人Victor Tangermann最近在发表的一篇文章所写的那样,“OpenAI的整个商业模式依赖于尽可能多地收集数据,通常包括受版权保护的材料。”
OpenAI在向英国议会提出的观点也是这样表达的。该公司表示:“因为当今的版权几乎涵盖了所有类型的人类表达,其中包括博客文章、照片、论坛帖子、软件代码片段和政府文件——如果不使用受版权保护的材料,那么就不可能训练领先的AI模型。”
已故科幻作家Harlan Ellison在《付钱给作家》文章中曾说:“剽窃者想要免费获得一切。他们付费给作家了吗?没有,他们总是想让作家白干!”
OpenAI和其他生成式AI开发商就是如此。他们窃取出版公司、出版物、作家和编辑的工作成果,他们在没有给任何人支付费用的情况下获利。
历史总是在重演
历史总是在重演。报纸和杂志等出版物在20世纪90年代开始衰落,他们的内容被发到互联网,而出版商无法获利润。这就是谷歌能够通过广告将新闻媒体的内容转化为利润的原因,而新闻出版物的收入则大量流失。
希望出版商不会再犯这样的错误,他们应该获得相应的报酬。当然,这种情况可能会重演。如果那真的发生,那么就能看到未来是什么样子。博主兼科幻作家Cory Doctorow为这种情况创造了“Enshittification”这样的词语来描述,指的是网站内容和信息质量的下降。
最近的研究表明,谷歌的搜索结果正变得越来越无效,而且充斥着更多的垃圾网站。越来越多的内容是基于搜索引擎优化和AI生成的废话。与此同时,内容质量相对于数量的下降,将导致出版商和作家收入减少。这反过来意味着,可供生成式工智能引擎训练的具有价值的故事将会越来越少。
如果OpenAI和生成式AI开发商是明智的,他们需要与内容创作者分享财富。从长远来看,这确实是所有人前进的唯一道路——无论是科技亿万富翁还是自由撰稿人。
业务逻辑:服务器部署sdwebui项目,远程浏览器访问ui界面。服务器可租用AutoDL的GPU服务器
服务器:租用AutoDL的GPU服务器,Linux
Stable Diffusion WebUi:作者AUTOMATIC1111,github项目地址GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI
部署流程如下:
1、租用AutoDL服务器,创建虚拟环境
(1)租用服务器这里不说了,选择合适的GPU即可,AutoDL可以使用“无卡模式开机”,即不使用显卡,价格很便宜(0.1元/小时)。适合用来配置项目、下载模型、上传数据等不涉及模型运行(训练、推理)、不涉及GPU的准备工作。
开机后,点击JupiterLab进入,点击“终端”进入命令行
(2)创建虚拟环境,在命令行中输入以下命令
讯享网
*注意上述更新bashrc中的环境变量,每次启动AutoDL服务器均需要巡行此步骤*
conda常用命令:
创建虚拟环境:conda create -n xxx python=版本
激活虚拟环境:conda activate xxx
退出虚拟环境:conda deactivate
删除虚拟环境:conda remove -n xxx –all
查看已创建的环境:conda env list
2、部署Stable Diffusion WebUi项目文件
两种方法,一是git clone,另一个自己下载再上传
方法一,直接运行以下命令
方法二,在github中下载,再上传,项目地址如下:
(1)下载
GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI
(2)上传
(3)解压
命令:unzip 下载的zip,例如 unzip clip-vit-large-patch14.tar.gz
3、准备clip-vit-large-patch14与一个checkpoint模型
clip-vit-large-patch14与checkpoint模型可以自己先下载好,也可在“第4步-安装依赖”中在线下载。这里的建议自己下载,在线下载速度慢,且需要魔法上网。
(1)这里的checkpoint模型选择了anything-v5-PrtRE.safetensors,1.99G,还算比较小。也可从C站(https://civitai.com/models,需要魔法上网)自行下载。
“anything-v5-PrtRE.safetensors”百度网盘链接如下
百度网盘
(2)clip-vit-large-patch14是clip模型,给图片和提示词建立关联用,sdwebui运行必不可少。下载位置
https://huggingface.co/openai/clip-vit-large-patch14 ,百度网盘链接如下
百度网盘
(3)下载后,checkpoint模型放在stable-diffusion-webui/models/Stable-diffusion/下,clip-vit-large-patch14需要在stable-diffusion-webui/下新建openai文件夹, 并解压放在openai下
4、安装依赖
在stable-diffusion-webui/目录下运行 pip install -r requirements.txt
在此过程中如果报错,一般是pip版本问题,可使用 pip install –upgrade pip 更新,然后再次运行pip install -r requirements.txt
另一个常见的报错是“Preparing metadata (setup.py) …”,参考以下解决
http://t.csdnimg.cn/ueVPAhttp://t.csdnimg.cn/ueVPA此过程持续时间较长,耐心等待
5、运行SDwebui
在stable-diffusion-webui/ 下,运行:
讯享网
这里加了参数 –port 6006,将服务发布在6006端口,是因为AutoDL在公网开发的端口是6006,参考AutoDL帮助文档https://www.autodl.com/docs/port/
出现以下界面“Model loaded in ……”,说明服务已启动完毕,可以使用了
在“容器实例”中点击“自定义服务”,即可打开webui界面。第一次打开的需要进行实名制认证。
webui界面如图
网址可以复制下来,发给其它人共同使用,手机端也可打开。
用完后,在命令行界面Ctrl+C,停止服务,关闭服务器或者切换到无卡模式。
1、插件
下好的插件放在extensions目录下,重启启动服务即可,这里放几个常用的插件
百度网盘
2、LoRA模型
Lora模型一般在100~300M左右,放在models/Lora/目录下,重启服务即可,Lora可在C站https://civitai.com/models(魔法上网)下,记得筛选(Filters-LoRA)
3、AutoDL存储空间分配
AutoDL分配的系统盘只有30G,数据盘有50G,SDwebui不算模型就将近25G,因此建议将模型放在数据盘(/root/autodl-tmp/),启动SDwebui的时候加入–ckpt命令,例如:
这里给出AutoDL官方清理存储空间的帮助文档AutoDL帮助文档https://www.autodl.com/docs/qa1/
讯享网 <p>Mobile-Agent是一款自主多模移动设备代理,采用先进的多模大语言模型(MLLM)技术。该代理利用视觉感知工具准确识别和定位应用程序前端界面的视觉和文字元素,实现了自主规划和分解复杂操作任务,通过逐步操作导航移动应用程序。与以往依赖应用程序的XML文件或移动系统元数据的解决方案不同,Mobile-Agent以视觉为中心,在各种移动操作环境中具有更大的适应性,消除了对特定系统定制的必要性。为了全面评估Mobile-Agent的性能,我们引入了Mobile-Eval,这是一个用于评估移动设备操作的基准。在Mobile-Eval的基础上,我们对Mobile-Agent进行了深入评估,实验结果表明其取得了显着的准确性和完成率。即使在具有挑战性的指令下,例如多应用程序操作,Mobile-Agent依然能够成功完成任务。</p> Mobile-Agent适用于自动化移动设备操作,评估移动设备性能,提高移动应用程序的适应性。以下是Mobile-Agent在不同使用场景下的应用示例。
Mobile-Agent可用于自动执行移动应用程序中的任务,从而提高操作效率。
利用Mobile-Agent进行移动设备操作评估,以提升设备性能。
Mobile-Agent可帮助移动应用程序在不同环境中实现更大的适应性,提供更灵活的操作体验。
利用多模大语言模型技术。 利用视觉感知工具准确识别和定位应用程序前端界面的视觉和文字元素。 自主规划和分解复杂操作任务。 通过逐步操作来导航移动应用程序。 具有更大的适应性,消除了对特定系统定制的必要性。 引入了Mobile-Eval,用于评估移动设备操作的基准。
通过访问Mobile-Agent官方网站,您可以充分体验这一自主多模移动设备代理的强大功能。点击上方链接,探索Mobile-Agent为自动化移动设备操作、评估移动设备性能和提高应用程序适应性带来的前所未有的便利。
今天,Meta正式发布了Code Llama 70B,作为Code Llama系列中规模最大,性能最强的版本,一举击败了GPT-4!
目前,模型共有三个版本,均可免费用于研究和商业目的:
CodeLlama - 70B:基础代码模型;
CodeLlama - 70B - Python:专门针对Python的 70B模型;
CodeLlama - 70B - Instruct:专门用于理解自然语言指令的模型。
算上8月份发布的Code Llama 7B、13B和34B,这个家也算是完整了。
论文地址:https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/
其实,Code Llama在发布时就已经展现了不俗的实力,在一众代码生成模型中处于领先位置。
不过GPT-4依然凭借着67.0的HumanEval(pass@1)得分数遥遥领先(Code Llama 34B为53.7)。
尽管后来又有Code Llama的微调版本获得了更好的成绩,却并没有进入Meta的这个官方表格。
但是!在寒窗苦读了5个月之后,Code Llama终于一鸣惊人,以最强的70B模型登顶全部三项测试的榜首。
其中,CodeLlama-70B-Instruct在HumanEval上更是直接拿下了67.8的高分,一举跻身当下最强开源模型的行列。
可以说,除了GPT-4外,其他同类模型几乎都难以望其项背。
对此,LeCun转发并宣传了自家的新模型:「新一代Code Llama依然开源,正如它的前辈们一样。」
而终于发现自家AI是块宝的小扎,也加大了宣传力度:
我们正式开源了一个全新且更加强大的Code Llama,包含一个庞大的700亿参数的模型。
在当今的AI域,编写和编辑代码已经成为了最关键的应用之一。同样,能够编程也对AI模型在其他领域进行更加严密和逻辑性的信息处理显得尤为重要。
我对我们在这方面取得的进展感到非常自豪,并且非常期待在未来的Llama 3及后续模型中加入这些先进的成果。
技术细节
Code Llama是一款能够通过文本提示生成代码的大语言模型。它不仅能提升现有开发者的工作效率,还能降低编程新手的学习门槛。
Meta希望将Code Llama打造成为一款既能提高生产力,又具有教育价值的工具,助力程序员创建更加稳定且文档齐全的软件。
Code Llama是基于Llama 2开发的,专门用于编程任务的版本。
通过在专为编码设计的数据集上进行更深入的训练,Code Llama能够理解和生成代码,帮助完成编程任务(如编写函数、代码补全和调试),
并支持包括Python、C++、Java、PHP、Typescript (Javascript)、C#和Bash等在内的多种流行编程语言。
到目前为止,Code Llama系列集齐了四种规模,分别拥有7B、13B、34B和70B的参数,
前三个模型采用500B token的代码和相关数据进行训练,而新发布的70B模型使用了1TB token。
另外,7B和13B基础模型和指令模型还经过中间填充(FIM)功能的训练,具备直接在现有代码中插入新代码的能力(代码补全)。
Code Llama系列模型针对不同的需求和性能要求进行了优化:
7B模型能在单个GPU上运行,适合快速响应的场景;而34B和70B模型则提供了更高级的编码辅助功能,但运行速度较慢。
Code Llama能够处理长达 token的上下文,这意味着模型可以理解和生成较长的程序代码。
这对于处理大型代码库中的调试任务特别有用,开发者可以提供大量代码上下文,以获得更准确的编码建议。
此外,Code Llama还推出了两个特别版本:Code Llama - Python 和 Code Llama - Instruct。
考虑到Python在AI社区的重要性,Code Llama - Python针对 Python代码进行了特别优化(使用100B token的Python代码数据进行微调),使其在生成Python代码时更加流畅和准确。
CodeLlama-70B-Python还可以处理一系列任务,例如网络抓取、数据分析、机器学习(ML)和Web开发。
而Code Llama - Instruct则通过接受自然语言指令和期望输出的方式进行训练,使其更擅长根据用户的需求生成代码或答案。
CodeLlama-70B-Instruct还可以用于处理排序、搜索、过滤和操作数据,以及实现算法(二进制搜索、斐波那契和阶乘等)。
官方建议在需要代码生成时优先考虑使用Code Llama - Instruct,以获得更安全、更有用的结果。
需要注意的是,主要用于编程问题的Code Llama和Code Llama - Python,并不适合处理一般的自然语言任务。
基准测试
下面看一下新的Code Llama在同类模型中的表现如何,这里采用业内广泛应用的编程基准测试:
HumanEval和Mostly Basic Python Programming (MBPP)。
HumanEval是一个包含164个编程问题的基准数据集,用于测试代码生成模型的功能正确性和逻辑性,而MBPP则测试模型依据具体描述编写代码的技巧。
我们可以看到前代的34B表现已经很好了,而参数量翻了一倍的Code Llama 70B老大哥直接霸榜,并且相比于34B性能显著提升。
其中,CodeLlama-70B-Instruct在HumanEval上得分高达67.8,超过了CodeGen-16B-Mono(29.3)和StarCoder(40.1)等开放模型之前的**成绩,并与GPT-4(68.2)和Gemini Pro(69.4)等闭源模型相当。
当然,为了更负责任地开发AI模型,Meta已经采取了多项安全措施,并对生成恶意代码的风险进行了量化评估。
结果显示,相比于ChatGPT(GPT3.5 Turbo),Code Llama给出的回答更为安全。
挑战GPT-4,coding模型卷起来了!
目前,通过各各类主流的平台和框架都可以访问和使用Code Llama 70B,例如Hugging Face、PyTorch、TensorFlow和Jupyter Notebook。
此外,Meta AI还提供了针对不同目的和语言,使用和微调模型的文档和教程。
而随着模型的发布,各大AI平台也纷纷加入了对Code Llama 70B的支持:
并且还可以直接开玩:
更有大佬把Code Llama 70B跑到了苹果的处理器上,只不过「有点热」。
然后这位索性把Code Llama 70B直接量化到了4 bit。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/170370.html