当前位置:AIGC资讯 > AIGC > 正文

直接干到未来!DriveDreamer-2:世界首个自定义驾驶场景流生成,提升50%!

本文经自动驾驶之心公众号授权转载,转载请联系出处。

写在前面&笔者的个人理解

世界车型在自动驾驶方面表现出了优势,尤其是在多视图驾驶视频的生成方面。然而,在生成自定义驾驶视频方面仍然存在重大挑战。在本文中,我们提出了DriveDreamer-2,它建立在DriveDreamer的框架上,并结合了一个大语言模型(LLM)来生成用户定义的驾驶视频。具体来说,LLM接口最初被合并以将用户的查询转换为代理轨迹。随后,根据轨迹生成符合交通规则的HDMap。最终,我们提出了统一多视图模型,以增强生成的驾驶视频的时间和空间连贯性。DriveDreamer-2是世界上第一款生成自定义驾驶视频的世界模型,它可以以用户友好的方式生成不常见的驾驶视频(例如,车辆突然驶入)。此外,实验结果表明,生成的视频增强了驾驶感知方法(如3D检测和跟踪)的训练。此外,DriveDreamer-2的视频生成质量超过了其他最先进的方法,FID和FVD得分分别为11.2和55.7,相对提高了~30%和~50%。

  • 开源链接:https://drivedreamer2.github.io/

总结来说,本文的主要贡献如下:

  • 我们推出DriveDreamer-2,这是世界上第一款以用户友好的方式生成虚拟驾驶视频的车型。
  • 我们提出了一种仅使用文本提示作为输入的交通仿真管道,可用于生成用于驾驶视频生成的各种交通条件。
  • UniMVM旨在无缝集成视图内和视图间的空间一致性,提高生成的驾驶视频的整体时间和空间一致性。
  • 大量实验表明,DriveDreamer-2可以制作各种定制的驾驶视频。此外,DriveDreamer-2与以前性能最好的方法相比,可将FID和FVD提高约30%和约50%。此外,DriveDreamer-2生成的驾驶视频增强了对各种驾驶感知方法的训练。

相关工作回顾

世界模型

世界方法的主要目标是建立动态环境模型,赋予主体对未来的预测能力。在早期的探索中,变分自动编码器(VAE)和长短期记忆(LSTM)被用于捕捉过渡动力学和排序功能,在不同的应用中显示出显著的成功。构建驾驶世界模型带来了独特的挑战,主要源于现实世界驾驶任务固有的高样本复杂性。为了应对这些挑战,ISO Dream引入了将视觉动力学明确分解为可控和不可控状态的方法。MILE战略性地将世界建模纳入鸟瞰图(BEV)语义分割空间。最近,DriveDreamer、GAIA-1、ADriver-I和Drive-WM探索了利用强大的扩散模型或自然语言模型在现实世界中训练驾驶世界模型。然而,这些方法中的大多数在很大程度上依赖于结构化信息(例如,3D框 、HDMaps和光流)作为条件。这种独立性不仅限制了互动性,也限制了世代的多样性。

视频生成

视频生成和预测是理解视觉世界的关键技术。在视频生成的早期阶段,探索了变分自动编码器(VAE)、基于流的模型和生成对抗网络(GANs)等方法。语言模型也用于复杂的视觉动力学建模。最近的进展表明,扩散模型对视频生成的影响越来越大。值得注意的是,视频扩散模型在生成具有逼真帧和平滑过渡的高质量视频方面表现出卓越的能力,提供了增强的可控性。这些模型无缝地适应各种输入条件,包括文本、canny、草图、语义图和深度图。在自动驾驶领域,DriveDreamer-2利用强大的扩散模型学习视觉动力学。

交通仿真

驾驶仿真器是自动驾驶开发的基石,旨在提供一个仿真真实世界条件的受控环境。LCTGen使用LLM将详细的语言描述编码为向量,然后使用生成器生成相应的仿真场景。这种方法需要高度详细的语言描述,包括代理的速度和方向等信息。TrafficGen理解交通场景中的固有关系,从而能够在同一地图内生成多样化和合法的交通流。CTG通过采用符合交通约束的手动设计的损失函数来生成交通仿真。CTG++进一步扩展了CTG,利用GPT-4将用户语言描述转换为损失函数,该函数指导场景级条件扩散模型生成相应的场景。在DriveDreamer-2中,我们构建了一个函数库来微调LLM,以实现用户友好的文本到流量仿真,消除了复杂的损失设计或复杂的文本提示输入。

详解DriveDreamer-2

图2展示了DriveDreamer-2的总体框架。首先提出了一种定制的交通仿真来生成前台代理轨迹和后台HDMaps。具体而言,DriveDreamer-2利用微调后的LLM将用户提示转换为代理轨迹,然后引入HDMap生成器,使用生成的轨迹作为条件来仿真道路结构。DriveDreamer-2利用定制的流量仿真管道,能够为后续视频生成生成生成各种结构化条件。在DriveDreamer架构的基础上,提出了UniMVM框架,以统一视图内和视图间的空间一致性,从而增强生成的驾驶视频的整体时间和空间一致性。在接下来的章节中,我们将深入研究定制交通fang'zhen和UniMVM框架的细节。

自定义交通仿真

在所提出的定制交通仿真管道中,构建了一个轨迹生成函数库来微调LLM,这有助于将用户提示转移到不同的代理轨迹中,包括切入和掉头等动作。此外,该管道包含HDMap生成器,用于仿真背景道路结构。在此阶段,先前生成的代理轨迹充当条件输入,确保生成的HDMap符合流量约束。在下文中,我们将详细介绍LLM的微调过程和HDMap生成器的框架。

用于轨迹生成的微调LLM以前的交通仿真方法需要复杂的参数规范,包括代理的速度、位置、加速度和任务目标等细节。为了简化这一复杂的过程,我们建议使用构建的轨迹生成函数库对LLM进行微调,从而将用户友好的语言输入有效地转换为全面的交通仿真场景。如图3所示,构建的函数库包括18个函数,包括代理函数(转向、等速、加速度和制动)、行人函数(行走方向和速度)以及其他实用函数,如保存轨迹。在这些函数的基础上,文本到Python脚本对是手动策划的,用于微调LLM(GPT-3.5)。脚本包括一系列基本场景,如变道、超车、跟随其他车辆和执行掉头。此外,我们还包括更不常见的情况,如行人突然横穿马路,车辆驶入车道。以用户输入的车辆切入为例,相应的脚本包括以下步骤:首先生成切入轨迹(agent.cut_in()),然后生成相应的ego-car轨迹(agent.forward());最后利用实用程序的保存功能,以数组形式直接输出ego-car和其他代理的轨迹。有关更多详细信息,请参阅补充材料。在推理阶段,我们将提示输入扩展到预定义的模板,微调后的LLM可以直接输出轨迹阵列。

HDMap生成综合交通仿真不仅需要前台代理的轨迹,还需要生成后台HDMap元素,如车道和人行横道。因此,提出了HDMap生成器,以确保背景元素与前景轨迹不冲突。在HDMap生成器中,我们将背景元素生成公式化为条件图像生成问题,其中条件输入是BEV轨迹图,目标是BEV HDMap。与以前主要依赖于轮廓条件(边缘、深度、方框、分割图)的条件图像生成方法不同,所提出的HDMap生成器探索前景和背景交通元素之间的相关性。具体地,HDMap生成器是在图像生成扩散模型上构建的。为了训练生成器,我们对HDMap数据集进行轨迹规划。在轨迹图中,指定不同的颜色来表示不同的代理类别。同时,目标HDMap包括三个通道,分别表示车道边界、车道分隔线和行人交叉口。在HDMap生成器中,我们使用2D卷积层的堆栈来合并轨迹图条件。然后,使用将生成的特征图无缝集成到扩散模型中(有关其他架构详细信息,请参见补充)。在训练阶段,扩散正向过程逐渐将噪声ε添加到潜在特征中,从而产生噪声潜在特征。然后我们训练εθ来预测我们添加的噪声,并且HDMap生成器φ通过:

如图4所示,利用所提出的HDMap生成器,我们可以基于相同的轨迹条件生成不同的HDMap。值得注意的是,生成的HDMaps不仅遵守交通约束(位于车道分隔带两侧的车道边界和十字路口的人行横道),而且与轨迹无缝集成。

UniMVM

利用定制交通仿真生成的结构化信息,可以通过DriveDreamer的框架生成多视图驾驶视频。然而,在以前的方法中引入的视图关注并不能保证多视图的一致性。为了缓解这个问题,采用图像或视频条件来生成多视图驾驶视频。虽然这种方法增强了不同观点之间的一致性,但它是以降低发电效率和多样性为代价的。在DriveDreamer-2中,我们在DriveDreamer框架中引入了UniMVM。UniMVM旨在统一多视图驾驶视频的生成,无论是否具有相邻视图条件,这确保了时间和空间的一致性,而不会影响生成速度和多样性。

多视图视频联合分布可以通过以下方式获得:

如图5所示,我们将UniMVM的范式与DriveDreamer[56]和Drive-WM[59]的范式进行了比较。与这些同行相比,UniMVM将多个视图统一为一个完整的视频生成补丁,而不引入跨视图参数。此外,可以通过调整掩码m来完成各种驱动视频生成任务。特别地,当m被设置为掩码未来的T−1帧时,UniMVM基于第一帧的输入启用未来视频预测。将m配置为屏蔽{FL、FR、BR、B、BL}视图,使UniMVM能够利用前视图视频输入实现多视图视频输出。此外,当m被设置为屏蔽所有视频帧时,UniMVM可以生成多视图视频,并且定量和定性实验都验证了UniMVM能够以增强的效率和多样性生成时间和空间相干的视频。

视频生成基于UniMVM公式,可以在DriveDreamer[56]的框架内生成驾驶视频。具体来说,我们的方法首先统一了交通结构化条件,这导致了HDMaps和3D盒子的序列。注意,3D框的序列可以从代理轨迹导出,并且3D框的大小是基于相应的代理类别来确定的。与DriveDreamer不同,DriveDreamer-2中的3D盒子条件不再依赖于位置嵌入和类别嵌入。相反,这些框被直接投影到图像平面上,起到控制条件的作用。这种方法消除了引入额外的控制参数,如[56]中所述。我们采用三个编码器将HDMaps、3D框和图像帧嵌入到潜在空间特征yH、yB和yI中。然后,我们将空间对齐的条件yH,yB与Zt连接起来,以获得特征输入Zin,其中Zt是通过前向扩散过程从yI生成的噪声潜在特征。对于视频生成器的训练,所有参数都通过去噪分数匹配进行优化[26](详见补充)。

实验

用户自定义驾驶视频生成

DriveDreamer-2提供了一个用户友好的界面,用于生成驾驶视频。如图1a所示,用户只需要输入文本提示(例如,在雨天,有一辆汽车驶入)。然后DriveDreamer-2生成与文本输入对齐的多视图驾驶视频。图6展示了另外两个自定义驾驶视频。上图描绘了白天ego汽车向左变道的过程。下图展示了一个意想不到的行人在夜间横穿马路,促使ego汽车刹车以避免碰撞。值得注意的是,生成的视频展示了非凡的真实感,我们甚至可以观察到远光灯在行人身上的反射。

生成视频的质量评估

为了验证视频生成质量,我们将DriveDreamer-2与nuScenes验证集上的各种驾驶视频生成方法进行了比较。为了进行公平的比较,我们在三种不同的实验设置下进行了评估——无图像条件、有视频条件和第一帧多视图图像条件。实验结果如表1所示,表明DriveDreamer-2在所有三种设置中都能始终如一地获得高质量的评估结果。具体而言,在没有图像条件的情况下,DriveDreamer-2的FID为25.0,FVD为105.1,显示出比DriveDreamer的显著改进。此外,尽管仅限于单视图视频条件,但与使用三视图视频条件的DriveWM相比,DriveDreamer-2在FVD方面表现出39%的相对改善。此外,当提供第一帧多视图图像条件时,DriveDreamer-2实现了11.2的FID和55.7的FVD,大大超过了以前的所有方法。

更多可视化:

结论和讨论

本文介绍了DriveDreamer-2,这是DriveDreamer框架的创新扩展,开创了用户自定义驾驶视频的生成。DriveDreamer-2利用大型语言模型,首先将用户查询转移到前台代理轨迹中。然后,可以使用所提出的HDMap生成器生成背景交通状况,并将代理轨迹作为条件。生成的结构化条件可以用于视频生成,我们提出了UniMVM来增强时间和空间的一致性。我们进行了广泛的实验来验证DriveDreamer-2可以生成不常见的驾驶视频,例如车辆的突然机动。重要的是,实验结果展示了生成的视频在增强驾驶感知方法训练方面的效用。此外,与最先进的方法相比,DriveDreamer-2显示出卓越的视频生成质量,FID和FVD得分分别为11.2和55.7。这些分数代表了大约30%和50%的显著相对改进,肯定了DriveDreamer-2在多视图驾驶视频生成方面的功效和进步。

更新时间 2024-03-15