DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving

基础理解

世界模型
能通过视频生成的方式来理解驾驶场景,并能根据输入的控制条件预测未来的演化,最终可以生成不同传感器对未来场景的观测数据

生成式模型在自动驾驶中的应用

  • 数据仿真,闭环评测
  • 数据增强辅助感知任务训练
  • 通过生成建模获得更好的视觉表征

总体概括

目标:开发一个基于真实世界驾驶场景的世界模型,用于自动驾驶中的高质量驾驶视频生成驾驶策略预测
创新点:首次从真实世界驾驶场景构建世界模型,利用扩散模型(diffusion model)和两阶段训练流程。
实现的功能

  • 通过**交通条件(连续的HDmap,3Dbox)**和不同的文本提示词(天气,风格,光照,时间等)生成驾驶场景视频(没有预测未来
  • 通过初始的交通条件和图像,根据设定的未来驾驶动作,生成对应驾驶动作的驾驶视频(根据未来动作预测未来视频
  • 通过初始的交通条件,图像,驾驶动作,生成预测未来的驾驶视频(预测未来视频和动作

思维导图结构

1. 引言 (Introduction)

背景:自动驾驶依赖于对真实驾驶世界的理解和建模。
问题:现有研究多集中于游戏或模拟环境,缺乏对真实世界驾驶场景的表示。
方法:提出DriveDreamer,利用扩散模型构建复杂驾驶环境的全面表示。

2. 相关工作 (Related Work)

扩散模型 (Diffusion Model)
定义:通过逐步引入噪声并学习逆转过程来生成样本的模型。
相关例子:BEVControl ,MagicDrive and DrivingDiffuson
应用:在图像合成、视频生成等领域表现出色。

视频生成 (Video Generation)
方法:包括变分自编码器(VAEs)、自回归模型、基于流的模型和生成对抗网络,视频扩散模型等。
特点:扩散模型在视频生成中表现出更高的质量和可控性。

世界模型 (World Models)
应用:在基于模型的模仿学习中取得成功。
相关例子:ISO-Dream, MILE, SEM2
挑战:真实世界驾驶任务的高样本复杂性。

3. DriveDreamer框架 (DriveDreamer Framework)

总体框架
在这里插入图片描述
输入:初始参考帧、道路结构信息(HDMap和3D框)。
输出:

  • 未来驾驶视频

  • 驾驶策略(根据之前的action编码和Auto-DM生成的多模态特征concat后进MLPdecode输出)。
    在这里插入图片描述

在这里插入图片描述
上图为各种input对应encoder的结构

两阶段训练流程
在这里插入图片描述

4. 自动驾驶扩散模型 (Autonomous-driving Diffusion Model, Auto-DM)

在这里插入图片描述

结构
输入:

  • HDMap(cnn encode) + 带噪音的图像特征(原始图像encode后加T次同一个高斯噪音)-》spatially aligned conditions-》直接送入stable diffusion(v1.4)
  • 3dBox(encode) + 对应labels(clip encode)-》mlp-》geted-self-attention(紫色attention层)
  • 文本提示 -》 clip encode -》cross-attention(橙色attention层)

loss:预测noise和开始添加的noise的对比
在这里插入图片描述

输出:生成符合结构化交通约束的驾驶视频。

训练
第一阶段训练
数据集:nuScenes-devkit-》HDmap,
Are we ready for vision-centric driving streaming perception? the
asap benchmark.-》3dbox
step1
训练超参:40epo 16 batchsize
目标:理解结构化交通约束。
方法:使用单帧结构化条件进行图像生成训练,忽略时间注意力层
step2
训练超参:10epo 1 batchsize
目标:理解结构化交通约束并拓展至视频生成。
方法:使用连续结构化条件进行视频生成训练,加入时间注意力层。

5. 行动预测器 (ActionFormer)

在这里插入图片描述

结构
输入:初始结构化条件和驾驶动作。
处理:通过自注意力、交叉注意力和GRU单元预测未来交通结构条件。
loss:MSE L1loss
输出:生成合理的未来驾驶动作,和输入驾驶动作对应的图像。

训练
第二阶段训练
数据集:yaw angle and velocity of the ego-car
训练超参:10epo 1 batchsize 根据前16个动作预测对应16帧图像和未来的16帧动作
目标:预测未来状态和驾驶策略。
方法:结合初始帧,连续驾驶动作,Auto-DM的多尺度特进行视频预测训练。

6. 实验 (Experiment)

数据集:nuScenes数据集,包含700个训练视频和150个验证视频。
训练细节:使用AdamW优化器进行训练,具体参数设置。

评估
视频生成质量:使用FID和FVD指标评估。
驾驶感知方法训练:通过3D目标检测任务验证生成图像的有效性。
驾驶策略生成:在nuScenes数据集上进行开环评估。

7. 结论 (Conclusion)

贡献:DriveDreamer在真实世界驾驶场景的世界建模中取得了显著进展。
未来方向:强调真实世界表示在自动驾驶中的重要性,为未来研究提供方向。

总结

DriveDreamer通过结合扩散模型和两阶段训练流程,成功地从真实世界驾驶场景中构建了世界模型。
创新之处在于首次将扩散模型应用于真实世界的自动驾驶任务中,提高了驾驶视频生成和驾驶策略预测的质量和可控性。
应用前景:为自动驾驶系统的训练和优化提供了新的方法和思路,特别是在处理复杂和多样化的驾驶场景时具有优势。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐