1 背景

        端到端自动驾驶(E2E-AD)是自动驾驶领域的新趋势,但现有方法(如UniAD)存在一些问题。例如,常采用的感知 - 预测 - 规划顺序范式会导致累积误差和训练不稳定性,任务的手动排序限制了系统利用任务间协同作用的能力,而且现有方法采用的密集鸟瞰图(BEV)表示为长距离感知和长期时间融合带来了计算挑战。

2 DriveTransformer

        对于原始传感器输入(例如多视角图像),DriveTransformer 旨在输出多个任务的结果,包括目标检测、运动预测、在线建图和规划。每个任务都由其对应的查询来处理,这些查询会直接相互作用,从原始传感器输入中提取信息,并整合来自历史的信息。

2.1 模型架构

        DriveTransformer 具有流式、并行和稀疏的Token交互特性。在每一层中,任务Token通过任务自注意力机制相互作用,通过传感器交叉注意力机制从原始传感器输入中提取信息,并通过时间交叉注意力机制融合来自记忆队列中历史任务Token的时间信息。

  • 初始化与Token化:在信息交换前,所有输入转换为统一的Token表示形式,包括传感器Token和任务Token。传感器Token由摄像头图像经主干网络编码成语义嵌入,并加上 3D 位置编码;任务Token分为代理查询、地图查询和自我查询,分别用于目标检测和运动预测、在线制图以及规划,其语义嵌入和位置编码有不同的初始化方式。
  • Token交互:基于原始的注意力机制,模型主要包含三个统一的操作来实现Token交互,从而构成整个框架 :
    • 任务自注意力:所有任务查询在每个块中直接相互交互,促进跨任务知识转移,在没有显式层次结构的情况下保持系统稳定性,实现了任务并行性。
    • 传感器交叉注意力:任务查询直接与原始传感器特征交互,提供了一种高效直接的信息提取方式,与端到端优化范式一致,体现了稀疏表示的特性。
    • 时间交叉注意力:通过先进先出队列实现时间融合,存储历史任务查询并通过时间交叉注意力确保效率和特征重用,支持流式处理。
  • DETR 风格的任务头: 受DETR的启发,在每个模块后设置任务头,以逐步优化预测结果,且位置编码(PE)也会相应更新,如图所示。

Head Task:

  • Object Detection & Motion Prediction
  • Online Mapping
  • Planning
  • Coarse-to-Fine Optimization

2.2 关键创新点

  • 任务并行性:摒弃了传统的任务顺序处理方式,所有任务查询直接相互交互,能更好地利用任务间的协同作用,挖掘不同任务之间的内在联系和相互影响,从而提高系统的整体性能和效率,例如在目标检测过程中获取到的物体信息可以同时为运动预测和规划任务提供参考,使各任务的结果更加准确和一致。
  • 稀疏表示:任务查询直接与原始传感器特征交互,避免了中间复杂的特征转换和处理过程,减少了信息损失和误差累积,提高了信息提取的效率和准确性,同时也降低了计算资源的消耗,使模型能够更快速地处理大量的传感器数据。
  • 流式处理:通过先进先出队列存储历史任务查询,并利用时间交叉注意力机制进行融合,使模型能够有效地利用历史信息,更好地理解和预测车辆周围环境的动态变化,提高了模型对长序列数据的处理能力和对复杂场景的适应性,例如在处理连续的交通流场景时,能够更准确地预测车辆的行驶轨迹和周围物体的运动趋势。

2.3 实验结果

  • 数据集:在模拟闭环基准 bench2drive 和真实世界开环基准 nuscenes 上进行了实验。
  • 性能表现:DriveTransformer 在两个基准数据集上均取得了最先进的性能,帧率高达每秒若干帧,证明了其在端到端自动驾驶任务中的有效性和优越性,能够准确地输出目标检测、运动预测、在线制图和规划等多个任务的结果,为自动驾驶车辆提供可靠的决策支持。

对比VAD:

3 结论

        DriveTransformer,其创新的架构和机制解决了现有方法中存在的累积误差、训练不稳定以及计算挑战等问题,为端到端自动驾驶技术的发展提供了新的思路和方法。通过在多个基准数据集上取得最先进的性能,证明了该模型能够显著提高自动驾驶系统的准确性和可靠性,使其更接近实际应用的需求,推动了自动驾驶技术从理论研究向实际应用的转化进程。

参考文献:《DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving》

Github:https://github.com/Thinklab-SJTU/DriveTransformer/

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐