P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors (RAL 2024)
在高清地图(HDMaps)的辅助下,自动驾驶汽车正逐步驶入城市道路。然而,对高清地图的依赖阻碍了自动驾驶汽车进入缺乏这种昂贵数字基础设施的区域。这一现状促使许多研究人员研究在线高清地图生成算法,但这些算法在远距离区域的性能仍不尽如人意。我们提出了P-MapNet,其中字母P强调我们专注于融合地图先验信息以提升模型性能。具体而言,我们利用了标清地图(SDMap)和高清地图(HDMap)中的先验信息。
P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors - 借助标清地图(SDMap)与高清地图(HDMap)先验信息增强的远视地图生成器(RAL 2024)
声明:此翻译仅为个人学习记录
文章信息
- 标题:P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors (RAL 2024)
- 作者:Zhou Jiang1,2*, Zhenxin Zhu2,3*, Pengfei Li2,4, Huan-ang Gao2,4, Tianyuan Yuan4, Yongliang Shi2, Hang Zhao4 , Hao Zhao2,†
- 文章链接:https://arxiv.org/pdf/2403.10521
- 文章代码:https://jike5.github.io/P-MapNet/
摘要
在高清地图(HDMaps)的辅助下,自动驾驶汽车正逐步驶入城市道路。然而,对高清地图的依赖阻碍了自动驾驶汽车进入缺乏这种昂贵数字基础设施的区域。这一现状促使许多研究人员研究在线高清地图生成算法,但这些算法在远距离区域的性能仍不尽如人意。我们提出了P-MapNet,其中字母P强调我们专注于融合地图先验信息以提升模型性能。具体而言,我们利用了标清地图(SDMap)和高清地图(HDMap)中的先验信息。一方面,我们从OpenStreetMap中提取弱对齐的标清地图,并将其编码为额外的条件分支。尽管存在对齐挑战,但我们的基于注意力的架构能够自适应地关注相关的标清地图骨架,从而显著提升性能。另一方面,我们利用掩码自编码器捕捉高清地图的先验分布,该分布可作为精炼模块来减轻遮挡和伪影问题。我们在nuScenes和Argoverse2数据集上进行了基准测试。通过全面的实验,我们表明:(1)我们的标清地图先验信息能够提升在线地图生成性能,在使用栅格化输出表示时(最高提升+18.73 mIoU)和矢量化输出表示时(最高提升+8.50 mAP)均有所体现。(2)我们的高清地图先验信息能够将地图感知指标提升高达6.34%。(3)P-MapNet可以切换到不同的推理模式,覆盖准确性与效率权衡的不同区域。(4)P-MapNet是一种具有远视能力的解决方案,在更远的距离上能带来更大的性能提升。代码和模型已公开发布于https://jike5.github.io/P-MapNet/。

图1. 左侧:由于离线高清地图(HDMap)生成过程繁琐且成本高昂,人们正在探索在线高清地图生成算法,而我们的P-MapNet正是一种借助标清地图(SDMap)和高清地图(HDMap)先验信息增强的在线高清地图生成器。右侧:尽管标清地图与高清地图之间存在对齐问题,但我们的P-MapNet仍能显著提升地图生成性能,尤其是在远距离区域。
1. 引言
尽管我们仍不清楚完全自动驾驶汽车能否在地球的每一个角落都顺畅运行这一终极问题的答案,但业界确实已经取得了一些令人瞩目的里程碑,例如,机器人出租车如今已在一些大城市实现稳定运行。然而,当前的自动驾驶技术栈严重依赖于一种昂贵的数字基础设施:高清地图(HDMaps)。借助高清地图,局部驾驶操作被简化为车道保持、车道变换以及动态障碍物规避,这极大地缩小了决策空间。但如图1左上角所示,高清地图的生成过程非常繁琐且成本高昂。更糟糕的是,高清地图无法一劳永逸地生成,因为它们平均每三个月就必须更新一次。人们普遍认为,减少对高清地图的依赖至关重要。
因此,最近的一些方法[14]、[17]利用多模态在线传感输入(如激光雷达点云和全景多视图RGB图像)来生成高清地图,图1左中面板给出了这一范式的概念性说明。尽管这些方法取得了令人瞩目的成果,但长距离在线高清地图生成器在定量指标上仍然有限,本研究则聚焦于利用先验信息来提升其性能。具体来说,我们利用了两种先验信息来源:标清地图(SDMap)和高清地图(HDMap),如图1左下角面板所示。
标清地图先验。在行业大规模构建高清地图数字基础设施之前,标清地图(SDMaps)已被使用多年,并极大地提升了我们日常生活的便利性。谷歌或百度提供的商业标清地图应用帮助人们在复杂道路网络的大城市中导航,告诉我们在十字路口转弯或并入主干道。然而,标清地图对自动驾驶汽车并不直接有用,因为它们仅提供中心线骨架(如图1左下角面板中的“SDMap Prior”所示)。因此,我们的目标是利用标清地图先验来构建更好的在线高清地图生成算法,这可以直观地理解为在标清地图的骨架周围绘制高清地图。然而,这一直观想法面临一个主要挑战:对齐问题。在实际操作中,我们使用GPS信号从OpenStreetMap中提取标清地图,但不幸的是,它们在某些场景下与真实高清地图的对齐程度充其量只是弱对齐。图1右侧面板给出了一个说明,标注为“SDMap with Ground Truth”。为此,我们利用基于注意力的网络架构,该架构能够自适应地关注相关的标清地图特征,并在各种设置下显著提升了性能(见表I)。
高清地图先验。尽管标清地图先验有用,但它们无法完全捕捉高清地图输出空间的分布。如图1右侧面板中的“Ours with SDMap Prior”所示,高清地图生成结果存在断裂和不必要的弯曲。这归因于我们的架构(与先前方法类似)采用鸟瞰图(BEV)密集预测方式设计,无法保证BEV高清地图的结构化输出空间。因此,高清地图先验作为一种解决方案应运而生,其直觉是,如果算法能够显式地建模高清地图的结构化输出空间,那么它自然可以纠正这些不自然的伪影(即上述提到的断裂和不必要的弯曲结果)。在实现方面,我们在大量高清地图上训练了一个掩码自编码器(MAE)来捕捉高清地图先验,并将其用作精炼模块。如图1右侧面板中的“ours with both Map Priors”所示,我们的MAE成功纠正了上述问题。
P-MapNet作为远视解决方案。仔细观察融入先验信息带来的积极提升,可以发现P-MapNet是一个远视解决方案。如图1右侧面板所示,在融入标清地图先验后,远离自车(由汽车图标表示)的缺失地图元素被成功提取。这是可以理解的,因为远侧的道路中心线骨架在标清地图输入中已经是已知的。同时,高清地图先验在两种区域带来了改进:具有高度结构化重复模式的十字路口和远侧的车道。这归因于我们的掩码自编码器可以融入典型高清地图的外观先验信息,例如车道应该是相连的且大致笔直,十字路口则以重复的方式绘制。如表I所示,随着感知范围的增加,积极提升稳步增长。我们相信,作为远视解决方案的P-MapNet有助于推导出更智能的决策,这些决策能够考虑到远侧的地图信息。
总之,我们的贡献有三方面:(1)我们通过关注弱对齐的标清地图特征,将标清地图先验融入在线地图生成器,并实现了显著的性能提升;(2)我们还利用掩码自编码器作为精炼模块来融入高清地图先验,纠正了偏离高清地图结构化输出空间的伪影;(3)我们在公共基准上实现了远视高清地图生成的最新成果,并进行了深入的消融分析以揭示其机制。
2. 相关工作
A. 在线高清地图生成
在线地图生成器对自动驾驶至关重要[12]、[23]、[32]、[25]、[13],这与室内场景的房间布局估计[31]、[3]、[7]在精神上相似。传统上,高清地图是手动离线标注的,通过SLAM算法[1]、[11]结合点云地图以实现高精度,但成本高昂且无法实时更新。相比之下,最近的研究则聚焦于利用车载传感器高效且经济地生成在线高清地图[5]、[14]、[15]、[17]、[20]、[21]。HDMapNet[14]采用像素级标注和启发式后处理,使用平均精度(AP)和交并比(IoU)作为指标。更近期的方法[4]、[16]、[17]、[28]、[29]则采用了端到端的矢量化高清地图生成技术,利用Transformer架构[22]。然而,这些方法仅依赖车载传感器,在处理遮挡或恶劣天气等挑战性环境条件时存在局限性。
B. 长距离地图感知
为了增强高清地图对下游任务的实用性,一些研究旨在将其覆盖范围扩展到更长的感知距离。SuperFusion[5]结合激光雷达点云和相机图像进行深度感知的BEV变换,生成前向视图的高清地图预测,最远可达90米。NeuralMapPrior[27]维护和更新一个全局神经地图先验,以增强在线观测,从而生成更高质量、更远距离的高清地图预测。[8]提出利用卫星地图辅助在线地图生成。通过分层融合模块聚合车载传感器和卫星图像的特征,以获得最终的BEV特征。MV-Map[26]则专注于离线长距离高清地图生成。它遍历过程中聚合所有相关帧,并优化神经辐射场以改进BEV特征生成。

图2. P-MapNet概述。P-MapNet被设计为能够接受来自周边摄像头或多模态的输入。它对这些输入进行处理,以提取传感器特征和SD地图先验特征,这两种特征均以鸟瞰图(BEV)空间的形式呈现。随后,这些特征通过注意力机制进行融合,并由高精度地图(HDMap)先验模块进一步优化,从而生成与真实世界地图数据高度吻合的结果。
3. 公式化表述
给定激光雷达点云 P \mathcal{P} P和全景图像集合 { I i ∣ i = 1 , 2 , … N } \{\mathcal{I}_i | i = 1, 2, …N\} {Ii∣i=1,2,…N}(其中 N N N通常为全景设备中的六个摄像头数量),一个常见的在线高精度地图(HDMap)生成任务(例如HDMapNet [14])可以表述为:

其中, F 1 \mathcal{F}_1 F1表示特征提取器,它接收多模态输入并生成鸟瞰图(BEV)特征,而 F 2 \mathcal{F}_2 F2是一个分割头,用于预测BEV中每个网格的语义类别标签。 M \mathcal{M} M代表高精度地图(HDMap)的预测结果。
然而,这种常见的表述方式未能充分利用标准定义地图(SDMap)和高精度地图(HDMap)中丰富的先验信息。因此,我们提出了一项新任务,旨在整合这些先验信息,以生成更准确、更具前瞻性的高精度地图,从而有效解决遮挡以及超远距离感知等相关问题:

其中, S \mathcal{S} S表示以道路中心线骨架形式呈现的标准定义地图(SDMap)先验信息。 H \mathcal{H} H代表精炼模块,这是一个预训练模型,用于捕捉高精度地图(HDMap)的分布特征。同样, M ′ \mathcal{M}' M′表示在车辆前方/后方100米范围内的远距离高精度地图预测结果。
输出格式。在线高精度地图生成有两种典型的输出格式:栅格化和矢量化。在本研究中,我们专注于栅格化表示(例如HDMapNet [14]),因为它更适合设计我们的两个先验模块(相较于矢量化表示)。具体来说,如何有效地对矢量化表示进行输入/输出编码,并不像栅格化表示那样自然。
仅使用 S \mathcal{S} S的设置。如图2(a)所示,我们通过将中心线骨架编码为额外的输入分支来整合标准定义地图(SDMap)先验信息。在这种仅使用 S \mathcal{S} S的设置中,公式化表述为:

其中,编码 S \mathcal{S} S的过程如图2(c) 所示。
S + H \mathcal{S+H} S+H设置。虽然标准定义地图(SDMap)先验S可以自然地作为额外输入进行整合,但利用高精度地图(HDMap)先验则具有挑战性。我们的创新提议是使用掩码自编码器(MAE)作为精炼模块来整合高精度地图先验。核心思想是利用MAE对高精度地图进行重建,从而使这个MAE本质上能够捕捉高精度地图先验的分布。然而,这并非易事,因为原始MAE无法实现这一目标。
原始MAE。原始MAE [10]会将高精度地图视为图像,并在均方误差(MSE)损失下进行图像重建训练。问题在于,这种MAE会预测图像,因此无法用作精炼模块,因为我们的高精度地图生成器实际上最后需要一个分割头。
我们的MAE变体。我们的MAE变体以栅格化高精度地图(本质上是图像)作为输入,但使用分割头预测每个网格的语义标签。这仍然是一个自编码过程,因为该模块重建了感兴趣的高精度地图。然而,这个MAE的输入和输出格式不同:输入是图像,输出是分割掩码。这使得它可以在上述多传感器( M S \mathcal{M_S} MS)输出之后方便地进行精炼。
正式表示。我们的高精度地图精炼模块有两个训练步骤。第一步是在大量高精度地图上预训练高精度地图先验模块,如图2(e)所示。

在此,高精度地图先验模块 H ( ⋅ ) \mathcal{H}(·) H(⋅)被具体定义为 F 2 ′ ( F 3 ( ⋅ ) ) \mathcal{F}^′_2 (\mathcal{F}_3(·)) F2′(F3(⋅)),其中 F 3 \mathcal{F}_3 F3表示典型掩码自编码器(MAE)中使用的视觉变换器(ViT)模型,而 F 2 ′ \mathcal{F}^′_2 F2′则表示另一个分割头,如上文所述。这个 F 2 ′ \mathcal{F}^′_2 F2′使我们的MAE成为一个适合精炼的变体。 M m a s k e d \mathcal{M_{masked}} Mmasked是从训练数据集中随机掩码的高精度地图,而 M s e l f \mathcal{M_{self}} Mself则是未掩码的版本。
微调。第二步是端到端微调:

其中,MS是来自标准定义地图(SDMap)先验模块的初始预测,如图2(a)和公式3所示。
因此,正式的 S + H \mathcal{S+H} S+H设置(通过整合公式3和公式5)如下所示:

4. 方法
A. 标准定义地图(SDMap)先验模块
现 在,我们将详细阐述标准定义地图(SDMap)先验模块的实现方式。首先,我们再次回顾一下动机:鉴于车载感知本身存在的挑战,如远距离道路不可见和恶劣天气条件等,融入标准定义地图(SDMap)先验成为一种有前景的技术,因为标准定义地图(SDMap)能够稳定且一致地勾勒出环境轮廓(不受这些挑战的影响)。
标准定义地图(SDMap)生成:我们首先介绍利用OpenStreetMap(OSM)[9]数据生成标准定义地图(SDMap)先验的方法。我们特别选用nuScenes[2]和Argoverse2[24]数据集进行研究,因为这些数据集在自动驾驶领域占据重要地位。这些数据集配备了丰富的传感器,但不包含所捕获区域的相应标准定义地图(SDMap)信息。为解决这一限制,我们利用OpenStreetMap获取这些区域的相关标准定义地图(SDMap)数据。具体来说,我们首先根据车载GPS信息从OSM1(https://www.openstreetmap.org/)获取相应区域的本地化标准定义地图(SDMap)数据,然后将这些标准定义地图(SDMap)数据转换到自车坐标系。尽管我们获得了标准定义地图(SDMap)先验,但由于OSM精度较低和GPS偏差导致的对齐问题,将给标准定义地图(SDMap)先验的融合带来挑战。
融入标准定义地图(SDMap)先验:在提取和栅格化之后,栅格化的标准定义地图(SDMap)先验不可避免地会面临空间对齐问题,即标准定义地图(SDMap)先验与当前操作位置不精确对齐,这通常是由于GPS信号不准确或车辆快速移动造成的。这种对齐问题使得直接在特征维度上将鸟瞰图(BEV)特征与标准定义地图(SDMap)特征拼接的简单方法无效,如表格VI所述。为应对这一挑战,我们采用多头交叉注意力模块。这允许网络利用交叉注意力确定最合适的对齐位置,从而有效地用标准定义地图(SDMap)先验增强鸟瞰图(BEV)特征。
鸟瞰图(BEV)查询:如图2(b)所示,我们首先利用卷积网络对鸟瞰图(BEV)特征进行下采样。这不仅避免了在低级特征图上消耗过多内存,还部分缓解了图像鸟瞰图(BEV)特征和激光雷达鸟瞰图(BEV)特征之间的对齐问题。下采样后的鸟瞰图(BEV)特征表示为 B s m a l l ∈ R H d × W d × C \mathcal{B}_{small}∈\Bbb{R}^{\frac{H}{d} × \frac{W}{d} × C} Bsmall∈RdH×dW×C,其中 d d d为下采样因子。这些特征结合正弦位置嵌入并压缩为一维,得到鸟瞰图(BEV)查询 Q b e v Q_{bev} Qbev。
处理后的标准定义地图(SDMap)先验:相关的(尽管存在对齐问题)标准定义地图(SDMap)通过卷积网络结合正弦位置嵌入进行处理,生成标准定义地图(SDMap)先验标记Fsd,如图2(c)所示。随后,利用多头交叉注意力通过整合标准定义地图(SDMap)先验的信息来增强鸟瞰图(BEV)查询。其正式表示为:

其中, C A i CA_i CAi表示第 i i i个单头交叉注意力, m m m表示头的数量以及键和值的嵌入,Proj是一个投影层, B i m p r o v e d \mathcal{B}_{improved} Bimproved表示通过多头交叉注意力(融合了标准定义地图(SDMap)先验)得到的调整大小后的鸟瞰图(BEV)特征。随后,改进后的鸟瞰图(BEV)特征通过分割头得到初始的高精度地图元素预测,记为 X i n i t ∈ R H × W × ( N c + 1 ) X_{init}∈\Bbb{R}^{H×W×(N_c+1)} Xinit∈RH×W×(Nc+1)。这里, ( N c + 1 ) (N_c+1) (Nc+1)个通道表示地图元素类别的总数,包括一个额外的背景类别。
B. 高精度地图(HDMap)先验模块
接下来,我们描述高精度地图(HDMap)先验模块。该模块H计算量较大(见图5),实际上是可选的。我们的目标是获得更准确、更逼真的远距离高精度地图,特别是在恶劣天气、遮挡区域和不可见区域等具有挑战性的场景中。为了在这些场景中增强高精度地图生成的连续性和真实性,并紧密逼近高精度地图的分布,我们采用了一个经过适应的预训练掩码自编码器(MAE)模块来捕捉分布。训练高精度地图(HDMap)先验模块包含两个训练步骤:第一步是使用自监督学习训练掩码自编码器(MAE)模块以捕捉高精度地图的分布;第二步是加载第一步的权重,并使用初始高精度地图预测 X i n i t X_{init} Xinit作为输入进行微调,如函数5所示。

图3. 不同的掩码策略。“Masked”指的是应用各种掩码策略后的预训练输入,“Epoch-1”和“Epoch-20”分别表示预训练过程中第一个和第二十个周期的重建结果。
预训练的掩码自编码器(MAE)模块。我们利用自监督学习来预训练掩码自编码器,以捕捉高精度地图(HDMap)的数据分布。如图2(e)所示,该模块由一个视觉变换器(Vision Transformer)模型[6]和一个全卷积分割头组成。如函数4所示,我们对数据集中训练集的高精度地图(HDMap)真值进行掩码处理,然后使用视觉变换器(ViT)模型对掩码后的高精度地图(HDMap)进行编码。随后,鉴于我们的重建目标实际上是语义掩码(尽管在输入时被视为图像),我们使用分割头将掩码后的高精度地图(HDMap)还原回其原始的高精度地图(HDMap)真值。此过程通过高精度地图(HDMap)真值与掩码后的高精度地图(HDMap)之间的逐像素交叉熵损失进行自监督。具体来说,我们尝试了两种不同的掩码策略来预训练该模块,即网格掩码和随机掩码,如图9所示。在随机掩码策略中,我们从一组候选值中随机选择掩码块大小和掩码比例,以减轻预训练过程中的过拟合问题。
端到端微调。接下来,我们将预训练的掩码自编码器(MAE)模块应用于初始高精度地图(HDMap)预测Xinit,作为一个精炼插件来改进初始预测的高精度地图(HDMap),解决在具有挑战性的场景中可能出现的车道断裂或缺失等问题。然后,我们对整个模型进行10个周期的轻量级微调,以更好地使初始预测的分布与高精度地图(HDMap)的分布对齐,如函数5所示。

图4. 定性结果。我们在nuScenes数据集上240m×60m的范围内以及Argoverse2数据集上120m×60m的范围内进行比较分析,使用摄像头(C)和激光雷达(L)作为输入。在我们的表示中,“S”表示我们的方法仅使用标准定义地图(SDMap)先验,而“S+H”表示同时使用标准定义地图(SDMap)先验和高精度地图(HDMap)先验。在各种天气条件和涉及视角遮挡的场景下,我们的方法始终优于基线方法。
5. 实验
A. 数据集与评估指标
我们在自动驾驶研究中两个流行的数据集nuScenes[2]和Argoverse2[24]上评估P-MapNet。为了证明我们的方法是一种具有前瞻性的解决方案,我们沿车辆行驶方向设置了三个不同的感知范围:60×30米、120×60米、240×60米。此外,我们采用不同的地图分辨率,具体为60×30米的短距离范围使用0.15米分辨率,其余两个较长距离范围使用0.3米分辨率。我们使用交并比(IoU)作为分割结果的评估指标,并加入后处理步骤以获取矢量化地图,使用平均精度(AP)进行评估。遵循[5]的做法,我们将IoU阈值设置为0.2,CD阈值设置为0.5米、1.0米、1.5米。此外,为了评估高精度地图(HDMap)先验精炼模块输出的真实性,我们采用感知指标LPIPS[30],该指标利用深度学习技术更紧密地模拟人类视觉感知差异,相比传统的像素级或简单结构比较,能提供更精确且与人类视觉感知一致的图像质量评估。实施细节可在补充材料中找到。
表I:交并比(IoU)分数和平均精度(AP)分数的定量结果。在nuScenes验证集[2]上,将我们的方法与HDMapNet[14]基线进行比较。“S”表示我们的方法仅使用标准定义地图(SDMap)先验,而“S+H”表示同时使用两种先验。“M”表示我们方法的模态,“EPOCH”表示精炼的周期数。

表II:P-MapNet在nuScenes验证集上达到最先进水平。符号“†”表示[26]、[5]中报告的结果,而“NMP”表示[27]中描述的“HDMapNet+NMP”配置。对于超长距离感知,我们与SuperFusion[5]和BEVFusion[18]进行了比较。“C”和“L”分别指环视摄像头和激光雷达输入。我们的方法同时使用了标准定义地图(SDMap)和高精度地图(HDMap)先验。

表III:Argoverse2验证集上地图分割的定量结果。我们仅使用环视摄像头作为输入,对P-MapNet方法和HDMapNet[14]进行了比较,显示出更优的性能。

B. 结果
与最先进方法的比较:我们对我们的方法与当前最先进(SOTA)的方法在短距离(60米×30米)感知和长距离(90米×30米,分辨率为0.15米)感知方面进行了比较分析。如表II所示,与现有的仅视觉方法和多模态(RGB+激光雷达)方法相比,我们的方法表现出更优的性能。
远距离实验:我们在不同距离和传感器模态下与HDMapNet[14]进行了性能比较,结果总结在表I和表III中。在240米×60米的范围内,我们的方法在平均交并比(mIOU)上实现了显著的13.4%提升。值得注意的是,随着感知距离超出甚至超过传感器检测范围,标准定义地图(SDMap)先验的有效性变得更加明显,从而验证了标准定义地图(SDMap)先验的有效性。最后,我们利用高精度地图(HDMap)先验对初始预测结果进行精炼,使其更加真实,并消除断裂和不必要的弯曲结果,如图4所示,这进一步提升了性能。
高精度地图(HDMap)先验的感知指标:高精度地图(HDMap)先验模块致力于将网络输出映射到高精度地图(HDMap)的分布上,使其更加真实。为了评估高精度地图(HDMap)先验精炼模块输出的真实性,我们采用感知指标LPIPS[30](值越低表示性能越好)。如表IV所示,与仅使用标准定义地图(SDMap)先验(S)的设置相比,在同时使用标准定义地图(SDMap)和高精度地图(HDMap)先验(S+H)的设置下,提升更为显著。
矢量化结果:我们还通过后处理获得矢量化高精度地图(HDMap),对矢量化结果进行了比较。如表I所示,我们在不同距离范围内均实现了最佳的实例检测平均精度(AP)结果。
标准定义地图(SDMap)先验是否适用于直接矢量化地图预测?:如表IX所示,为了确认我们标准定义地图(SDMap)先验的通用性,我们将标准定义地图(SDMap)先验模块集成到MapTR[16](仅进行了微小修改)这一端到端框架中,称为MapTR-SDMap方法。我们的MapTR-SDMap方法也显著提升了平均精度均值(mAP)。
表IV:高精度地图(HDMap)先验的感知指标。我们利用LPIPS指标评估了120米×60米感知范围内S+H模型的真实性,与仅使用标准定义地图(SDMap)先验(S)的设置相比,在同时使用标准定义地图(SDMap)和高精度地图(HDMap)先验(S+H)的设置下,提升更为显著。

表V:在nuScenes验证集上与MapTR[16]的比较。我们仅使用环视摄像头作为输入,对融合了标准定义地图(SDMap)先验方法的MapTR(MapTR-SDMap)与原始的MapTR[16]进行了比较,并使用了预定义的倒角距离(CD)阈值0.5米、1.0米和1.5米。我们的结果表现出更优的性能,突出了我们标准定义地图(SDMap)先验融合方法的有效性。


图5. 详细运行时间。我们在一块RTX 3090 GPU上对P-MapNet在60×120米范围内的各个组件进行了运行时间分析。
表VI:关于标准定义地图(SD Map)融合策略的消融实验。实验在120×60米的范围内进行,以摄像头(C)和激光雷达(L)作为输入。“无SDMap”为基线[14]。“无SDMap,有自注意力(W SELF.ATTN)”仅使用了鸟瞰图(BEV)查询自注意力。

表VII:关于鸟瞰图(BEV)与标准定义先验(SDPrior)交叉注意力层数的消融实验。在训练过程中,我们以批量大小为4评估了内存使用情况,而在推理过程中,我们以批量大小为1测量了每秒帧数(FPS)。

C. 消融实验
所有消融实验均在nuScenes验证集上进行,感知范围为120米×60米,采用摄像头与激光雷达融合(C+L)配置。
详细运行时间:在图5中,我们提供了P-MapNet在摄像头和激光雷达输入下各组件的详细墙钟运行时间。作为回顾,完整的每秒帧数(FPS)评估结果报告在表I中。从分析来看,高精度地图(HDMap)先验计算量较大,但它是可选的。实践者可以根据计算开销(例如,车载或非车载)在仅使用标准定义地图(SDmap)设置或标准定义地图(SDMap)与高精度地图(HDMap)结合设置之间进行切换。
标准定义地图(SDMap)先验融合策略:为了验证我们提出的标准定义地图(SDMap)先验融合方法的有效性,我们实验了多种融合策略,详情总结在表VI中。在初步评估中,将栅格化的标准定义地图(SDMap)与鸟瞰图(BEV)特征进行简单拼接(称为“Simple-concat”)使平均交并比(mIoU)提升了约5%。一种更好的方法,即利用卷积神经网络(CNN)对栅格化的标准定义地图(SDMap)进行编码和拼接,将这一提升进一步提高到约7%。然而,简单的拼接技术受到空间不对齐问题的困扰,无法充分利用标准定义地图(SDMap)先验的潜力。有趣的是,仅利用自注意力进行鸟瞰图(BEV)查询也提升了性能。在所有测试的方法中,我们基于交叉注意力的方法表现出了最显著的提升。
鸟瞰图(BEV)与标准定义先验(SDPrior)交叉注意力层的消融:随着变换器层数的增加,我们方法的性能有所提升,但最终会达到饱和点,因为标准定义地图(SDMap)先验包含低维信息,且过大的网络层容易过拟合,如表VII所示。
高精度地图(HDMap)掩码自编码器(MAE)的泛化能力:为了验证我们高精度地图(HDMap)先验精炼模块的泛化能力,我们分别在Argoverse2和nuScenes数据集上进行预训练,然后在nuScenes数据集上进行微调,并测试预测结果的平均交并比(mIOU)。结果如表VIII所示,可以看出,在Argoverse2上预训练的模型与在nuScenes上预训练的模型相比,平均交并比(mIOU)仅低0.64%,这可以证明我们的精炼模块确实捕捉到了具有泛化能力的高精度地图(HDMap)先验信息,而不是过拟合到特定数据集。
表VIII:高精度地图(HDMap)先验的跨数据集实验。我们分别在Argoverse2和nuScenes数据集上对高精度地图(HDMap)先验模块进行预训练,并在nuScenes验证集上进行测试,使用120×60米的范围和RGB+激光雷达输入。

REFERENCES
[1] Zhibin Bao, Sabir Hossain, Haoxiang Lang, and Xianke Lin. Highdefinition map generation technologies for autonomous driving. ArXiv, abs/2206.05400, 2022.
[2] Holger Caesar, Varun Bankiti, Alex H Lang, Sourabh Vora, Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Giancarlo Baldan, and Oscar Beijbom. nuscenes: A multimodal dataset for autonomous driving. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 11621–11631, 2020.
[3] Xiaoxue Chen, Hao Zhao, Guyue Zhou, and Ya-Qin Zhang. Pqtransformer: Jointly parsing 3d objects and layouts from point clouds. IEEE Robotics and Automation Letters, 7(2):2519–2526, 2022.
[4] Wenjie Ding, Limeng Qiao, Xi Qiu, and Chi Zhang. Pivotnet: Vectorized pivot learning for end-to-end hd map construction, 2023.
[5] Hao Dong, Xianjing Zhang, Xuan Jiang, Jun Zhang, Jintao Xu, Rui Ai, Weihao Gu, Huimin Lu, Juho Kannala, and Xieyuanli Chen. Superfusion: Multilevel lidar-camera fusion for long-range hd map generation and prediction. arXiv preprint arXiv:2211.15656, 2022.
[6] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.
[7] Huan-ang Gao, Beiwen Tian, Pengfei Li, Xiaoxue Chen, Hao Zhao, Guyue Zhou, Yurong Chen, and Hongbin Zha. From semi-supervised to omni-supervised room layout estimation using point clouds. In 2023 IEEE International Conference on Robotics and Automation (ICRA), pages 2803–2810. IEEE, 2023.
[8] Wenjie Gao, Jiawei Fu, Yanqing Shen, Haodong Jing, Shitao Chen, and Nanning Zheng. Complementing onboard sensors with satellite map: A new perspective for hd map construction, 2023.
[9] Mordechai Haklay and Patrick Weber. Openstreetmap: User-generated street maps. IEEE Pervasive computing, 7(4):12–18, 2008.
[10] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollar, ´ and Ross Girshick. Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 16000–16009, 2022.
[11] John Houston, Guido Zuidhof, Luca Bergamini, Yawei Ye, Long Chen, Ashesh Jain, Sammy Omari, Vladimir Iglovikov, and Peter Ondruska. One thousand and one hours: Self-driving motion prediction dataset. In Conference on Robot Learning, pages 409–418. PMLR, 2021.
[12] Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, Senyao Du, Tianwei Lin, Wenhai Wang, et al. Planning-oriented autonomous driving. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 17853–17862, 2023.
[13] Bu Jin, Xinyu Liu, Yupeng Zheng, Pengfei Li, Hao Zhao, Tong Zhang, Yuhang Zheng, Guyue Zhou, and Jingjing Liu. Adapt: Action-aware driving caption transformer. In 2023 IEEE International Conference on Robotics and Automation (ICRA), pages 7554–7561. IEEE, 2023.
[14] Qi Li, Yue Wang, Yilun Wang, and Hang Zhao. Hdmapnet: An online hd map construction and evaluation framework. In 2022 International Conference on Robotics and Automation (ICRA), pages 4628–4634. IEEE, 2022.
[15] Bencheng Liao, Shaoyu Chen, Bo Jiang, Tianheng Cheng, Qian Zhang, Wenyu Liu, Chang Huang, and Xinggang Wang. Lane graph as path: Continuity-preserving path-wise modeling for online lane graph construction. arXiv preprint arXiv:2303.08815, 2023.
[16] Bencheng Liao, Shaoyu Chen, Xinggang Wang, Tianheng Cheng, Qian Zhang, Wenyu Liu, and Chang Huang. Maptr: Structured modeling and learning for online vectorized hd map construction. arXiv preprint arXiv:2208.14437, 2022.
[17] Yicheng Liu, Yue Wang, Yilun Wang, and Hang Zhao. Vectormapnet: End-to-end vectorized hd map learning. arXiv preprint arXiv:2206.08920, 2022.
[18] Zhijian Liu, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, and Song Han. Bevfusion: Multi-task multi-sensor fusion with unified bird’s-eye view representation. arXiv preprint arXiv:2205.13542, 2022.
[19] Bowen Pan, Jiankai Sun, Ho Yin Tiga Leung, Alex Andonian, and Bolei Zhou. Cross-view semantic segmentation for sensing surroundings. IEEE Robotics and Automation Letters, 5(3):4867–4873, 2020.
[20] Jonah Philion and Sanja Fidler. Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XIV 16, pages 194–210. Springer, 2020.
[21] Avishkar Saha, Oscar Mendez, Chris Russell, and Richard Bowden. Translating images into maps. In 2022 International Conference on Robotics and Automation (ICRA), pages 9200–9206. IEEE, 2022.
[22] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017.
[23] Huijie Wang, Tianyu Li, Yang Li, Li Chen, Chonghao Sima, Zhenbo Liu, Bangjun Wang, Peijin Jia, Yuting Wang, Shengyin Jiang, et al. Openlane-v2: A topology reasoning benchmark for unified 3d hdmapping. Advances in Neural Information Processing Systems, 36, 2024.
[24] Benjamin Wilson, William Qi, Tanmay Agarwal, John Lambert, Jagjeet Singh, Siddhesh Khandelwal, Bowen Pan, Ratnesh Kumar, Andrew Hartnett, Jhony Kaesemodel Pontes, Deva Ramanan, Peter Carr, and James Hays. Argoverse 2: Next generation datasets for self-driving perception and forecasting. In Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks (NeurIPS Datasets and Benchmarks 2021), 2021.
[25] Zirui Wu, Tianyu Liu, Liyi Luo, Zhide Zhong, Jianteng Chen, Hongmin Xiao, Chao Hou, Haozhe Lou, Yuantao Chen, Runyi Yang, et al. Mars: An instance-aware, modular and realistic simulator for autonomous driving. In CAAI International Conference on Artificial Intelligence, pages 3–15. Springer, 2023.
[26] Ziyang Xie, Ziqi Pang, and Yu-Xiong Wang. Mv-map: Offboard hdmap generation with multi-view consistency. arXiv, 2023.
[27] Xuan Xiong, Yicheng Liu, Tianyuan Yuan, Yue Wang, Yilun Wang, and Hang Zhao. Neural map prior for autonomous driving. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 17535–17544, 2023.
[28] Tianyuan Yuan, Yicheng Liu, Yue Wang, Yilun Wang, and Hang Zhao. Streammapnet: Streaming mapping network for vectorized online hdmap construction. arXiv preprint arXiv:2308.12570, 2023.
[29] Gongjie Zhang, Jiahao Lin, Shuang Wu, Yilin Song, Zhipeng Luo, Yang Xue, Shijian Lu, and Zuoguan Wang. Online map vectorization for autonomous driving: A rasterization perspective. arXiv preprint arXiv:2306.10502, 2023.
[30] Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 586–595, 2018.
[31] Hao Zhao, Ming Lu, Anbang Yao, Yiwen Guo, Yurong Chen, and Li Zhang. Physics inspired optimization on semantic transfer features: An alternative method for room layout estimation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 10–18, 2017.
[32] Yupeng Zheng, Chengliang Zhong, Pengfei Li, Huan-ang Gao, Yuhang Zheng, Bu Jin, Ling Wang, Hao Zhao, Guyue Zhou, Qichao Zhang, et al. Steps: Joint self-supervised nighttime image enhancement and depth estimation. In 2023 IEEE International Conference on Robotics and Automation (ICRA), pages 4916–4923. IEEE, 2023.
附录
A. 实施细节
P-MapNet 使用四块 NVIDIA GeForce RTX 3090 GPU 进行训练。我们采用 Adam 优化器和 StepLR 学习率调度器进行训练,学习率设置为 5 × 10⁻⁴。为确保公平比较,我们采用在 ImageNet 上预训练的 EfficientNet-B0 作为透视视图图像编码器,并使用多层感知机(MLP)将其转换为鸟瞰图(BEV)特征。为了对激光雷达(LiDAR)鸟瞰图特征进行点云编码,我们利用 PointPillars 框架,其输出维度设置为 128。在高清地图(HDMap)先验的预训练阶段,我们对每个范围训练了 20 个周期。随后,我们将鸟瞰图特征融合与高清地图先验细化模块相结合,并进行了额外的 10 个周期训练,以获得最终的高清地图预测结果。
B. 关于 SD 地图先验的进一步研究
1)将 SD 地图先验集成到端到端矢量化框架中:如表 IX 所示,为验证我们 SD 地图先验的通用性,我们将其 SD 地图先验模块集成到 MapTR(仅进行了微小修改)中,MapTR 是一种最先进的端到端框架,我们称之为 MapTR-SDMap 方法。我们的 MapTR-SDMap 方法在平均精度均值(mAP)方面也取得了显著提升。
图 6 的可视化结果还表明,MapTR-SDMap 在最具挑战性的 240 × 60 米超长感知范围内表现更佳。同时可以看出,由于分割后处理方法是密集预测,因此其结果较为稳定,而端到端矢量化方法仍面临一些挑战,如显著的预测偏差和关键点选择困难。总之,我们提出的 SD 地图先验融合方法在分割后处理框架和端到端框架中均表现出性能提升。
表 IX:在 NuScenes 验证集上与 MapTR 的比较。我们比较了融合 SD 地图先验方法的 MapTR(MapTR-SDMap)与原始 MapTR 的性能,仅使用环视摄像头作为输入,并采用预定义的 0.5 米、1.0 米和 1.5 米的中心距离(CD)阈值。我们的结果表现出更优的性能,突出了 SD 地图先验融合方法的有效性。


图 6. 感知范围为 240m × 60m 的矢量化结果的定性分析。我们将 SDMap 先验模块集成到 MapTR 中(仅进行了少量修改),称为 MapTR-SD。PMapNet-CAM 是我们采用 SDMap 先验和 HDMap 先验并结合后处理的方法。
2)真值与 SD 地图之间的不一致性:真值与 SD 地图不一致性的影响。我们的 SD 地图先验来源于 OpenStreetMap(OSM)。然而,由于标注数据集与实际现实场景之间存在差异,并非所有道路数据集都得到了全面标注。这导致了 SD 地图与高清地图(HDMap)之间的不一致。在仔细研究 OSM 后,我们注意到 OSM 中有一个名为“服务道路”的类别,它指的是通往或位于工业区、露营地、商业园区、停车场、小巷等的通道道路。
纳入服务类别道路可以使 SD 地图先验信息更加丰富和详细。然而,这也意味着与数据集标注的不一致性可能会增加。鉴于此,我们进行了消融实验,以确定纳入服务类别道路是否可取。
如图 7 所示,我们选取了两个案例来展示数据集地图标注与 SD 地图之间的不一致性所产生的影响。具体来说,在图 7(a) 中,纳入服务道路(一个工业区)产生了积极的结果,其中 SD 地图与真值数据集很好地对齐。
然而,在大多数情况下,包含服务道路的 SD 地图与数据集的真值不一致,这主要是由于内部道路缺乏详细标注。因此,在训练过程中,网络学习了大多数服务道路的分布,并将其过滤为噪声。这无意中导致一些主要道路被错误地过滤为噪声。如图 7(b) 所示,红色框中突出显示的服务道路(两条小巷)在真值中不存在。网络将其视为噪声,因此没有生成相应的道路。然而,它也忽略了为真值中绿色框内所示的主要路线生成道路,从而导致了显著的差异。相反,排除服务道路的网络避免了学习许多错误的 SD 地图分布。这使得网络能够更有效地吸收与主要道路相关的 SD 地图信息,尽管可能会缺失许多详细的 SD 地图。图 7(b) 右侧的可视化展示表明,SD 地图先验有效地指导了高清地图的生成。它甚至重建了远程交叉路口的人行横道和车道,尽管这些重建结果与实际的真值并不一致。

图 7. 这两种场景凸显了真值与 SD 地图之间差异的影响。(b) 表明,由于大多数服务道路与真值不一致,网络将大部分服务道路过滤为噪声,这影响了主干道的性能。在未引入服务道路时,SD 地图先验展现出令人称赞的有效性。(a) 表明,当服务道路的分布偏离常规时,其性能得到提升,因为网络不会将其过滤为噪声。
表 X:不同 OSM 类别的量化结果。纳入服务道路会引入更丰富的信息,但也会带来不一致性。就分割平均交并比(mIoU)结果而言,SD 地图先验中不包含服务道路可使性能提升约 2%。


图 8. 近侧岔路口的负面结果。(a) 表明,基线在预测近侧岔路口方面表现出色。然而,由于 SD 地图仅关注主要道路,在整合 SD 地图和高清地图先验信息后,近侧岔路口的预测准确性会降低。(b) 显示,即使添加了服务道路信息,网络也会将此 SD 地图过滤为噪声。
在量化指标方面,如表 X 所示,排除服务道路可使平均交并比(mIoU)提高 2%。这些指标的微小差异表明,当引入大量与真值偏离的 SD 地图时,网络能够有效过滤噪声。这进一步强调了以主要道路为重点的 SD 地图在指导高清地图生成方面的有效性。
真值与 SD 地图不一致性的可视化分析。如图 8 所示,我们选取了一个案例来展示由于不一致性导致的近侧负面结果。显然,基线显示,当未整合 SD 地图先验信息时,近侧的左右岔路都可以预测,但由于天气原因和视觉距离,远侧无法清晰预测。
当利用 SD 地图先验来增强高清地图生成时,由于 SD 地图仅关注主干道,近侧岔路的预测结果会恶化。此外,整合高清地图先验可以减轻伪影并填补空白,但这会无意中降低近侧岔路的预测性能,如图 8(a) 所示。
然而,我们也使用包含服务道路的模型对该案例进行了验证,如图 8(b) 所示。如前所述,网络将岔路(通往工业园区)的服务 SD 地图视为噪声并过滤掉。另一条左侧的岔路不在服务范围内。因此,由于 SD 地图不够详细以及 SD 地图与数据集真值之间的差异,其表现也不佳。
总之,我们引入了 SD 地图先验信息,并对几个有趣的案例进行了全面分析。我们的目的是提供见解,可能会启发未来研究人员进一步利用 SD 地图先验进行高清地图生成。
3)鸟瞰图(BEV)特征下采样因子的消融实验:不同的下采样因子 d 会影响融合模块中特征图 Bsmall 的大小。较大的特征图包含更多信息,但可能导致 GPU 内存使用量增加和推理速度变慢。如表 XI 所示,为了在速度和准确性之间取得平衡,我们选择大小为 50 × 25。
表 XI:关于下采样因子的消融实验。我们对不同下采样倍数下特征图大小为 120 × 60 米的平均交并比(mIoU)结果进行了比较。“OOM”表示 GPU 内存耗尽。在训练期间,我们使用批量大小为 4 来评估内存使用量,而在推理期间,我们使用批量大小为 1 来测量每秒帧数(FPS)。

表 XII:关于掩码比例的消融实验。我们在预训练中使用不同的随机掩码比例,较高的掩码比例会使重建难度增加。


图 9. 不同的掩码策略。“Masked”指的是应用各种掩码策略后的预训练输入,“Epoch-1”和“Epoch-20”分别表示预训练过程中第一个和第二十个周期的重建结果。
表 XIII:关于掩码策略的消融实验。“W/O PRETRAIN”表示我们不对高清地图(HDMap)先验细化模块进行预训练。有趣的是,在这种情况下,我们的随机掩码方法产生了更优的结果。


图 10. 仅在 240m×60m 感知范围内使用摄像头方法的定性结果。SD 地图先验模块通过融合道路结构先验信息改善了预测结果。而高清地图(HDMap)先验模块在一定程度上使其更接近高清地图的分布,使其看起来更真实。
C. 高清地图先验的进一步研究
掩码比例实验:如表 XII 所示,我们测试了预训练时使用不同掩码比例对细化结果的影响。掩码比例过高会导致有效信息缺失,且输入差异的实际细化过程差异较大;掩码比例过低则无法迫使网络捕捉高清地图先验信息。我们选择最优的 50% 作为本方法预训练的比例。
掩码策略的消融实验:基于网格的策略使用 20×20 像素的补丁大小,并保留每两个补丁中的一个。而随机掩码策略则以 50% 的概率从 20×20、20×40、25×50 或 40×80 的补丁大小中选择一个进行掩码。可视化结果如图 9 所示。通过预训练,细化模块有效地学习了高清地图先验信息。如表 XIII 所示,我们采用随机采样策略的方法取得了最有利的结果。
D. 定性可视化
1)分割定性结果:如图 10 和图 6 所示,我们在不同天气条件下提供了额外的感知结果,我们的方法表现出优异的性能。
2)SD 地图数据可视化:我们在相关数据集上补充了 SD 地图数据,具体细节如表 XIV 所示。数据集辅助的 SD 地图数据和高清地图数据的可视化结果如图 11 和图 12 所示。
表 XIV:SD 地图数据详情。为了生成 SD 地图数据,我们从 OSM 数据的高速公路部分提取了道路、道路连接和特殊道路数据,并进行了坐标对齐和数据过滤。


图 11. Argoverse2 数据集上 SD 地图数据和 HD 地图数据的可视化。

图 12. nuScenes 数据集上 SD 地图数据和 HD 地图数据的可视化。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)