引言:本文提出了一种基于鸟瞰图(BEV)空间的激光雷达点云分割方法,该方法通过融合极坐标和笛卡尔分区策略,实现了快速且高效的特征融合。该方法利用固定网格对应关系,避免了传统点云交互中的计算瓶颈,并通过混合Transformer-CNN架构增强了场景理解能力。实验结果证明,该方法在性能和推理速度方面均优于现有的多视图融合技术。

论⽂__题目:PC-BEV: An Efficient Polar-Cartesian BEV Fusion Framework for LiDAR Semantic Segmentation

论文作者:Shoumeng Qiu, Xinrun Li, Xiangyang Xue, Jian Pu

论文地址:https://arxiv.org/pdf/2412.14821

激光雷达点云分割是自动驾驶领域的核心任务,其目标在于精细地理解周围环境的语义信息。目前,该领域的方法主要分为三类:基于点的方法、基于体素的方法和基于投影的方法。

其中,基于投影的方法因其能够利用2D卷积神经网络(CNN)高效处理投影点云而受到青睐。但是,相比于计算量大的基于体素方法,从3D到2D的投影过程中不可避免地丢失信息,这限制了这种算法的性能。

**为了缩小这一性能差距,多视图融合技术应运而生,通过整合不同投影技术捕获的互补信息。**近期的多视图融合方法,如AMVNet、GFNet和CPGNet,通过基于点的特征交互增强了表示学习。

然而,由于缺乏视图间的固定对应关系,这些方法需要进行高成本的网格采样和散射操作,影响了实时性能。此外,特征融合通常仅限于点存在的区域,可能会忽略周围区域中有价值的上下文信息。

▲图1 | 与其他基于投影的方法比较,结果展示了本文方法在性能和速度方面的优越性。©️【深蓝AI】编译

**为了克服这些限制,作者提出了一种创新的多分区特征融合框架,完全在BEV空间内操作,充分利用了极坐标和笛卡尔分区方案之间的固定对应关系。**该方法受到BEV中极坐标分区与范围视图中球坐标分区相似性的启发,并且实验表明不同分区方法的性能具有互补性。

为了促进极坐标和笛卡尔分支之间的特征融合,作者引入了一种高效且有效的基于重映射的融合方法。利用极坐标和笛卡尔空间分区在相同BEV空间内固有的固定坐标对应关系,预先计算对应参数,再通过精心设计的重映射操作实现高效特征融合。这种方法比以往的基于点的特征交互方法快170倍。此外,所有的特征融合在BEV空间位置操作,不仅实现了密集融合,还保留了比以往基于点的方法更多的宝贵上下文信息。

**作者还提出了一种混合Transformer-CNN架构,用于BEV特征提取。**Transformer块中的自注意力捕获全局场景信息,然后是一个轻量级的U-net样式CNN用于详细特征提取。实验结果表明,这种架构在保持实时推理能力的同时增强了模型性能。

▲图2 | 极坐标-笛卡尔BEV融合框架用于3D点云语义分割任务的流程图。©️【深蓝AI】编译

■3.1. 极坐标-笛卡尔BEV融合框架

作者提出的极坐标-笛卡尔BEV融合框架用于激光雷达语义分割的概述如图2所示。它包括两个分支:笛卡尔分支和极坐标分支。给定一个点云,由N个激光雷达点组成,其中是相对于扫描仪的笛卡尔坐标,是返回激光束的强度。**作者对BEV投影应用两种不同的分区策略:笛卡尔和极坐标。**点云仅沿x和y轴进行量化,以实现高效的2D基础特征提取。对于点云P,点首先通过简化的PointNet进行编码,该PointNet仅由全连接层、批量归一化和ReLU层组成。随后,提取的特征被重新散射回BEV空间,分别表示为和。作者使用两个具有相同结构但不同参数的网络执行特征提取。这两个分支的特征在过程中进行双向交互,包括特征对齐和融合,最终预测结果也从这两个分支的融合中得出。每个分支的特征提取网络是本文提出的Transformer-CNN混合架构,包括两个标准Transformer块和一个CNN网络。在两个分支之间的双向特征交互之前,首先对两个分支的特征执行空间对齐。具体来说,假设和分别来自极坐标和笛卡尔分支,作者使用极坐标到笛卡尔和笛卡尔到极坐标的重映射操作来对齐不同分区策略下的空间特征。

其中和分别指从极坐标空间到笛卡尔空间和从笛卡尔空间到极坐标空间的重映射。重映射操作的详细信息将在特征融合通过重映射小节中说明。对于特征融合,作者采用常用的连接操作。例如,当将极坐标分支的特征融合到笛卡尔分支时,作者首先将空间变换特征与连接起来。然后,使用简单的卷积操作将特征的通道大小减少到原始大小。融合过程可以表示为:

**对于最终的语义预测,由于本方法的目标是为场景中的每个点提供语义预测,因此需要获取每个点在投影空间中用于类别预测的特征。**对于从不同分支提取了特征,以前方法中的常见做法是通过网格采样(GS)操作检索每个点的相应特征。然后从不同分支采样的特征被融合。最后,融合的特征用于获得最终的语义预测结果。以前的基于点的输出融合可以表示为(这里作者假设使用连接操作进行融合):

为了进一步加速模型推理,作者使用重映射操作对一个分支的特征与另一个分支对齐,这使模型能够仅对重映射分支执行一次网格采样。在论文中,作者选择将从极坐标分支提取的特征与笛卡尔空间对齐,因为作者实验发现这比相反的方式表现略好。作者将重映射的极坐标特征与笛卡尔特征连接,然后使用网格采样获得每个点的BEV位置特征。因此,作者方法中的最终点级特征输出可以表示为:

其中。最后,融合的特征被送入最终的语义分类器:

▲图3 | 在不同设置下,比较先前的基于点的方法和基于重映射的方法的特征交互操作过程。©️【深蓝AI】编译

■3.2. 特征融合通过重映射

与以前的多视图融合方法在不同投影空间中操作,由于投影过程中的信息丢失导致动态网格到网格的对应关系不同,本设计的方法从两个分区分支在同一BEV空间下的固定位置对应关系中受益,这为本设计提供了改进特征融合过程效率的机会。

具体来说,**作者采用重映射技术来对齐两种不同分区方法下的特征。**鉴于两个分支之间网格对应关系是固定的,重映射参数可以预先计算,以实现高效特征融合。作者提供了重映射操作的详细步骤,突出了基于重映射的交互相对于基于点的交互的优势。以从极坐标空间到笛卡尔空间的重映射过程为例,注意从笛卡尔到极坐标空间的重映射遵循相同的原则。

对于笛卡尔分支中的每个网格,作者将网格中心的坐标记为,其中。接下来,需要确定它们在极坐标分支中的特征融合对应的坐标。为了实现这一点,首先计算网格中心点在真实世界BEV空间中的坐标。随后,便可以轻松计算每个点在极坐标分支下的坐标,遵循极坐标分区机制:,。

到目前为止,建立了笛卡尔和极坐标分支之间的坐标对应关系,这是固定的,所以可以预先计算融合。可以将网格中心视为一个点,并应用以前的基于点的方法进行特征融合;然而,作者的实验表明,这种方法在实践中是低效的。

**为了更高效和有效地进行特征融合,作者开发了一种基于重映射的特征融合操作,显著提高了两个分支之间的特征对齐速度。**传统的基于点的方法之所以慢,主要是因为网格采样操作和散射回操作。它们将每个点单独视为点级并行处理,导致实验中的缓存未命中率高。

与基于点的方法不同,作者的基于重映射的操作考虑了空间位置的连续性,使过程更友好于内存访问,并显著加快了计算速度。图3比较了不同特征融合方法。需要注意的是,并非一个分支中的每个网格在另一个分支中都有对应的区域,由于空间占用模式的变化。

如果一个分支中的空间位置在另一个分支中不可用,则简单地对该位置应用零填充。更详细的效率分析可以在补充材料中找到。基于重映射的融合方法通过在融合过程中整合更多的上下文信息提供了额外的优势。

如图4所示,基于点的方法仅在存在点的区域进行融合,丢弃了没有点的特征,作者称之为稀疏融合。相比之下,基于重映射的方法使整个BEV空间内的融合成为可能,实现了密集融合,丰富了来自另一分支的特征信息。

▲图4 | 基于点的交互结果与基于重映射的交互结果之间的比较。©️【深蓝AI】编译


■3.3. Transformer-CNN混合架构
**作者提出了一种Transformer-CNN混合网络,用于BEV表示中的特征提取。**作者首先使用Transformer的自注意力机制捕获全局场景信息,然后通过轻量级CNN进行进一步的特征提取。以笛卡尔BEV特征为例说明详细的特征提取过程。首先将特征划分为块,
其中。每个块然后使用核大小为的卷积操作编码成向量。将编码的块记为

,其中

由于注意力机制缺乏区分输入序列中位置信息的能力,作者引入了正弦位置编码到特征中。最终的块嵌入输入自注意力可以表示为:

然后,作者采用多头自注意力,输出通过前馈网络(FFN)模块。作者将Transformer块中的最终块嵌入记为。将输出特征从2D形状的重塑为标准3D特征图。之后,对输出进行双线性上采样,以匹配投影伪图像的全分辨率:

其中。作者采用简单的加法操作来融合和:

富含全局信息的特征然后被送入一个高效的CNN模型进行进一步提取。作者使用了一个U-net架构的CNN。实验表明,本文的Transformer-CNN混合架构在性能和推理速度方面都提供了优势。

作者在SemanticKITTI和nuScenes数据集上进行了广泛的实验,证明了本方法以更快的推理速度实现了最先进的性能。

▲表1 | 在SemanticKITTI 测试集的定量比较。©️【深蓝AI】编译

▲表2 | 在SemanticKITTI 验证机的定量比较。©️【深蓝AI】编译

▲表3 | 在nuScenes测试集定量比较。©️【深蓝AI】编译

▲表4 | 基于重映射的交互效率的对比。©️【深蓝AI】编译

▲表5 | 在nuScenes验证集上的消融研究。©️【深蓝AI】编译

本文介绍了一种新颖的实时激光雷达点云分割方法。该技术采用作者研发的高效重映射空间对齐融合策略,通过优化内存连续性,不仅大幅提升了处理速度,而且在性能上超越了传统的基于点的交互方法,同时还能保留更为详尽的上下文信息。

此外,文章中还介绍了一种Transformer-CNN混合架构,该架构在维持实时处理能力的基础上,进一步增强了模型的整体性能。通过在SemanticKITTI和nuScenes数据集上进行的广泛实验,充分验证了该方法的有效性和高效率。

展望未来,研究者可以会进一步探索将此技术应用于由多相机图像数据生成的BEV(鸟瞰图)表示,以拓展其应用范围。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐