点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

基于可控扩散模型的生成式主动学习:长尾轨迹预测新方法

韩国DGIST、美国高通研究院与韩国KAIST ICCV25中稿的工作,本文提出 生成式主动学习框架GALTraj,首次将可控扩散模型应用于轨迹预测的长尾问题,通过尾样本感知生成技术动态增强稀有场景数据,在WOMD和Argoverse2数据集上使长尾指标FPR₅相对降低47.6%(从0.42→0.22),整体预测误差minFDE₆降低14.7%(从0.654→0.558)。

  • 论文标题:Generative Active Learning for Long-tail Trajectory Prediction via Controllable Diffusion Model

  • 论文链接:https://arxiv.org/abs/2507.22615

主要贡献:

  1. 首次将生成式主动学习应用于轨迹预测任务,提出 GALTraj 框架,通过可控扩散模型驱动的交通模拟增强长尾学习效果,无需修改模型结构。

  2. 设计尾部感知生成方法,对交通场景中的尾部代理、头部代理和相关代理分配差异化扩散引导,生成兼具真实性、多样性且保留尾部特征的场景。

  3. 在多个数据集(WOMD、Argoverse2)和骨干模型(QCNet、MTR)上验证,显著提升尾部样本预测性能,同时改善整体预测精度。

算法框架:

实验结果:

可视化:

本文均出自自动驾驶之心知识星球,欢迎加入我们!

图片

上海交大提出TopoLiDM:基于拓扑感知扩散模型实现可解释、高保真激光雷达点云生成

上交大与特文特大学联合提出 TopoLiDM 框架,通过拓扑正则化的图扩散模型实现高保真激光雷达生成,在 KITTI-360 数据集上以 22.6% 的 FRID 下降率和 9.2% 的 MMD 下降率超越现有最优方法,同时保持 1.68 样本/秒的实时生成速度。

  • 论文标题:TopoLiDM: Topology-Aware LiDAR Diffusion Models for Interpretable and Realistic LiDAR Point Cloud Generation

  • 论文链接:https://arxiv.org/abs/2507.22454

  • 代码:https://github.com/IRMVLab/TopoLiDM 自驾,IROS 2025

主要贡献:

  1. 拓扑感知的LiDAR扩散模型框架:提出了TopoLiDM,一种创新性框架,将图神经网络(GNNs)与扩散模型在拓扑正则化下集成。该方法采用紧凑的拓扑图作为潜在表示,实现了快速、可解释且高保真的LiDAR点云生成。

  2. 拓扑感知VAE模块设计:设计了拓扑感知的变分自编码器(Topology-aware VAE),通过图构建和多层图卷积提取潜在图表示,并引入0维持久同调(Persistent Homology, PH)约束。该模块能够捕获长距离依赖关系,确保生成的LiDAR场景符合真实世界环境的全局拓扑规则。

  3. 卓越的性能表现:在KITTI-360数据集上的广泛实验表明,TopoLiDM在关键指标上显著超越现有最先进方法。具体而言,在Fréchet Range Image Distance (FRID)指标上降低了22.6%,在Minimum Matching Distance (MMD)指标上降低了9.2%。同时保持快速推理速度(平均1.68样本/秒),展示了实际应用潜力。

算法框架:

实验结果:

可视化:

FastDriveVLA:基于重建式令牌剪枝的高效端到端自动驾驶

北大 & 小鹏 提出基于重建的视觉Token剪枝框架FastDriveVLA,通过对抗性前景-背景重建策略,在50%剪枝率下保持99.1%轨迹精度并降低碰撞率2.7%。

  • 论文标题:FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning

  • 论文链接:https://arxiv.org/abs/2507.23318

主要贡献:

  1. 提出了 FastDriveVLA,一种基于重建的新型视觉令牌修剪框架,区别于现有的基于注意力和基于相似度的修剪方法。

  2. 设计了 ReconPruner,一种通过 MAE 风格像素重建训练的即插即用修剪器,并引入新型对抗性前景 - 背景重建策略以增强其识别有价值令牌的能力。

  3. 构建了 nuScenes-FG 数据集,该数据集包含针对自动驾驶场景的前景分割标注,共 241k 图像 - 掩码对。

  4. 所提方法专为端到端自动驾驶 VLA 模型设计,在 nuScenes 开环规划基准上实现了 SOTA 性能。

算法框架:

实验结果:

可视化:

TUM首创语言大模型驱动自动驾驶,复杂路况像人类一样决策

TUM提出了一种统一的感知-语言-动作(PLA)框架,通过整合多传感器融合和GPT-4.1增强的视觉-语言-动作推理核心,实现了自适应自动驾驶的上下文感知决策,在nuScenes数据集的城市交叉路口场景中,速度预测的平均绝对误差(MAE)降至0.39 m/s、R²分数达0.923,轨迹跟踪的平均位移误差(ADE)为1.013米。

  • 论文标题:A Unified Perception-Language-Action Framework for Adaptive Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2507.23540

主要贡献:

  1. 提出统一的感知 - 语言 - 动作(PLA)框架,将多模态感知与基于大语言模型(LLM)的推理及运动规划紧密耦合,实现复杂城市环境下连贯且自适应的决策。

  2. 开发多传感器语义融合模块,整合激光雷达(LiDAR)、雷达和相机数据生成结构化场景描述,提升空间精度与语义丰富度。

  3. 通过 LLM 驱动的上下文推理增强对未见过场景(如施工区、突发行人行为)的泛化能力,实现鲁棒决策。

  4. 在含施工区的城市路口场景中验证了框架的有效性,展现出低预测误差与稳健的导航性能。

算法框架:

实验结果:

可视化:

星球内部为大家梳理了近40+技术路线,无论你是咨询行业应用、还是要找最新的VLA benchmark、综述和学习入门路线,都能极大缩短检索时间。星球还为大家邀请了数十位自动驾驶领域嘉宾,都是活跃在一线产业界和工业界的大佬(经常出现的顶会和各类访谈中哦)。欢迎随时提问,他们将会为大家答疑解惑。

我们是一个认真做内容的社区,一个培养未来领袖的地方。

图片 图片

我们还和多家自动驾驶公司建立了岗位内推机制,欢迎大家随时艾特我们。第一时间将您的简历送到心仪公司的手上。

针对入门者,我们整理了完备的小白入门技术栈和路线图。

图片

图片

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐