自动驾驶论文速递 | 扩散模型、轨迹预测、TopoLiDM、VLA等~

TUM提出了一种统一的感知-语言-动作（PLA）框架，通过整合多传感器融合和GPT-4.1增强的视觉-语言-动作推理核心，实现了自适应自动驾驶的上下文感知决策，在nuScenes数据集的城市交叉路口场景中，速度预测的平均绝对误差（MAE）降至0.39 m/s、R²分数达0.923，轨迹跟踪的平均位移误差（ADE）为1.013米。提出统一的感知 - 语言 - 动作（PLA）框架，将多模态感知与基于大

自动驾驶之心

548人浏览 · 2025-08-05 11:09:11

自动驾驶之心 · 2025-08-05 11:09:11 发布

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

基于可控扩散模型的生成式主动学习：长尾轨迹预测新方法

韩国DGIST、美国高通研究院与韩国KAIST ICCV25中稿的工作，本文提出生成式主动学习框架GALTraj，首次将可控扩散模型应用于轨迹预测的长尾问题，通过尾样本感知生成技术动态增强稀有场景数据，在WOMD和Argoverse2数据集上使长尾指标FPR₅相对降低47.6%（从0.42→0.22），整体预测误差minFDE₆降低14.7%（从0.654→0.558）。

论文标题：Generative Active Learning for Long-tail Trajectory Prediction via Controllable Diffusion Model
论文链接：https://arxiv.org/abs/2507.22615

主要贡献：

首次将生成式主动学习应用于轨迹预测任务，提出 GALTraj 框架，通过可控扩散模型驱动的交通模拟增强长尾学习效果，无需修改模型结构。
设计尾部感知生成方法，对交通场景中的尾部代理、头部代理和相关代理分配差异化扩散引导，生成兼具真实性、多样性且保留尾部特征的场景。
在多个数据集（WOMD、Argoverse2）和骨干模型（QCNet、MTR）上验证，显著提升尾部样本预测性能，同时改善整体预测精度。

算法框架：

实验结果：

可视化：

本文均出自自动驾驶之心知识星球，欢迎加入我们！

上海交大提出TopoLiDM：基于拓扑感知扩散模型实现可解释、高保真激光雷达点云生成

上交大与特文特大学联合提出 TopoLiDM 框架，通过拓扑正则化的图扩散模型实现高保真激光雷达生成，在 KITTI-360 数据集上以 22.6% 的 FRID 下降率和 9.2% 的 MMD 下降率超越现有最优方法，同时保持 1.68 样本/秒的实时生成速度。

论文标题：TopoLiDM: Topology-Aware LiDAR Diffusion Models for Interpretable and Realistic LiDAR Point Cloud Generation
论文链接：https://arxiv.org/abs/2507.22454
代码：https://github.com/IRMVLab/TopoLiDM 自驾，IROS 2025

主要贡献：

拓扑感知的LiDAR扩散模型框架：提出了TopoLiDM，一种创新性框架，将图神经网络(GNNs)与扩散模型在拓扑正则化下集成。该方法采用紧凑的拓扑图作为潜在表示，实现了快速、可解释且高保真的LiDAR点云生成。
拓扑感知VAE模块设计：设计了拓扑感知的变分自编码器(Topology-aware VAE)，通过图构建和多层图卷积提取潜在图表示，并引入0维持久同调(Persistent Homology, PH)约束。该模块能够捕获长距离依赖关系，确保生成的LiDAR场景符合真实世界环境的全局拓扑规则。
卓越的性能表现：在KITTI-360数据集上的广泛实验表明，TopoLiDM在关键指标上显著超越现有最先进方法。具体而言，在Fréchet Range Image Distance (FRID)指标上降低了22.6%，在Minimum Matching Distance (MMD)指标上降低了9.2%。同时保持快速推理速度(平均1.68样本/秒)，展示了实际应用潜力。

算法框架：

实验结果：

可视化：

FastDriveVLA：基于重建式令牌剪枝的高效端到端自动驾驶

北大 & 小鹏提出基于重建的视觉Token剪枝框架FastDriveVLA，通过对抗性前景-背景重建策略，在50%剪枝率下保持99.1%轨迹精度并降低碰撞率2.7%。

论文标题：FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning
论文链接：https://arxiv.org/abs/2507.23318

主要贡献：

提出了 FastDriveVLA，一种基于重建的新型视觉令牌修剪框架，区别于现有的基于注意力和基于相似度的修剪方法。
设计了 ReconPruner，一种通过 MAE 风格像素重建训练的即插即用修剪器，并引入新型对抗性前景 - 背景重建策略以增强其识别有价值令牌的能力。
构建了 nuScenes-FG 数据集，该数据集包含针对自动驾驶场景的前景分割标注，共 241k 图像 - 掩码对。
所提方法专为端到端自动驾驶 VLA 模型设计，在 nuScenes 开环规划基准上实现了 SOTA 性能。

算法框架：

实验结果：

可视化：

TUM首创语言大模型驱动自动驾驶，复杂路况像人类一样决策

论文标题：A Unified Perception-Language-Action Framework for Adaptive Autonomous Driving
论文链接：https://arxiv.org/abs/2507.23540

主要贡献：

提出统一的感知 - 语言 - 动作（PLA）框架，将多模态感知与基于大语言模型（LLM）的推理及运动规划紧密耦合，实现复杂城市环境下连贯且自适应的决策。
开发多传感器语义融合模块，整合激光雷达（LiDAR）、雷达和相机数据生成结构化场景描述，提升空间精度与语义丰富度。
通过 LLM 驱动的上下文推理增强对未见过场景（如施工区、突发行人行为）的泛化能力，实现鲁棒决策。
在含施工区的城市路口场景中验证了框架的有效性，展现出低预测误差与稳健的导航性能。

算法框架：

实验结果：

可视化：

星球内部为大家梳理了近40+技术路线，无论你是咨询行业应用、还是要找最新的VLA benchmark、综述和学习入门路线，都能极大缩短检索时间。星球还为大家邀请了数十位自动驾驶领域嘉宾，都是活跃在一线产业界和工业界的大佬（经常出现的顶会和各类访谈中哦）。欢迎随时提问，他们将会为大家答疑解惑。

我们是一个认真做内容的社区，一个培养未来领袖的地方。

我们还和多家自动驾驶公司建立了岗位内推机制，欢迎大家随时艾特我们。第一时间将您的简历送到心仪公司的手上。

针对入门者，我们整理了完备的小白入门技术栈和路线图。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla