自动驾驶VLM最新论文笔记：AgentThink，DriveMoE

AgentThink，DriveMoE详解

xying_chloe

955人浏览 · 2025-06-05 12:00:00

xying_chloe · 2025-06-05 12:00:00 发布

【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】

论文1：AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving [清华]

Motivation（VLMs面临的挑战）
- Hallucinations and Inconsistencies：VLMs 在处理复杂场景时，常常生成幻觉
- Lack of Dynamic Verification：大多数现有方法依赖于从预定义轨迹中学习，缺乏对知识不确定性的检测能力，也无法调用工具进行中间验证
- Static Nature of Reasoning：VLMs 通常将推理视为静态的输入-输出映射，缺乏动态调整和验证推理路径的能力
Contribution
- Structured Data Generation：建立工具库，自动生成结构化的、自验证的推理数据
- A Two-stage Training Pipeline：SFT + GRPO
- Agent-style Tool-Usage Evaluation：引入一种新的多工具评估协议，严格评估模型的工具调用和使用
Architecture
Data Generation Pipeline
- 作用：创建一个结构化的数据集，将工具使用明确整合到推理过程中
- 组成：
  - Tool Library（函数集合）：获取环境信息，包括视觉信息提取、目标检测、轨迹预测、占用查询和地图信息等
  - Prompt Design：引导模型生成包含工具调用的推理链，而不是直接生成答案选择的工具 → 生成的子问题 → 不确定性标志 → 猜测的答案 → 下一步操作选择（继续推理或得出结论）
  - Data Assessment：一个独立的 LLM 对每个sample进行事实准确性和逻辑一致性检查
两阶段的训练Pipeline
- Stage1 SFT：预热模型的推理能力，使其能够生成合理的推理链和适当的工具调用
- Stage2 GRPO 强化学习
  - Final Answer Reward：验证最终答案是否与真实答案一致逐步推理奖励
  - Step Reasoning Reward：评估中间步骤的逻辑性和结构
    - Step Matching：与参考步骤对齐并惩罚不正确的顺序
    - Coherence：步骤之间的平滑、逻辑过渡
  - Tool Use Reward：促进适当且有意义的工具使用
  - Format Compliance：遵守预期的输出结构（E.g. “Tool”，“Step Reasoning”）
  - 整合质量（Integration Quality）：将工具输出有效地、连贯地整合到推理中
实验

论文2：DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving [上交]

Mixture-of-Experts (MoE) ：模型由多个“专家”模型组成，每个“专家”负责其特定领域；由门控网络Router来控制哪个“专家”来回答问题
- 灵活性：每个专家模块可以专注于处理特定的任务或数据子集
- 效率：通过动态选择相关的专家模块，MoE 可以减少不必要的计算
传统多视角视觉输入处理策略：
- 普通视觉处理器（Naïve Visual Processor）：用所有的vision tokens，计算负担大，引入大量冗余信息，导致模型效率低下，难以扩展至实时系统
- 基于查询的视觉处理器（Query-based Visual Processor）：使用学习到的查询（如Q-former模块）压缩多视图信息为一组紧凑的视觉token。但丢失精确的几何和位置信息，需额外预训练，增加工程复杂度。
DriveMoE的改进：通过轻量级路由器动态选择与当前驾驶场景最相关的视图
Framework
- Drive-π0 Baseline：基于 VLA 框架的端到端基础模型
  - 输入：多视角图像序列、固定文本提示、当前车辆状态（包括速度、偏航率和过去的轨迹）
  - Paligemma VLM as backbone + Flow-matching planner
- From Drive-π0 to DriveMoE
  - Drive-π0问题：多视角处理的低效性（信息冗余和计算开销）；多样化驾驶行为的不足（例如处理紧急制动或激进转弯时，表现不佳）
  - 解决方案：引入 MoE 架构，动态选择相关的相机视图和激活特定的专家模块
Scene-Specialized Vision MoE
- Motivation: 模仿人类驾驶员在特定驾驶场景中优先关注关键视觉信息的行为，减少冗余的视觉输入
- 引入轻量级Vision Router，根据当前驾驶上下文和未来的导航目标点动态选择相关的相机视图
Skill-Specialized Action MoE
- Motivation: 人类驾驶员在不同驾驶场景中会切换不同的驾驶技能
- 在Decoder中用包含多个技能专用专家的 MoE 层替换每个FFN
训练策略
- 第一阶段：依赖专家标签监督路由模块训练。
- 第二阶段：过渡到完全自适应路由，增强模型对实际推理中路由误差的鲁棒性。
实验

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla