【如果笔记对你有帮助,欢迎关注&点赞&收藏,收到正反馈会加快更新!谢谢支持!】

论文1:AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving [清华]

  • Motivation(VLMs面临的挑战)
    • Hallucinations and Inconsistencies:VLMs 在处理复杂场景时,常常生成幻觉
    • Lack of Dynamic Verification:大多数现有方法依赖于从预定义轨迹中学习,缺乏对知识不确定性的检测能力,也无法调用工具进行中间验证
    • Static Nature of Reasoning:VLMs 通常将推理视为静态的输入-输出映射,缺乏动态调整和验证推理路径的能力
  • Contribution
    • Structured Data Generation:建立工具库,自动生成结构化的、自验证的推理数据
    • A Two-stage Training Pipeline:SFT + GRPO
    • Agent-style Tool-Usage Evaluation:引入一种新的多工具评估协议,严格评估模型的工具调用和使用
  • Architecture
  • Data Generation Pipeline
    • 作用:创建一个结构化的数据集,将工具使用明确整合到推理过程中
    • 组成:
      • Tool Library(函数集合):获取环境信息,包括视觉信息提取、目标检测、轨迹预测、占用查询和地图信息等
      • Prompt Design:引导模型生成包含工具调用的推理链,而不是直接生成答案 选择的工具  → 生成的子问题  → 不确定性标志 → 猜测的答案 → 下一步操作选择(继续推理或得出结论)
      • Data Assessment:一个独立的 LLM 对每个sample进行事实准确性和逻辑一致性检查
  • 两阶段的训练Pipeline
    • Stage1 SFT:预热模型的推理能力,使其能够生成合理的推理链和适当的工具调用
    • Stage2 GRPO 强化学习
      • Final Answer Reward:验证最终答案是否与真实答案一致逐步推理奖励
      • Step Reasoning Reward:评估中间步骤的逻辑性和结构
        • Step Matching:与参考步骤对齐并惩罚不正确的顺序
        • Coherence:步骤之间的平滑、逻辑过渡
      • Tool Use Reward:促进适当且有意义的工具使用
      • Format Compliance:遵守预期的输出结构(E.g. “Tool”,“Step Reasoning”)
      •  整合质量(Integration Quality):将工具输出有效地、连贯地整合到推理中
  • 实验

论文2:DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving [上交]

  • Mixture-of-Experts (MoE) :模型由多个“专家”模型组成,每个“专家”负责其特定领域;由门控网络Router来控制哪个“专家”来回答问题
    • 灵活性:每个专家模块可以专注于处理特定的任务或数据子集
    • 效率:通过动态选择相关的专家模块,MoE 可以减少不必要的计算
  • 传统多视角视觉输入处理策略:
    • 普通视觉处理器(Naïve Visual Processor):用所有的vision tokens,计算负担大,引入大量冗余信息,导致模型效率低下,难以扩展至实时系统
    • 基于查询的视觉处理器(Query-based Visual Processor):使用学习到的查询(如Q-former模块)压缩多视图信息为一组紧凑的视觉token。但丢失精确的几何和位置信息,需额外预训练,增加工程复杂度。
  • DriveMoE的改进:通过轻量级路由器动态选择与当前驾驶场景最相关的视图
  • Framework
    • Drive-π0 Baseline:基于 VLA 框架的端到端基础模型
      • 输入:多视角图像序列、固定文本提示、当前车辆状态(包括速度、偏航率和过去的轨迹)
      • Paligemma VLM as backbone +  Flow-matching planner 
    • From Drive-π0 to DriveMoE
      • Drive-π0问题: 多视角处理的低效性(信息冗余和计算开销);多样化驾驶行为的不足(例如处理紧急制动或激进转弯时,表现不佳)
      • 解决方案:引入 MoE 架构,动态选择相关的相机视图和激活特定的专家模块
  • Scene-Specialized Vision MoE
    • Motivation: 模仿人类驾驶员在特定驾驶场景中优先关注关键视觉信息的行为,减少冗余的视觉输入
    • 引入轻量级Vision Router,根据当前驾驶上下文和未来的导航目标点动态选择相关的相机视图
  • Skill-Specialized Action MoE
    • Motivation: 人类驾驶员在不同驾驶场景中会切换不同的驾驶技能
    • 在Decoder中用包含多个技能专用专家的 MoE 层替换每个FFN
  • 训练策略
    • 第一阶段:依赖专家标签监督路由模块训练。
    • 第二阶段:过渡到完全自适应路由,增强模型对实际推理中路由误差的鲁棒性。
  • 实验

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐