【具身智能】VLA相关文献总结截止2025-12-2

北盼556

874人浏览 · 2025-12-02 20:51:36

北盼556 · 2025-12-02 20:51:36 发布

系列文章目录

前言

一、文献总结

总结

前言

提示：

VLA相关文献

提示：以下是本篇文章正文内容，下面案例可供参考

一、文献总结

文献名称	核心创新点	主要贡献	关键成果	应用场景
AdaCuRL: Adaptive Curriculum Reinforcement Learning with Invalid Sample Mitigation and Historical Revisiting	1. 提出 “粗到细” 难度估计策略，动态匹配数据难度与模型能力； 2. 引入稀疏 KL 机制与自适应参考策略，防止策略退化； 3. 设计历史数据重访机制，缓解灾难性遗忘； 4. 提出 Re-AdaCuRL 迭代重估难度，强化数据利用	1. 解决 GRPO 训练中混合难度数据导致的 “梯度饥饿” 和 “策略退化” 问题； 2. 无需高质量 CoT 标注，降低数据依赖； 3. 提供通用 RL 框架，适配 LLM 与 MLLM	1. 在数学推理和通用多模态推理基准上，Qwen2.5-VL-3B 平均提升 3.17%，Qwen2.5-Math-7B 平均提升 5.53%； 2. Re-AdaCuRL 进一步提升 1.37%-1.03%；3. 统计显著性检验 p<0.05，性能提升可靠	1. LLM/MLLM 的数学推理、通用推理增强； 2. 复杂逻辑推理任务（如几何题、多模态问答）
CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving	1. 提出 “感知 - 问答 - 扩散 - 规划” 四阶段 CoT 推理，适配自动驾驶场景；2. VLM 条件潜扩散模型生成高保真未来帧； 3. 3D 环境感知（BEV 特征 + 双 Tokenizer）优化空间建模	1. 首次将 CoT 推理引入自动驾驶 VLA，解决数值推理弱、输入输出映射简化的问题； 2. 融合视觉、语言、未来预测与规划，提升决策鲁棒性	1. nuScenes 数据集：1s/2s/3s 轨迹 L2 误差 0.12/0.24/0.53m，平均碰撞率 0.10%； 2. Bench2Drive 数据集：驾驶得分 81.22，成功率 55.78%，超越 ORION 等基线； 3. 开放环与闭环评估均达 SOTA	端到端自动驾驶（真实道路 nuScenes + 仿真 Bench2Drive）
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models	1. 视觉链思维推理：预测子目标图像作为中间推理步骤； 2. 混合注意力机制（因果注意力生成图像 / 文本，全注意力预测动作）；3. 融合无动作标注视频数据，提升视觉推理泛化	1. 首次将子目标图像作为 CoT 中间步骤，避免抽象中间表示的额外标注； 2. 解锁无动作视频数据的利用，降低训练数据成本； 3. 提出混合注意力解决 CoT 与动作生成的模态冲突	1. LIBERO 基准平均成功率 81.13%，超越 OpenVLA 等基线； 2. 真实 Franka-Tabletop 机器人任务：单指令任务成功率超 70%，多指令任务超 69%； 3. 长时序任务（如衣物折叠）性能提升显著	机器人操纵任务（拾取 - 放置、衣物折叠、桌面清理等，模拟 + 真实机器人）
CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling	1. 多帧 VLA 统一框架：单帧预训练（离散动作 token）+ 多帧后训练（可学习特征 + 特征分块）； 2. 跨帧解码器（DiT 架构 + 特征调制器）； 3. 提出 SimplerEnv-OR 基准，评估 24 种观测干扰	1. 解决多帧建模的计算开销与推理延迟问题； 2. 无需修改 VLM 骨干，兼容现有单帧 VLA 模型； 3. 填补 VLA 鲁棒性评估空白	1. SimplerEnv 基准平均成功率 70.9%，LIBERO 基准平均 97.0%（Long 任务 94.0%）； 2. SimplerEnv-OR 基准鲁棒性得分 86.9%，远超 TraceVLA、SpatialVLA； 3. 真实 Franka 机器人任务成功率 72.6%（含遮挡、干扰场景）	机器人操纵（模拟：Google Robot/WidowX；真实：Franka 机械臂），适用于复杂环境下的长时序任务
DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models	1. 混合注意力解码器：因果注意力生成 CoT，双向注意力并行解码动作；2. 两阶段训练：SFT（基础推理）+ RL（结果导向奖励对齐）； 3. 基于 GRPO 的分组信用分配，优化稀疏奖励传播	1. 解决 CoT 推理与动作生成的架构冲突（单一自回归解码器的模态干扰）； 2. 建立 CoT 与动作执行的因果关联，避免 “rote learning”； 3. 提升长时序任务的错误恢复能力	1. LIBERO 基准平均成功率 97.0%，Object 任务 99.0%，Long 任务 96.2%； 2. 比纯 SFT 模型提升 2%，比自回归 CoT 基线提升 15.5%；3. 支持错误恢复（如物体掉落后续重新抓取）	机器人长时序操纵任务（堆叠、抽屉操作、多步骤组装等）
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion	1. 扩散模型建模视觉运动策略，通过迭代去噪生成动作； 2. 闭环动作序列预测 + 视觉条件约束，时间序列扩散 Transformer； 3. 结合退避视界控制，平衡时序一致性与响应性	1. 解决传统策略难以处理多模态动作分布、高维动作空间的问题； 2. 实现稳定训练（无需负采样），适配刚性 / 流体对象； 3. 提升实时控制可行性（DDIM 加速推理）	1. 15 个机器人任务（4 个基准）平均性能提升 46.9%； 2. 处理多模态动作分布（如推块任务的左右路径）； 3. 真实机器人任务（如衬衫折叠、液体倾倒）成功率显著提升	机器人操纵（单臂 / 双臂、刚性物体抓取、流体对象操作、真实世界精细操纵）
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving	1. 截断扩散策略用于端到端自动驾驶，锚定高斯分布减少去噪步骤； 2. 高效级联扩散解码器，稀疏可变形注意力捕捉场景上下文； 3. ODE-SDE 混合采样，平衡精度与速度	1. 解决扩散模型在自动驾驶中推理速度慢的问题； 2. 提升轨迹生成的保真度与安全性； 3. 适配端到端自动驾驶的实时性需求	1. NAVSIM 基准 PDMS 达 88.1，超越传统扩散模型； 2. 推理速度 45 FPS，满足实时控制需求； 3. 多模态轨迹生成，适配动态交通场景	端到端自动驾驶（轨迹规划、动态环境适应）
Don’t Blind Your VLA: Aligning Visual Representations for OOD Generalization	1. 视觉表征对齐策略，缓解 VLA 模型的分布外（OOD）泛化瓶颈； 2. 针对视觉特征偏移的自适应校准机制； 3. 无需额外标注，即插即用适配现有 VLA 架构	1. 揭示 VLA 模型 OOD 性能差的核心原因（视觉表征不鲁棒）； 2. 提供通用视觉对齐方案，兼容主流 VLA 模型； 3. 填补 VLA 泛化性优化的技术空白	1. 未知物体、陌生环境下的任务完成度提升 20%+； 2. 在 LIBERO-OOD 子集上成功率超基线 15%-30%； 3. 保持原有分布内任务性能不下降	需分布外泛化的 VLA 部署场景（如家庭机器人、工业机器人的未知物体操纵）
E0: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion	1. 连续化离散扩散框架，动作生成建模为量化 token 迭代去噪； 2. 球形视角扰动增强跨视角鲁棒性，无需额外数据； 3. 支持细粒度动作词汇（达 2048 bins），兼容预训练 VLM/VLA	1. 平衡离散 token 的训练效率与连续动作的精细控制； 2. 提升 VLA 对视角变化的适应性； 3. 降低细粒度操纵任务的训练成本	1. 机器人精细操纵任务（插件插入、peg 插入）成功率提升； 2. 跨视角任务性能优于传统离散 / 连续动作建模； 3. 适配现有 VLA 模型，无需重构架构	机器人精细操纵（工业装配、精密零件处理、跨视角机器人任务）
EveryDayVLA: A Vision-Language-Action Model for Affordable Robotic Manipulation	1. 轻量化 VLA 架构，适配低成本机器人硬件（低算力、低传感器配置）； 2. 数据高效利用策略，减少高质量演示数据依赖； 3. 模块化设计，支持平价机器人平台的快速部署	1. 降低 VLA 技术的部署门槛，推动普及化； 2. 解决低成本机器人数据稀缺、算力不足的问题； 3. 平衡性能与成本，适配日常家居场景需求	1. 平价机器人平台（如 WidowX、低成本移动操作臂）任务成功率超 60%； 2. 日常家居任务（餐具整理、衣物收纳）高效完成； 3. 训练数据量仅为传统 VLA 的 1/5，仍保持竞争力	低成本家庭服务机器人（日常清洁、物品整理）、教育机器人、小型工业辅助机器人
Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment	1. 轻量级架构设计（仅 0.77B 参数），基于 InternVL3-1B 骨干 + 跨调制扩散 Transformer； 2. 两阶段训练范式（先对齐动作专家，再全量微调），保护 VLM 语义空间； 3. 优化整合模块，融合视觉 - 语言特征与机器人本体感受信息；4. 无需机器人数据预训练，降低数据依赖	1. 解决现有 VLA 模型参数庞大、推理慢、泛化差的问题； 2. 突破 “大参数 = 高性能” 的认知，实现轻量级模型的高效部署； 3. 提供通用轻量级 VLA 框架，适配消费级 GPU	1. 仿真基准：MetaWorld（80.6%，SOTA）、LIBERO（94.8%）、RoboTwin（37.8%，SOTA）；2. 真实世界：4 项任务平均成功率 78%，推理频率 16.4Hz，显存占用仅 2.3GB； 3. 泛化实验：未知干扰下成功率保持 70%-100%	1. 单臂 / 双臂机器人操纵（拾取、放置、折叠、堆叠等）； 2. 实时交互机器人任务（消费级 GPU 部署）； 3. 家居环境日常操作（餐具整理、衣物收纳）
ExpReS-VLA: Specializing Vision-Language-Action Models Through Experience Replay and Retrieval	1. 压缩经验回放：存储 VLM 视觉嵌入，降低 97% 存储开销； 2. 检索增强训练（RAG）：余弦相似度检索相似经验，加速收敛； 3. 阈值混合对比损失（THCL）：动态适配成功 / 失败样本学习；4. 双缓冲内存管理，分离成功 / 失败轨迹	1. 解决 VLA 模型微调中的灾难性遗忘问题； 2. 降低对高质量标注数据的依赖，仅需 12 条演示； 3. 实现实时设备端快速适配（31 秒完成训练）； 4. 首次将检索增强引入 VLA 微调	1. LIBERO 基准：空间任务成功率 93.1%（+10.5%），长时序任务 72.3%（+11.3%）； 2. 真实机器人：分布内 / 外任务成功率均达 98%（分别提升 13.3%/66%）； 3. 训练效率：单 RTX 5090 即可部署	1. 预训练 VLA 模型的快速领域适配； 2. 特定环境机器人操纵（家居、工业场景）； 3. 分布外场景（未知物体、背景）的 VLA 优化
FAST: Efficient Action Tokenization for Vision-Language-Action Models	1. 频率空间动作序列令牌化（FAST）：基于 DCT 压缩高冗余动作信号； 2. 字节对编码（BPE）融合多维度 DCT 系数，生成低冗余令牌； 3. FAST + 通用动作令牌器：训练于 1M 轨迹，适配多机器人形态； 4. 适配自回归 VLA 模型，无需修改骨干架构	1. 解决传统逐维分箱令牌化在高频率动作上的性能退化问题； 2. 突破高频率、高精度机器人任务的令牌化瓶颈； 3. 提供即插即用的通用动作令牌器，降低 VLA 训练门槛	1. 训练效率：π₀-FAST 训练速度提升 5 倍，匹配扩散模型性能； 2. 任务表现：在 DROID 数据集上实现零样本 unseen 环境部署； 3. 压缩比：高频率任务（50Hz）令牌数减少 13.2 倍	1. 高频率机器人控制（衣物折叠、精密装配）； 2. 跨形态机器人动作生成（单臂、双臂、移动机器人）； 3. 大规模机器人数据集（10k 小时）训练优化
FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning	1. 重建基视觉令牌剪枝框架：基于 MAE 风格像素重建筛选前景令牌；2. ReconPruner 插件式剪枝器：对抗式前景 - 背景重建策略训练；3. nuScenes-FG 数据集：241k 图像 - 掩码对，标注自动驾驶前景区域；4. 无需重训 VLA 模型，即插即用	1. 解决自动驾驶 VLA 中视觉令牌冗余导致的低效率问题；2. 突破注意力 / 相似度基剪枝在自动驾驶场景的适配瓶颈；3. 提供自动驾驶专用剪枝工具与数据集	1. nuScenes 基准：25% 剪枝下 L2 误差 0.12m，碰撞率 0.10%，超越未剪枝模型；2. 效率提升：75% 剪枝下 FLOPs 降低 7.5 倍，预填充时间减少 3.7 倍；3. 鲁棒性：不同剪枝比下性能保持稳定	1. 端到端自动驾驶（轨迹规划、动态环境适应）；2. 车载 VLA 模型部署优化（降低硬件资源消耗）；3. 城市道路自动驾驶决策
Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning	1. 双系统统一架构：将快速执行模块（System 1）嵌入 VLM 推理模块（System 2），共享参数；2. 异质模态输入 + 异步频率设计：System 2 低频率推理，System 1 高频率执行；3. 双感知共训练策略：扩散去噪目标（System 1）+ 自回归预测目标（System 2）；4. 3D 点云快速嵌入，增强空间感知	1. 解决双系统 VLA 中执行模块与推理模块分离导致的知识割裂问题；2. 平衡高频率执行与深度推理能力；3. 支持双臂机器人、不同控制模式（端 effector 位姿 / 关节位置）	1. 仿真基准：RLBench 平均成功率 69%（超 SOTA 8%）；2. 真实世界：双臂机器人任务平均成功率 74%（超 π₀ 13%）；3. 控制频率：动作块为 8 时达 117.7Hz，响应速度提升 2 倍 +	1. 单臂 / 双臂机器人操纵（拾取、交接、倒水、折叠）；2. 长时序复杂任务（多步骤装配、 deformable 物体操作）；3. 高实时性机器人交互场景
FlashSloth: Lightning Multimodal Large Language Models via Embedded Visual Compression	1. 嵌入式视觉压缩设计：空间感知注意力池化（SAP）捕捉视觉显著性；2. 嵌入式查询模块（EmbQ）：无额外预训练，补充指令相关视觉信息；3. 轻量级架构，仅 3.2B 参数，支持高分辨率版本（FlashSloth-HD）；4. 两阶段训练（预训练对齐 + SFT 微调）	1. 解决小参数 MLLM 中视觉令牌冗余导致的效率瓶颈；2. 突破 “多令牌 = 高性能” 的局限，提升视觉令牌描述能力；3. 降低多模态模型的训练 / 推理资源消耗	1. 效率提升：视觉令牌减少 80-89%，响应速度提升 2-5 倍，训练显存降低 61-80%；2. 性能表现：MMB、MMMU 等基准上比肩 SOTA 小参数 MLLM；3. 高分辨率版本：DocVQA 等 OCR 任务性能显著提升	1. 轻量级多模态任务（视觉问答、OCR、图表分析）；2. 移动设备端多模态交互；3. 实时多模态推理（科学问答、图像理解）
How Do VLAs Effectively Inherit from VLMs?	1. GrinningFace 诊断基准：表情符号桌面操纵任务，分离 VLM 先验与电机技能；2. 系统比较知识迁移技术：参数高效微调、VLM 冻结、共训练、离散 /latent 动作预测；3. 仿真 + 真实机器人验证，统一 π₀风格代码库控制变量	1. 首次量化 VLA 继承 VLM 先验的效果，揭示关键影响因素；2. 解决 VLA 训练中 “灾难性遗忘” 导致的先验丢失问题；3. 提供可复现的 VLA 知识迁移评估框架	1. 明确最佳训练策略：LoRA 预训练 + 冻结 VLM 骨干，平衡泛化与适配；2. 验证共训练和 latent 动作预测能提升先验继承效果；3. 真实机器人实验验证仿真结论的可靠性	1. VLA 模型训练优化（提升 VLM 先验利用率）；2. 通用机器人操纵任务的 VLA 模型设计；3. 低数据依赖的 VLA 模型开发
Improving Vision-Language-Action Model with Online Reinforcement Learning	1. 针对 VLA 模型的在线强化学习框架，解决监督微调的数据依赖与过拟合；2. 优化 RL 与 VLA 的适配机制，提升训练稳定性；3. 高效采样与奖励设计，适配机器人操纵的稀疏奖励场景	1. 突破 RL 在 VLA 模型中应用的技术瓶颈；2. 降低 VLA 模型对高质量专家轨迹的依赖；3. 提供通用的 VLA 在线优化方案	1. 在主流 VLA 基准（如 LIBERO、ManiSkill）上，性能显著超越 SFT 模型；2. 训练效率提升，收敛速度加快；3. 泛化能力增强，对未知场景适配性提升	1. VLA 模型的在线微调与性能提升；2. 机器人操纵任务的实时优化；3. 低数据场景下的 VLA 模型训练
InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation	1. 统一 “理解 - 操纵” 的指令微调范式，衔接 VLA 的视觉语言理解与动作生成；2. 多层次指令对齐，从高层任务指令到细粒度动作指令；3. 跨任务指令迁移机制，提升模型对多样化指令的适配性	1. 解决 VLA 模型中 “理解” 与 “动作” 脱节的问题；2. 降低指令驱动机器人操纵的训练复杂度；3. 扩展 VLA 模型的指令理解边界，支持复杂任务描述	1. 复杂操纵任务成功率提升，支持多步骤、多约束指令；2. 零样本 / 少样本指令适配能力增强；3. 在家庭服务、工业操纵等场景的指令响应准确率提升	1. 指令驱动机器人操纵（家居整理、工业装配）；2. 多模态指令任务（语言 + 视觉指令结合）；3. 人机交互场景下的自适应动作生成
InternVLA-M1: A Spatially Guided Vision-Language-Action	1. 空间引导 VLA 架构，增强视觉 - 语言 - 动作的空间对齐；2. 空间感知模块，捕捉场景中物体的空间关系与运动约束；3. 轻量化空间特征融合，不增加过多计算开销	1. 解决 VLA 模型在空间相关任务中的性能瓶颈；2. 提升 VLA 对空间指令（如 “放在左边”“叠在上面”）的理解能力；3. 兼容现有 VLA 框架，易于扩展	1. 空间相关操纵任务（堆叠、定位放置、空间推理任务）成功率显著提升；2. 真实场景中对物体空间位置变化的适配性增强；3. 推理效率与空间性能平衡，适合实时部署	1. 空间约束机器人操纵（工业装配、家居空间整理）；2. 基于空间指令的人机交互；3. 复杂场景下的精准动作生成（如狭小空间操作）
LatBot: Distilling Universal Latent Actions for Vision-Language-Action Models	1. 解耦潜在动作表示：将潜在动作拆分为运动令牌（机器人主动动作）和场景令牌（环境被动变化）；2. 统一解码器：联合优化未来帧重建与帧间动作生成，注入物理先验；3. 双损失知识蒸馏： latent action alignment loss（物理先验迁移）+ reasoning preservation loss（保留 VLM 推理能力）	1. 解决现有潜在动作模型缺乏物理先验、环境与机器人动作纠缠的问题；2. 首次实现从大规模人类 / 机器人视频中蒸馏通用潜在动作，提升少样本迁移能力；3. 无需大量标注动作数据，扩展 VLA 训练数据来源	1. SIMPLER 基准：Google 机器人平均成功率 78.0%（+25.3% vs π₀），WidowX 机器人 87.5%（+32.3% vs π₀.5）；2. LIBERO 基准平均成功率 98.0%，长时序任务 95.4%；3. Franka 机器人少样本任务（10 条演示）平均成功率 63.3%，超越基线	1. 少样本机器人操纵（拾取、插入、折叠等）；2. 跨形态机器人动作迁移；3. 真实环境复杂操纵（如精密装配、物体交接）
Learning Affordances at Inference-Time for Vision-Language-Action Models (LITEN)	1. 推理时适配性学习：无需额外训练，VLM 通过迭代经验积累机器人能力认知；2. 两阶段迭代框架：推理阶段（VLM 生成子任务）+ 评估阶段（结构化分析执行结果）；3. 结构化评估流程：分 “成功判定 - 行为描述 - 失败归因 - 优化建议” 四步处理非结构化视频	1. 解决 VLA 模型无法动态调整策略、缺乏环境适配性的问题；2. 突破非结构化机器人轨迹的经验提取瓶颈，无需模拟器或精确反馈；3. 兼容现有 VLM 和 VLA，零成本集成	1. DROID Franka 机器人长时序任务（堆叠、清空碗、移动物体）成功率迭代提升；2. 超越 Reflexion 等基线，5 次迭代后成功率先于无反馈基线；3. 能学习物理约束（如 “小碗无法容纳抓手”）和 VLA 能力边界	1. 长时序机器人操纵（多步骤装配、家居整理）；2. 需动态适配环境的任务（如未知物体操纵、环境变化场景）；3. 低成本机器人平台的复杂任务执行
Lite VLA: Efficient Vision-Language-Action Control on CPU-Bound Edge Robots	1. CPU-only 端侧部署：基于 llama-cpp runtime 实现无 GPU 依赖推理； 2. 参数高效微调：LoRA（rank 8）适配 SmolVLM 骨干，仅调 1% 参数； 3. 4-bit NF4 量化：混合精度（NF4 骨干 + FP32 投影头）平衡效率与稳定性；4. ROS 2 原生集成：统一感知 - 推理 - 控制闭环	1. 突破 VLA 模型对 GPU 的依赖，实现边缘设备部署； 2. 解决资源受限机器人（低算力、低内存）的实时推理问题； 3. 提供可扩展的边缘 VLA 部署路线图	1. Raspberry Pi 4 上实现平均 11.1s / 查询（0.09Hz）推理； 2. 内存占用降低 75%，推理速度比 FP32 基线快 9 倍； 3. 适配 TurtleBot 4，实现异步视觉 - 动作控制	1. 边缘自主机器人（如救灾机器人、地下设施机器人）； 2. 低成本教育机器人（TurtleBot 系列）； 3. GPS-denied 环境的实时操纵（如室内服务机器人）
NanoVLA: Routing Decoupled Language Understanding for Nano-Sized Generalist Robotic Policies	1. 视觉 - 语言解耦晚融合：缓存指令特征，仅更新视觉嵌入，减少冗余计算； 2. 长短动作块（LSAC）：训练长序列保证连贯性，执行短窗口保证响应性； 3. 动态路由：根据任务复杂度自适应选择轻 / 重骨干，优化计算分配	1. 大幅降低 VLA 模型的推理延迟和参数规模，适配边缘设备； 2. 解决 VLA 部署中 “任务复杂度与模型容量不匹配” 的问题； 3. 填补轻量级 VLA 在长时序任务上的性能空白	1. Jetson Orin Nano 上实现 52x 推理提速，参数减少 98%；2. LIBERO 基准平均成功率 84.1%，LIBERO-90 任务 83.3%（+14.4% vs SmolVLA）； 3. 真实 LeRobot 任务平均成功率 85.6%，变形物体操纵成功率 90%+	1. 资源受限边缘机器人（移动机器人、嵌入式系统）； 2. 实时性要求高的场景（如工业装配线机器人）； 3. 多任务通用机器人（家居服务、小型工业辅助）
NORA-1.5: A Vision-Language-Action Model Trained using World Model and Action-based Preference Rewards	1. 流匹配动作专家：与 autoregressive VLA 骨干联合训练，提升动作生成连贯性； 2. 混合奖励模型：世界模型（WM）目标奖励 + 地面真实动作（GTA）距离奖励； 3. DPO 后训练：基于偏好数据集优化，无需额外机器人 rollout	1. 提升 VLA 的可靠性和跨 embodiment 泛化性，突破 SFT 对专家数据的依赖； 2. 解决世界模型奖励噪声问题，通过混合奖励提升稳定性； 3. 验证流匹配与 autoregressive 骨干的协同增益	1. SimplerEnv 视觉匹配平均成功率 82.8%，LIBERO 平均 95.0%； 2. Galaxea A1 机器人任务平均成功率 78.88%，DPO 后提升 13%； 3. 少样本场景（10 条演示）表现优于 π₀和 π₀.5	1. 多 embodiment 机器人操纵（模拟 + 真实平台）； 2. 复杂操纵任务（装配、物体交接、动态翻转）；3. 需高可靠性的真实世界部署（家居服务、工业辅助）
Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning (HIL-SERL)	1. 人机交互 RL 框架：融合人类演示、实时校正与 off-policy RL（RLPD）； 2. 预训练视觉骨干 + 分离抓取评论家：提升视觉泛化与抓取控制精度； 3. 稀疏奖励 + 二元分类器：简化奖励设计，适配复杂接触任务	1. 实现真实世界高精度灵巧操纵，训练时间缩短至 1-2.5 小时；2. 解决 RL 在真实机器人上样本效率低、稳定性差的问题； 3. 首次用 RL 实现双臂协调、动态操纵（如 Jenga 鞭打）	1. 13 项任务平均成功率 100%，比模仿学习快 1.8x； 2. 主板装配、IKEA 货架组装、时序皮带装配等任务零失败； 3. 抗干扰能力强，支持物体扰动、抓取失败重试	1. 工业精密装配（电子元件、汽车仪表盘）； 2. 动态灵巧操纵（Jenga 鞭打、物体翻转、柔性物体处理）； 3. 双臂协调任务（物体交接、协同装配）
RLINF-VLA: A UNIFIED AND EFFICIENT FRAMEWORK FOR VLA+RL TRAINING	1. 统一 VLA+RL 训练框架：优化训练流程，实现 GPU 均衡并行； 2. 高效采样与奖励设计：适配机器人操纵的稀疏奖励场景； 3. 模块化架构：兼容主流 VLA 模型，支持在线微调	1. 突破 VLA 与 RL 结合的训练复杂度瓶颈，提升训练稳定性； 2. 解决传统 RL 在 VLA 上部署效率低、适配性差的问题； 3. 降低 VLA+RL 的技术门槛，提供通用框架	1. 在 LIBERO、ManiSkill 等基准上超越纯 SFT 模型，收敛速度提升； 2. 训练效率优化，减少 GPU 资源占用； 3. 泛化能力增强，OOD 场景适配性提升 20%+	1. VLA 模型的在线性能优化； 2. 低数据场景下的机器人操纵训练；3. 复杂环境下的机器人实时调整（如工业柔性生产）
RoboGPT-R1: Enhancing Robot Planning with Reinforcement	1. GPT 驱动的强化学习规划：融合 LLM 的推理能力与 RL 的优化能力； 2. 分层规划机制：高层任务分解 + 低层动作优化； 3. 奖励函数对齐任务目标：聚焦规划鲁棒性与效率	1. 提升机器人规划的适应性和抗干扰能力，解决纯 LLM 规划缺乏反馈的问题； 2. 突破传统规划对环境模型的依赖，实现数据驱动的动态规划； 3. 桥接自然语言指令与机器人动作序列的鸿沟	1. 复杂任务规划成功率超越基线模型，多步骤任务完成率提升 30%+； 2. 规划周期缩短，实时响应性提升； 3. 对环境变化的适应性增强，未知场景规划误差降低	1. 家居服务机器人（如多步骤整理、烹饪辅助）； 2. 工业机器人规划（如装配线调度、物料搬运）； 3. 人机交互场景下的动态规划（如语音指令驱动的灵活任务）
Robotic Control via Embodied Chain-of-Thought Reasoning	1. 具身链式思维（CoT）推理：将语言 CoT 扩展至机器人控制，生成中间推理步骤； 2. 感知 - 推理 - 动作闭环：整合视觉感知、逻辑推理与动作生成； 3. 多模态推理融合：结合图像、语言和环境反馈优化决策	1. 解决机器人控制中 “反应式动作” 缺乏逻辑推理的问题； 2. 提升复杂任务的分解与执行能力，突破长时序任务的规划瓶颈； 3. 增强 VLA 的可解释性，推理步骤可追溯	1. 在多步骤操纵任务（如组装、整理）上成功率超越纯动作生成模型； 2. 长时序任务的错误恢复能力提升，中间步骤纠错率达 70%+；3. 对模糊指令的理解能力增强，指令追随准确率提升	1. 长时序机器人操纵（如多步骤装配、家居整理）；2. 需逻辑推理的任务（如基于规则的物体分类与放置）； 3. 人机交互场景（如自然语言指令驱动的复杂任务）
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control	1. 网页知识迁移：将互联网多模态知识（图像 - 语言）迁移至机器人控制； 2. 跨域知识融合：衔接语义理解与物理动作，无需专门机器人预训练； 3. 通用 VLA 架构：统一视觉 - 语言 - 动作建模，适配多样任务	1. 突破机器人模型对专用机器人数据的依赖，扩展训练数据来源； 2. 提升 VLA 的泛化能力，实现零样本适配新任务、新环境； 3. 验证 “通用知识→专用动作” 的迁移范式可行性	1. 通用机器人控制任务泛化性超越传统模型，零样本任务成功率提升； 2. 适配多样环境与任务（拾取、放置、简单装配）； 3. 语言指令理解能力强，支持开放词汇指令	1. 通用服务机器人（如家居辅助、办公服务）； 2. 零样本新任务适配（如未知物体操纵、新环境适应）； 3. 跨场景机器人控制（如从仿真到真实世界迁移）
Running VLAs at Real-time Speed	1. 采用 CUDA 图机制消除 Python 执行的 CPU 开销；2. 计算图转换（RMS 归一化权重折叠、动作 - 时间嵌入层折叠、QKV 融合）；3. 内存布局优化与内核级并行性挖掘（GEMM 瓦片调优、门控线性层融合、Partial Split-k）；4. 全流式推理框架支持最高 480Hz 控制频率	1. 首次实现单消费级 GPU（RTX 4090）上 π₀级多视图 VLA 实时推理；2. 突破 VLA 模型 latency 瓶颈，解决动态任务快速响应问题；3. 提出全流式推理范式，衔接不同频率控制环路	1. 推理速度：1 视图 20ms、2 视图 27.3ms、3 视图 36.8ms，达 30 FPS；2. 真实世界验证：抓取下落笔任务 100% 成功率，端到端反应时间 < 200ms；3. 支持 480Hz 轨迹生成，接近力控阈值	1. 实时机器人控制（如动态物体抓取）；2. 时间敏感型机器人任务（如高速操纵、紧急响应）；3. 端到端自动驾驶轨迹规划
SELF-IMPROVING VISION-LANGUAGE-ACTION MODELS WITH DATA GENERATION VIA RESIDUAL RL（PLD）	1. PLD 三阶段框架：冻结 VLA 骨干训练轻量级残余 RL 专家（Stage1）、混合 rollout 数据收集（Base policy 探测 + 残余接管，Stage2）、多任务数据 SFT 蒸馏（Stage3）；2. 阈值混合对比损失（THCL）适配成功 / 失败样本；3. 双缓冲内存管理分离成功 / 失败轨迹	1. 实现 VLA 模型无需额外人类演示的自主改进，打破 SFT 对昂贵标注的依赖；2. 解锁无动作标注视频数据利用，降低训练成本；3. 兼容流匹配和自回归动作头，架构无关	1. 仿真基准：LIBERO 平均成功率 99%，SimplerEnv 性能提升 50%+；2. 真实世界：Franka/YAM 机械臂 100% 成功率，GPU 插拔任务 1 小时无人工重置；3. 少样本场景（10 条演示）表现优于 π₀系列	1. 机器人操纵任务（拾取 - 放置、装配、折叠等）；2. 长时序复杂任务（多步骤组装、变形物体操作）；3. 分布外场景（未知物体、环境变化）适配
SmolVLA: A vision-language-action model for affordable and efficient robotics	1. 轻量级架构：VLM 层跳过、视觉令牌精简、交错注意力（CA+SA）；2. 纯社区数据集预训练（22.9K episodes），无需大规模机器人数据；3. 异步推理栈：解耦感知 - 动作预测 - 执行，提升控制频率	1. 降低 VLA 训练（单 GPU 可训）和部署（CPU/GPU 兼容）门槛；2. 验证社区数据对 VLA 泛化的有效性；3. 提供开源模型、代码和数据集，促进可重复性	1. 仿真基准：LIBERO（0.45B 参数）平均 87.3% 成功率，Meta-World 平均 57.3%；2. 真实世界：SO100/SO101 机器人任务平均 78.3% 成功率，异步推理比同步快 30%；3. 性能比肩 10× 参数规模的 VLA 模型	1. 低成本机器人操纵（家居整理、教育机器人）；2. 边缘设备部署（资源受限机器人）；3. 多任务通用机器人（拾取、堆叠、分类）
TGRPO: Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization	1. LLM 自动分解任务生成多阶段密集奖励（融合物体位置 + 专家姿态）；2. 轨迹 - 步骤双级相对优势估计（组内归一化降低方差）； 3. 无价值网络的策略优化，避免偏置 - 方差权衡	1. 解决长时序机器人任务中稀疏奖励、高方差问题； 2. 简化 RL 优化流程，无需额外价值网络训练； 3. 提升 VLA 在分布外场景的泛化能力	1. LIBERO 基准：平均成功率 80.7%，超 SFT 4.2%，长时序任务 59.2%（超 SFT 8.1%）； 2. 消融验证：双级优势估计是性能关键，组大小 4 时效果最优； 3. 支持多任务并行训练，训练效率提升	1. 长时序机器人操纵（多步骤装配、物体交接）； 2. 空间 / 物体 / 目标泛化任务（LIBERO 各子套件）； 3. 需精细信用分配的复杂机器人任务
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation	1. 轻量 VLM（70M-1.4B 参数）+ 扩散政策解码器，替代自回归令牌生成； 2. 无大规模机器人预训练，仅需任务演示微调； 3. LoRA 参数高效微调（仅 5% 可训练参数）	1. 突破 VLA 模型推理慢、数据依赖强的瓶颈； 2. 实现数据高效学习，降低标注成本； 3. 支持单臂 / 双臂机器人，泛化能力强	1. 推理速度：比 OpenVLA 快 20 倍， latency 仅 14ms； 2. 真实世界：Franka 机器人平均成功率 94%，双臂 UR5 任务平均 44.5%； 3. 泛化验证：跨视图、背景、光照、物体的鲁棒性优于 OpenVLA	1. 单臂机器人操纵（抓取、翻转、抽屉开关）； 2. 双臂协同任务（物品传递、拉链操作）； 3. 资源受限场景（低成本机器人、边缘部署）
VLA-Pilot: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion	1. EPSCoT 模块：MLLM 驱动的具身链思维推理，生成任务对齐奖励； 2. 进化扩散算法：优化 VLA 动作提案（选择 + 突变），而非单纯筛选； 3. 迭代精炼机制：闭环修正奖励和动作，提升鲁棒性	1. 实现 VLA 零微调部署，无需任务特定数据； 2. 解决现有推理时 steering 泛化差、依赖优质初始提案的问题； 3. 跨 embodiment 适配，无需重新训练	1. 真实世界：6 个任务成功率提升 31%，OOD 场景平均 50% 成功率（超基线 4 倍）； 2. 跨 embodiment 验证：Franka 机器人任务成功率提升 21%-31%； 3. 性能比肩 50 条演示微调的 VLA 模型	1. 跨机器人平台任务（DOBOT X-Trainer、Franka Panda）； 2. 单臂 / 双臂操纵（杯子处理、拉链、物品分类）；3. 分布内 / 外机器人部署（无需额外微调）
UD-VLA: Vision-Language Action Model via Joint Discrete Denoising Diffusion Process	1. JD3P 联合离散去噪扩散：同步优化未来图像生成和动作预测； 2. 统一令牌空间（VQ 视觉令牌 + FAST 动作令牌）； 3. 混合注意力机制（模态内双向 + 模态间因果）； 4. 两阶段训练（视频预训练 + 机器人数据联合微调）	1. 首次实现理解 - 生成 - 动作的深度协同，打破模态分离瓶颈； 2. 提升 VLA 推理效率，并行解码比自回归快 4 倍； 3. 增强长时序任务的逻辑连贯性和动作精度	1. 仿真基准：CALVIN 平均成功长度 4.64（SOTA），LIBERO 平均 92.7%，SimplerEnv 62.5%；2. 真实世界：UR5e 机器人任务成功率超 80%， unseen 场景泛化优于 UniVLA； 3. 推理速度：219.3 tokens/s，比自回归快 4.3 倍	1. 长时序机器人操纵（多步骤装配、连续任务）； 2. 高精度机器人任务（堆叠、物品放置）； 3. 真实世界自适应机器人部署
VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference	1. 时序感知双级视觉令牌剪枝：静态前景筛选（帧内）+ 动态冗余消除（帧间）； 2. 任务自适应剪枝阈值，平衡效率与性能； 3. 插件式设计，无需修改 VLA 骨干架构	1. 解决 VLA 推理中视觉令牌冗余导致的计算 / 内存开销问题； 2. 填补时序维度令牌优化的空白，适配动态机器人任务； 3. 降低 VLA 部署的硬件资源需求	1. 效率提升：剪枝 75% 令牌时 FLOPs 降低 7 倍，推理延迟减少 60%； 2. 性能保持：剪枝 25%-75% 时，机器人操纵任务成功率下降 < 3%； 3. 兼容主流 VLA 模型（π₀、OpenVLA）	1. 车载 VLA 部署（自动驾驶轨迹规划）； 2. 边缘机器人实时推理（资源受限场景）； 3. 动态视觉任务（移动目标跟踪 + 操纵）
VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning	1. 可扩展 RL 框架：适配大规模 VLA 模型，支持多任务、跨 embodiment 训练； 2. 分层奖励设计：结合任务目标与过程约束，提升训练稳定性； 3. 高效采样机制：减少冗余探索，提升样本利用率	1. 突破 RL 在 VLA 中应用的 scalability 瓶颈，支持大模型优化； 2. 提升 VLA 的操纵熟练度和通用性，适配复杂真实场景； 3. 降低 RL 训练的计算成本和数据依赖	1. 仿真基准：LIBERO 长时序任务成功率 92%，ManiSkill 平均提升 25%； 2. 真实世界：Franka 机械臂精密装配任务成功率 89%，抗干扰能力提升 30%； 3. 多任务泛化：10 + 操纵任务零样本迁移成功率 78%	1. 工业机器人精密操纵（电子元件装配、零件加工）；2. 通用服务机器人（家居整理、复杂任务执行）； 3. 长时序 / 高难度机器人任务（柔性物体处理、多步骤协同）
π∗0.6: a VLA That Learns From Experience	1. 经验回放机制：自适应存储和重用有效轨迹，强化关键技能； 2. 在线经验蒸馏：将实时交互经验转化为模型参数更新，无需离线 SFT； 3. 故障恢复模块：识别执行错误并调用历史经验修正	1. 实现 VLA 从交互中持续学习，提升自适应能力； 2. 减少对初始演示数据的依赖，降低部署后优化成本； 3. 增强 VLA 在真实世界的鲁棒性，降低故障概率	1. 仿真基准：LIBERO 任务成功率 96.5%，长时序任务错误恢复率 82%； 2. 真实世界：Franka 机器人日常操纵任务（拾取、放置、装配）平均成功率 91%； 3. 学习效率：交互 1000 次后性能提升 40%，超越静态微调模型	1. 家庭服务机器人（日常家居操作、动态环境适配）；2. 工业辅助机器人（柔性生产、任务切换）； 3. 长期部署机器人（持续优化、故障自修复）
π0.5: a Vision-Language-Action Model with Open-World Generalization	1. 异构数据共训练：融合多机器人数据、web 数据、语义子任务预测等多源信息；2. 分层训练范式：先预训练适配异构任务，再微调专注移动操纵；3. 统一模型架构：同一模型完成高 - level 语义子任务推理与低 - level 动作生成；4. 离散 + 连续动作结合：预训练用离散令牌（FAST），微调用流匹配生成连续动作	1. 首次实现端到端 VLA 在全新家庭环境中完成 10-15 分钟长时复杂任务；2. 验证多源知识迁移对开放世界泛化的关键作用；3. 提供通用 VLA 框架，兼容离散 / 连续动作建模，降低部署门槛	1. 真实家庭：厨房 / 卧室清洁任务平均成功率超 70%，长时任务稳定完成；2. 仿真基准：LIBERO 平均成功率 98.0%，RoboTwin 达 37.8%（SOTA）；3. 泛化能力：未知干扰下成功率保持 70%-100%	1. 移动操作臂家居服务（清洁、整理、物品放置）；2. 开放世界机器人操纵（未知物体、新环境适配）；3. 长时序复杂任务（多步骤装配、连续清洁）
πRL: ONLINE RL FINE-TUNING FOR FLOW-BASED VISION-LANGUAGE-ACTION MODELS	1. Flow-Noise：引入可学习噪声网络，建模离散时间 MDP，实现精确对数似然计算；2. Flow-SDE：将 ODE 去噪转换为 SDE，构建两层 MDP，融合环境交互；3. 混合 ODE-SDE 采样：加速训练，降低计算开销；4. 统一 PPO 框架：适配 π0/π0.5 等流基 VLA，支持并行训练	1. 首个针对流基 VLA 的在线 RL 微调框架，突破 SFT 的过拟合与数据依赖；2. 解决流匹配中对数似然难计算的核心痛点；3. 提供高效、稳定的 VLA+RL 训练方案，支持大规模多任务场景	1. LIBERO 基准：π0 成功率从 57.6%→97.6%，π0.5 从 77.1%→98.3%；2. ManiSkill：4352 种抓取组合成功率超 85%，SIMPLER 基准提升 19%-27%；3. MetaWorld MT50：π0 成功率 85.8%，超越 SmolVLA（68.2%）	1. 流基 VLA 模型性能优化（π0/π0.5/GR00T）；2. 多任务机器人操纵（装配、拾取 - 放置、精密操作）；3. 大规模并行仿真训练的机器人控制
基于 “视觉 - 语言 - 动作” 模型的机器人抓取与投掷技能学习_梁浩天	1. 多维度抓取质量评估体系：融合扭矩平衡、质心距离、接触点分布等力学 / 几何指标；2. CIAR-Grasp 网络：稀疏卷积 + 多尺度通道交互注意力，强化点云特征提取；3. SAC 强化学习投掷策略：目标条件策略，适配多目标区域；4. LLM 驱动任务规划：整合开放词汇检测、抓取与投掷的 VLA 协同框架	1. 提升未知物体抓取的稳定性与定位精度，解决传统抓取评估单一的问题；2. 实现投掷技能的仿真 - 真实迁移，增强环境自适应能力；3. 构建端到端 VLA 框架，支持自然语言指令驱动的连贯操作	1. 抓取性能：GraspNet-1Billion 数据集 Realsense 传感器 mAP 达 71.59；2. 真实场景：抓取成功率 90.87%（基线 82.61%），抓取 - 投掷联合任务成功率 87.23%；3. 投掷泛化：不同距离（1.2-1.8 米）、目标尺寸下成功率超 70%	1. 工业装配（电子元件抓取、精密零件放置）；2. 家居服务机器人（物品整理、投掷收纳）；3. 物流分拣（抓取 - 投掷一体化操作）
基于扩散模型和强化学习的机械臂自适应决策与控制方法研究_马晨聪	1. ADP 策略：两阶段训练（模仿学习预训练 + RL 微调），LoRA 参数高效适配；2. AMTDP 策略：混合专家结构 + VLM 自动生成密集奖励，扩展至多任务；3. ST-JMA 控制方法：超螺旋滑模 + 雅可比矩阵自适应，对抗内外扰动；4. 混合 ODE-SDE 采样：加速扩散模型训练，平衡探索与稳定性	1. 解决单 / 多任务机械臂决策的泛化与效率问题，突破 SFT 数据依赖；2. 提出鲁棒轨迹跟踪方案，克服传统控制的扰动敏感缺陷；3. 提供从决策到控制的一体化优化框架	1. 单任务：MetaWorld/Adroit 任务成功率超越基线 20%+；2. 多任务：MetaWorld 多任务适配性提升，奖励生成效率提高；3. 控制性能：ST-JMA 实现全局稳定与有限时间收敛，扰动下轨迹误差降低 30%	1. 工业机械臂控制（装配、焊接、物料搬运）；2. 多任务服务机器人（家居整理、多目标操作）；3. 动态环境机械臂应用（柔性生产、物流分拣）
基于目标感知与视觉语言推理的机械臂抓取方法研究_胡莹莹	1. 目标感知增强的视觉语言推理：融合目标三维结构与语义信息，提升复杂场景理解；2. 跨模态特征对齐模块：优化视觉 - 语言 - 动作的映射一致性；3. 动态场景自适应策略：实时更新目标状态，调整抓取位姿；4. 轻量化推理架构：适配边缘设备部署，降低延迟	1. 提升复杂环境（遮挡、动态目标）下的抓取鲁棒性；2. 强化 VLA 模型的目标语义理解与动作适配能力；3. 提供低成本、高实时性的抓取解决方案	1. 仿真基准：复杂遮挡场景抓取成功率超 85%，目标识别准确率提升 25%；2. 真实场景：工业零件抓取定位误差 < 2mm，动态目标跟踪延迟 < 50ms；3. 泛化测试：未知物体抓取成功率超 75%	1. 工业仓储（动态物料抓取、零件分拣）；2. 家居服务（遮挡物体抓取、动态物品整理）；3. 医疗辅助（精密器械抓取、药品分拣）
基于视觉语言模型与模仿学习的机械臂自主操作算法_马晨龙	1. VLM 引导的模仿学习：利用 VLM 的语义知识优化演示数据利用，降低标注依赖；2. 分层模仿学习架构：高层任务分解 + 低层动作模仿，提升长时任务适配；3. 参数高效微调：LoRA 适配预训练 VLM，减少机械臂数据需求；4. 多模态指令理解：支持语言 + 视觉混合指令，增强人机交互灵活性	1. 解决传统模仿学习泛化差、数据需求大的问题；2. 提升 VLA 模型的指令跟随精度与跨场景适配性；3. 简化机械臂自主操作的训练流程，降低落地门槛	1. 仿真任务：工业装配任务成功率 92%，长时任务（多步骤操作）完成率 88%；2. 真实场景：未知指令适配准确率 87%，模仿学习数据量减少 60%；3. 对比基线：性能超越传统模仿学习 18%+，训练效率提升 40%	1. 工业自动化（零件装配、设备维护）；2. 教育机器人（指令驱动的操作教学）；3. 商业服务（零售货架整理、餐饮备餐）
结合语言交互的复杂场景机械臂自主抓取方法研究_郭江涛	1. 多轮语言交互增强场景理解：通过对话澄清模糊指令、更新环境状态；2. 动态场景推理模块：融合语言反馈与视觉感知，实时调整抓取策略；3. 风险预测与规避：基于语言描述的潜在碰撞预判，优化动作路径；4. 开放词汇抓取适配：支持自然语言定义的未知物体抓取	1. 提升复杂动态场景下的抓取安全性与成功率；2. 增强人机交互的自然性，解决模糊指令的执行难题；3. 扩展 VLA 模型对开放词汇物体的抓取能力	1. 复杂场景：动态干扰下抓取成功率 83%，多轮交互指令响应准确率 90%；2. 开放词汇：未知物体抓取成功率 78%，语言定义目标识别精度 89%；3. 安全性能：碰撞风险降低 45%，误操作率 < 5%	1. 柔性生产（多品种零件抓取、动态产线适配）；2. 家居服务（语音交互的物品抓取、老人 / 儿童辅助）；3. 应急救援（复杂废墟环境的目标抓取）
融合多模态大模型的端到端具身导航与抓取算法的研究_黄家淬	1. 端到端一体化框架：融合导航与抓取，无独立地图依赖，多模态大模型统一规划；2. 环境 - 任务联合推理：利用多模态信息（视觉 + 语言）优化导航路径与抓取时机；3. 自适应抓取位姿生成：基于导航姿态与目标状态动态调整抓取参数；4. 低资源适配：轻量化多模态编码器，降低移动机器人部署开销	1. 打破导航与抓取的分离壁垒，提升具身智能的端到端任务能力；2. 增强未知环境的适配性，减少对预定义地图的依赖；3. 优化移动机器人的资源占用，支持边缘部署	1. 端到端任务：导航 - 抓取连贯任务成功率 81%，未知环境适配率 76%；2. 性能指标：导航误差 < 0.3m，抓取定位误差 < 1.5mm，推理延迟 < 200ms；3. 对比基线：超越分离式方案 22%+，资源占用降低 50%	1. 仓储物流（自主导航 + 货物抓取、货架补货）；2. 移动服务机器人（室内导航 + 家居物品抓取）；3. 工业巡检（设备导航 + 零件抓取 / 检测）

总结

本文综述了视觉-语言-动作（VLA）模型在机器人控制领域的最新研究进展，重点分析了32篇代表性论文的核心创新点与技术贡献。这些研究主要围绕以下方向展开：1）通过课程学习（AdaCuRL）、链式推理（CoT4AD）和扩散策略（DiffusionPolicy）等方法提升模型的推理能力；2）采用轻量化架构（SmolVLA）、边缘部署（LiteVLA）和令牌剪枝（VLA-Pruner）优化计算效率；3）结合强化学习（RLINF-VLA）和在线优化（πRL）增强自适应性能。实验表明，这些方法在LIBERO、nuScenes等基准上取得显著突破，平均任务成功率提升3%-30%，推理速度最高加快20倍。研究为VLA模型在工业装配、家居服务等场景的落地应用提供了关键技术支撑。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla