【具身智能】VLA相关文献总结截止2025-12-2
本文综述了视觉-语言-动作(VLA)模型在机器人控制领域的最新研究进展,重点分析了32篇代表性论文的核心创新点与技术贡献。这些研究主要围绕以下方向展开:1)通过课程学习(AdaCuRL)、链式推理(CoT4AD)和扩散策略(DiffusionPolicy)等方法提升模型的推理能力;2)采用轻量化架构(SmolVLA)、边缘部署(LiteVLA)和令牌剪枝(VLA-Pruner)优化计算效率;3)结
系列文章目录
目录
前言
提示:
VLA相关文献
提示:以下是本篇文章正文内容,下面案例可供参考
一、文献总结
| 文献名称 | 核心创新点 | 主要贡献 | 关键成果 | 应用场景 |
|---|---|---|---|---|
| AdaCuRL: Adaptive Curriculum Reinforcement Learning with Invalid Sample Mitigation and Historical Revisiting |
1. 提出 “粗到细” 难度估计策略,动态匹配数据难度与模型能力; 2. 引入稀疏 KL 机制与自适应参考策略,防止策略退化; 3. 设计历史数据重访机制,缓解灾难性遗忘; 4. 提出 Re-AdaCuRL 迭代重估难度,强化数据利用 |
1. 解决 GRPO 训练中混合难度数据导致的 “梯度饥饿” 和 “策略退化” 问题; 2. 无需高质量 CoT 标注,降低数据依赖; 3. 提供通用 RL 框架,适配 LLM 与 MLLM |
1. 在数学推理和通用多模态推理基准上,Qwen2.5-VL-3B 平均提升 3.17%,Qwen2.5-Math-7B 平均提升 5.53%; 2. Re-AdaCuRL 进一步提升 1.37%-1.03%;3. 统计显著性检验 p<0.05,性能提升可靠 |
1. LLM/MLLM 的数学推理、通用推理增强; 2. 复杂逻辑推理任务(如几何题、多模态问答) |
| CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving |
1. 提出 “感知 - 问答 - 扩散 - 规划” 四阶段 CoT 推理,适配自动驾驶场景;2. VLM 条件潜扩散模型生成高保真未来帧; 3. 3D 环境感知(BEV 特征 + 双 Tokenizer)优化空间建模 |
1. 首次将 CoT 推理引入自动驾驶 VLA,解决数值推理弱、输入输出映射简化的问题; 2. 融合视觉、语言、未来预测与规划,提升决策鲁棒性 |
1. nuScenes 数据集:1s/2s/3s 轨迹 L2 误差 0.12/0.24/0.53m,平均碰撞率 0.10%; 2. Bench2Drive 数据集:驾驶得分 81.22,成功率 55.78%,超越 ORION 等基线; 3. 开放环与闭环评估均达 SOTA |
端到端自动驾驶(真实道路 nuScenes + 仿真 Bench2Drive) |
| CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models |
1. 视觉链思维推理:预测子目标图像作为中间推理步骤; 2. 混合注意力机制(因果注意力生成图像 / 文本,全注意力预测动作);3. 融合无动作标注视频数据,提升视觉推理泛化 |
1. 首次将子目标图像作为 CoT 中间步骤,避免抽象中间表示的额外标注; 2. 解锁无动作视频数据的利用,降低训练数据成本; 3. 提出混合注意力解决 CoT 与动作生成的模态冲突 |
1. LIBERO 基准平均成功率 81.13%,超越 OpenVLA 等基线; 2. 真实 Franka-Tabletop 机器人任务:单指令任务成功率超 70%,多指令任务超 69%; 3. 长时序任务(如衣物折叠)性能提升显著 |
机器人操纵任务(拾取 - 放置、衣物折叠、桌面清理等,模拟 + 真实机器人) |
| CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling |
1. 多帧 VLA 统一框架:单帧预训练(离散动作 token)+ 多帧后训练(可学习特征 + 特征分块); 2. 跨帧解码器(DiT 架构 + 特征调制器); 3. 提出 SimplerEnv-OR 基准,评估 24 种观测干扰 |
1. 解决多帧建模的计算开销与推理延迟问题; 2. 无需修改 VLM 骨干,兼容现有单帧 VLA 模型; 3. 填补 VLA 鲁棒性评估空白 |
1. SimplerEnv 基准平均成功率 70.9%,LIBERO 基准平均 97.0%(Long 任务 94.0%); 2. SimplerEnv-OR 基准鲁棒性得分 86.9%,远超 TraceVLA、SpatialVLA; 3. 真实 Franka 机器人任务成功率 72.6%(含遮挡、干扰场景) |
机器人操纵(模拟:Google Robot/WidowX;真实:Franka 机械臂),适用于复杂环境下的长时序任务 |
| DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models |
1. 混合注意力解码器:因果注意力生成 CoT,双向注意力并行解码动作;2. 两阶段训练:SFT(基础推理)+ RL(结果导向奖励对齐); 3. 基于 GRPO 的分组信用分配,优化稀疏奖励传播 |
1. 解决 CoT 推理与动作生成的架构冲突(单一自回归解码器的模态干扰); 2. 建立 CoT 与动作执行的因果关联,避免 “rote learning”; 3. 提升长时序任务的错误恢复能力 |
1. LIBERO 基准平均成功率 97.0%,Object 任务 99.0%,Long 任务 96.2%; 2. 比纯 SFT 模型提升 2%,比自回归 CoT 基线提升 15.5%;3. 支持错误恢复(如物体掉落后续重新抓取) |
机器人长时序操纵任务(堆叠、抽屉操作、多步骤组装等) |
| Diffusion Policy: Visuomotor Policy Learning via Action Diffusion |
1. 扩散模型建模视觉运动策略,通过迭代去噪生成动作; 2. 闭环动作序列预测 + 视觉条件约束,时间序列扩散 Transformer; 3. 结合退避视界控制,平衡时序一致性与响应性 |
1. 解决传统策略难以处理多模态动作分布、高维动作空间的问题; 2. 实现稳定训练(无需负采样),适配刚性 / 流体对象; 3. 提升实时控制可行性(DDIM 加速推理) |
1. 15 个机器人任务(4 个基准)平均性能提升 46.9%; 2. 处理多模态动作分布(如推块任务的左右路径); 3. 真实机器人任务(如衬衫折叠、液体倾倒)成功率显著提升 |
机器人操纵(单臂 / 双臂、刚性物体抓取、流体对象操作、真实世界精细操纵) |
| DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving |
1. 截断扩散策略用于端到端自动驾驶,锚定高斯分布减少去噪步骤; 2. 高效级联扩散解码器,稀疏可变形注意力捕捉场景上下文; 3. ODE-SDE 混合采样,平衡精度与速度 |
1. 解决扩散模型在自动驾驶中推理速度慢的问题; 2. 提升轨迹生成的保真度与安全性; 3. 适配端到端自动驾驶的实时性需求 |
1. NAVSIM 基准 PDMS 达 88.1,超越传统扩散模型; 2. 推理速度 45 FPS,满足实时控制需求; 3. 多模态轨迹生成,适配动态交通场景 |
端到端自动驾驶(轨迹规划、动态环境适应) |
| Don’t Blind Your VLA: Aligning Visual Representations for OOD Generalization |
1. 视觉表征对齐策略,缓解 VLA 模型的分布外(OOD)泛化瓶颈; 2. 针对视觉特征偏移的自适应校准机制; 3. 无需额外标注,即插即用适配现有 VLA 架构 |
1. 揭示 VLA 模型 OOD 性能差的核心原因(视觉表征不鲁棒); 2. 提供通用视觉对齐方案,兼容主流 VLA 模型; 3. 填补 VLA 泛化性优化的技术空白 |
1. 未知物体、陌生环境下的任务完成度提升 20%+; 2. 在 LIBERO-OOD 子集上成功率超基线 15%-30%; 3. 保持原有分布内任务性能不下降 |
需分布外泛化的 VLA 部署场景(如家庭机器人、工业机器人的未知物体操纵) |
| E0: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion |
1. 连续化离散扩散框架,动作生成建模为量化 token 迭代去噪; 2. 球形视角扰动增强跨视角鲁棒性,无需额外数据; 3. 支持细粒度动作词汇(达 2048 bins),兼容预训练 VLM/VLA |
1. 平衡离散 token 的训练效率与连续动作的精细控制; 2. 提升 VLA 对视角变化的适应性; 3. 降低细粒度操纵任务的训练成本 |
1. 机器人精细操纵任务(插件插入、peg 插入)成功率提升; 2. 跨视角任务性能优于传统离散 / 连续动作建模; 3. 适配现有 VLA 模型,无需重构架构 |
机器人精细操纵(工业装配、精密零件处理、跨视角机器人任务) |
| EveryDayVLA: A Vision-Language-Action Model for Affordable Robotic Manipulation |
1. 轻量化 VLA 架构,适配低成本机器人硬件(低算力、低传感器配置); 2. 数据高效利用策略,减少高质量演示数据依赖; 3. 模块化设计,支持平价机器人平台的快速部署 |
1. 降低 VLA 技术的部署门槛,推动普及化; 2. 解决低成本机器人数据稀缺、算力不足的问题; 3. 平衡性能与成本,适配日常家居场景需求 |
1. 平价机器人平台(如 WidowX、低成本移动操作臂)任务成功率超 60%; 2. 日常家居任务(餐具整理、衣物收纳)高效完成; 3. 训练数据量仅为传统 VLA 的 1/5,仍保持竞争力 |
低成本家庭服务机器人(日常清洁、物品整理)、教育机器人、小型工业辅助机器人 |
| Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment |
1. 轻量级架构设计(仅 0.77B 参数),基于 InternVL3-1B 骨干 + 跨调制扩散 Transformer; 2. 两阶段训练范式(先对齐动作专家,再全量微调),保护 VLM 语义空间; 3. 优化整合模块,融合视觉 - 语言特征与机器人本体感受信息;4. 无需机器人数据预训练,降低数据依赖 |
1. 解决现有 VLA 模型参数庞大、推理慢、泛化差的问题; 2. 突破 “大参数 = 高性能” 的认知,实现轻量级模型的高效部署; 3. 提供通用轻量级 VLA 框架,适配消费级 GPU |
1. 仿真基准:MetaWorld(80.6%,SOTA)、LIBERO(94.8%)、RoboTwin(37.8%,SOTA);2. 真实世界:4 项任务平均成功率 78%,推理频率 16.4Hz,显存占用仅 2.3GB; 3. 泛化实验:未知干扰下成功率保持 70%-100% |
1. 单臂 / 双臂机器人操纵(拾取、放置、折叠、堆叠等); 2. 实时交互机器人任务(消费级 GPU 部署); 3. 家居环境日常操作(餐具整理、衣物收纳) |
| ExpReS-VLA: Specializing Vision-Language-Action Models Through Experience Replay and Retrieval |
1. 压缩经验回放:存储 VLM 视觉嵌入,降低 97% 存储开销; 2. 检索增强训练(RAG):余弦相似度检索相似经验,加速收敛; 3. 阈值混合对比损失(THCL):动态适配成功 / 失败样本学习;4. 双缓冲内存管理,分离成功 / 失败轨迹 |
1. 解决 VLA 模型微调中的灾难性遗忘问题; 2. 降低对高质量标注数据的依赖,仅需 12 条演示; 3. 实现实时设备端快速适配(31 秒完成训练); 4. 首次将检索增强引入 VLA 微调 |
1. LIBERO 基准:空间任务成功率 93.1%(+10.5%),长时序任务 72.3%(+11.3%); 2. 真实机器人:分布内 / 外任务成功率均达 98%(分别提升 13.3%/66%); 3. 训练效率:单 RTX 5090 即可部署 |
1. 预训练 VLA 模型的快速领域适配; 2. 特定环境机器人操纵(家居、工业场景); 3. 分布外场景(未知物体、背景)的 VLA 优化 |
| FAST: Efficient Action Tokenization for Vision-Language-Action Models |
1. 频率空间动作序列令牌化(FAST):基于 DCT 压缩高冗余动作信号; 2. 字节对编码(BPE)融合多维度 DCT 系数,生成低冗余令牌; 3. FAST + 通用动作令牌器:训练于 1M 轨迹,适配多机器人形态; 4. 适配自回归 VLA 模型,无需修改骨干架构 |
1. 解决传统逐维分箱令牌化在高频率动作上的性能退化问题; 2. 突破高频率、高精度机器人任务的令牌化瓶颈; 3. 提供即插即用的通用动作令牌器,降低 VLA 训练门槛 |
1. 训练效率:π₀-FAST 训练速度提升 5 倍,匹配扩散模型性能; 2. 任务表现:在 DROID 数据集上实现零样本 unseen 环境部署; 3. 压缩比:高频率任务(50Hz)令牌数减少 13.2 倍 |
1. 高频率机器人控制(衣物折叠、精密装配); 2. 跨形态机器人动作生成(单臂、双臂、移动机器人); 3. 大规模机器人数据集(10k 小时)训练优化 |
| FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning | 1. 重建基视觉令牌剪枝框架:基于 MAE 风格像素重建筛选前景令牌;2. ReconPruner 插件式剪枝器:对抗式前景 - 背景重建策略训练;3. nuScenes-FG 数据集:241k 图像 - 掩码对,标注自动驾驶前景区域;4. 无需重训 VLA 模型,即插即用 | 1. 解决自动驾驶 VLA 中视觉令牌冗余导致的低效率问题;2. 突破注意力 / 相似度基剪枝在自动驾驶场景的适配瓶颈;3. 提供自动驾驶专用剪枝工具与数据集 | 1. nuScenes 基准:25% 剪枝下 L2 误差 0.12m,碰撞率 0.10%,超越未剪枝模型;2. 效率提升:75% 剪枝下 FLOPs 降低 7.5 倍,预填充时间减少 3.7 倍;3. 鲁棒性:不同剪枝比下性能保持稳定 | 1. 端到端自动驾驶(轨迹规划、动态环境适应);2. 车载 VLA 模型部署优化(降低硬件资源消耗);3. 城市道路自动驾驶决策 |
| Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning | 1. 双系统统一架构:将快速执行模块(System 1)嵌入 VLM 推理模块(System 2),共享参数;2. 异质模态输入 + 异步频率设计:System 2 低频率推理,System 1 高频率执行;3. 双感知共训练策略:扩散去噪目标(System 1)+ 自回归预测目标(System 2);4. 3D 点云快速嵌入,增强空间感知 | 1. 解决双系统 VLA 中执行模块与推理模块分离导致的知识割裂问题;2. 平衡高频率执行与深度推理能力;3. 支持双臂机器人、不同控制模式(端 effector 位姿 / 关节位置) | 1. 仿真基准:RLBench 平均成功率 69%(超 SOTA 8%);2. 真实世界:双臂机器人任务平均成功率 74%(超 π₀ 13%);3. 控制频率:动作块为 8 时达 117.7Hz,响应速度提升 2 倍 + | 1. 单臂 / 双臂机器人操纵(拾取、交接、倒水、折叠);2. 长时序复杂任务(多步骤装配、 deformable 物体操作);3. 高实时性机器人交互场景 |
| FlashSloth: Lightning Multimodal Large Language Models via Embedded Visual Compression | 1. 嵌入式视觉压缩设计:空间感知注意力池化(SAP)捕捉视觉显著性;2. 嵌入式查询模块(EmbQ):无额外预训练,补充指令相关视觉信息;3. 轻量级架构,仅 3.2B 参数,支持高分辨率版本(FlashSloth-HD);4. 两阶段训练(预训练对齐 + SFT 微调) | 1. 解决小参数 MLLM 中视觉令牌冗余导致的效率瓶颈;2. 突破 “多令牌 = 高性能” 的局限,提升视觉令牌描述能力;3. 降低多模态模型的训练 / 推理资源消耗 | 1. 效率提升:视觉令牌减少 80-89%,响应速度提升 2-5 倍,训练显存降低 61-80%;2. 性能表现:MMB、MMMU 等基准上比肩 SOTA 小参数 MLLM;3. 高分辨率版本:DocVQA 等 OCR 任务性能显著提升 | 1. 轻量级多模态任务(视觉问答、OCR、图表分析);2. 移动设备端多模态交互;3. 实时多模态推理(科学问答、图像理解) |
| How Do VLAs Effectively Inherit from VLMs? | 1. GrinningFace 诊断基准:表情符号桌面操纵任务,分离 VLM 先验与电机技能;2. 系统比较知识迁移技术:参数高效微调、VLM 冻结、共训练、离散 /latent 动作预测;3. 仿真 + 真实机器人验证,统一 π₀风格代码库控制变量 | 1. 首次量化 VLA 继承 VLM 先验的效果,揭示关键影响因素;2. 解决 VLA 训练中 “灾难性遗忘” 导致的先验丢失问题;3. 提供可复现的 VLA 知识迁移评估框架 | 1. 明确最佳训练策略:LoRA 预训练 + 冻结 VLM 骨干,平衡泛化与适配;2. 验证共训练和 latent 动作预测能提升先验继承效果;3. 真实机器人实验验证仿真结论的可靠性 | 1. VLA 模型训练优化(提升 VLM 先验利用率);2. 通用机器人操纵任务的 VLA 模型设计;3. 低数据依赖的 VLA 模型开发 |
| Improving Vision-Language-Action Model with Online Reinforcement Learning | 1. 针对 VLA 模型的在线强化学习框架,解决监督微调的数据依赖与过拟合;2. 优化 RL 与 VLA 的适配机制,提升训练稳定性;3. 高效采样与奖励设计,适配机器人操纵的稀疏奖励场景 | 1. 突破 RL 在 VLA 模型中应用的技术瓶颈;2. 降低 VLA 模型对高质量专家轨迹的依赖;3. 提供通用的 VLA 在线优化方案 | 1. 在主流 VLA 基准(如 LIBERO、ManiSkill)上,性能显著超越 SFT 模型;2. 训练效率提升,收敛速度加快;3. 泛化能力增强,对未知场景适配性提升 | 1. VLA 模型的在线微调与性能提升;2. 机器人操纵任务的实时优化;3. 低数据场景下的 VLA 模型训练 |
| InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation | 1. 统一 “理解 - 操纵” 的指令微调范式,衔接 VLA 的视觉语言理解与动作生成;2. 多层次指令对齐,从高层任务指令到细粒度动作指令;3. 跨任务指令迁移机制,提升模型对多样化指令的适配性 | 1. 解决 VLA 模型中 “理解” 与 “动作” 脱节的问题;2. 降低指令驱动机器人操纵的训练复杂度;3. 扩展 VLA 模型的指令理解边界,支持复杂任务描述 | 1. 复杂操纵任务成功率提升,支持多步骤、多约束指令;2. 零样本 / 少样本指令适配能力增强;3. 在家庭服务、工业操纵等场景的指令响应准确率提升 | 1. 指令驱动机器人操纵(家居整理、工业装配);2. 多模态指令任务(语言 + 视觉指令结合);3. 人机交互场景下的自适应动作生成 |
| InternVLA-M1: A Spatially Guided Vision-Language-Action | 1. 空间引导 VLA 架构,增强视觉 - 语言 - 动作的空间对齐;2. 空间感知模块,捕捉场景中物体的空间关系与运动约束;3. 轻量化空间特征融合,不增加过多计算开销 | 1. 解决 VLA 模型在空间相关任务中的性能瓶颈;2. 提升 VLA 对空间指令(如 “放在左边”“叠在上面”)的理解能力;3. 兼容现有 VLA 框架,易于扩展 | 1. 空间相关操纵任务(堆叠、定位放置、空间推理任务)成功率显著提升;2. 真实场景中对物体空间位置变化的适配性增强;3. 推理效率与空间性能平衡,适合实时部署 | 1. 空间约束机器人操纵(工业装配、家居空间整理);2. 基于空间指令的人机交互;3. 复杂场景下的精准动作生成(如狭小空间操作) |
| LatBot: Distilling Universal Latent Actions for Vision-Language-Action Models | 1. 解耦潜在动作表示:将潜在动作拆分为运动令牌(机器人主动动作)和场景令牌(环境被动变化);2. 统一解码器:联合优化未来帧重建与帧间动作生成,注入物理先验;3. 双损失知识蒸馏: latent action alignment loss(物理先验迁移)+ reasoning preservation loss(保留 VLM 推理能力) | 1. 解决现有潜在动作模型缺乏物理先验、环境与机器人动作纠缠的问题;2. 首次实现从大规模人类 / 机器人视频中蒸馏通用潜在动作,提升少样本迁移能力;3. 无需大量标注动作数据,扩展 VLA 训练数据来源 | 1. SIMPLER 基准:Google 机器人平均成功率 78.0%(+25.3% vs π₀),WidowX 机器人 87.5%(+32.3% vs π₀.5);2. LIBERO 基准平均成功率 98.0%,长时序任务 95.4%;3. Franka 机器人少样本任务(10 条演示)平均成功率 63.3%,超越基线 | 1. 少样本机器人操纵(拾取、插入、折叠等);2. 跨形态机器人动作迁移;3. 真实环境复杂操纵(如精密装配、物体交接) |
| Learning Affordances at Inference-Time for Vision-Language-Action Models (LITEN) | 1. 推理时适配性学习:无需额外训练,VLM 通过迭代经验积累机器人能力认知;2. 两阶段迭代框架:推理阶段(VLM 生成子任务)+ 评估阶段(结构化分析执行结果);3. 结构化评估流程:分 “成功判定 - 行为描述 - 失败归因 - 优化建议” 四步处理非结构化视频 | 1. 解决 VLA 模型无法动态调整策略、缺乏环境适配性的问题;2. 突破非结构化机器人轨迹的经验提取瓶颈,无需模拟器或精确反馈;3. 兼容现有 VLM 和 VLA,零成本集成 | 1. DROID Franka 机器人长时序任务(堆叠、清空碗、移动物体)成功率迭代提升;2. 超越 Reflexion 等基线,5 次迭代后成功率先于无反馈基线;3. 能学习物理约束(如 “小碗无法容纳抓手”)和 VLA 能力边界 | 1. 长时序机器人操纵(多步骤装配、家居整理);2. 需动态适配环境的任务(如未知物体操纵、环境变化场景);3. 低成本机器人平台的复杂任务执行 |
| Lite VLA: Efficient Vision-Language-Action Control on CPU-Bound Edge Robots |
1. CPU-only 端侧部署:基于 llama-cpp runtime 实现无 GPU 依赖推理; 2. 参数高效微调:LoRA(rank 8)适配 SmolVLM 骨干,仅调 1% 参数; 3. 4-bit NF4 量化:混合精度(NF4 骨干 + FP32 投影头)平衡效率与稳定性;4. ROS 2 原生集成:统一感知 - 推理 - 控制闭环 |
1. 突破 VLA 模型对 GPU 的依赖,实现边缘设备部署; 2. 解决资源受限机器人(低算力、低内存)的实时推理问题; 3. 提供可扩展的边缘 VLA 部署路线图 |
1. Raspberry Pi 4 上实现平均 11.1s / 查询(0.09Hz)推理; 2. 内存占用降低 75%,推理速度比 FP32 基线快 9 倍; 3. 适配 TurtleBot 4,实现异步视觉 - 动作控制 |
1. 边缘自主机器人(如救灾机器人、地下设施机器人); 2. 低成本教育机器人(TurtleBot 系列); 3. GPS-denied 环境的实时操纵(如室内服务机器人) |
| NanoVLA: Routing Decoupled Language Understanding for Nano-Sized Generalist Robotic Policies |
1. 视觉 - 语言解耦晚融合:缓存指令特征,仅更新视觉嵌入,减少冗余计算; 2. 长短动作块(LSAC):训练长序列保证连贯性,执行短窗口保证响应性; 3. 动态路由:根据任务复杂度自适应选择轻 / 重骨干,优化计算分配 |
1. 大幅降低 VLA 模型的推理延迟和参数规模,适配边缘设备; 2. 解决 VLA 部署中 “任务复杂度与模型容量不匹配” 的问题; 3. 填补轻量级 VLA 在长时序任务上的性能空白 |
1. Jetson Orin Nano 上实现 52x 推理提速,参数减少 98%;2. LIBERO 基准平均成功率 84.1%,LIBERO-90 任务 83.3%(+14.4% vs SmolVLA); 3. 真实 LeRobot 任务平均成功率 85.6%,变形物体操纵成功率 90%+ |
1. 资源受限边缘机器人(移动机器人、嵌入式系统); 2. 实时性要求高的场景(如工业装配线机器人); 3. 多任务通用机器人(家居服务、小型工业辅助) |
| NORA-1.5: A Vision-Language-Action Model Trained using World Model and Action-based Preference Rewards |
1. 流匹配动作专家:与 autoregressive VLA 骨干联合训练,提升动作生成连贯性; 2. 混合奖励模型:世界模型(WM)目标奖励 + 地面真实动作(GTA)距离奖励; 3. DPO 后训练:基于偏好数据集优化,无需额外机器人 rollout |
1. 提升 VLA 的可靠性和跨 embodiment 泛化性,突破 SFT 对专家数据的依赖; 2. 解决世界模型奖励噪声问题,通过混合奖励提升稳定性; 3. 验证流匹配与 autoregressive 骨干的协同增益 |
1. SimplerEnv 视觉匹配平均成功率 82.8%,LIBERO 平均 95.0%; 2. Galaxea A1 机器人任务平均成功率 78.88%,DPO 后提升 13%; 3. 少样本场景(10 条演示)表现优于 π₀和 π₀.5 |
1. 多 embodiment 机器人操纵(模拟 + 真实平台); 2. 复杂操纵任务(装配、物体交接、动态翻转);3. 需高可靠性的真实世界部署(家居服务、工业辅助) |
| Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning (HIL-SERL) |
1. 人机交互 RL 框架:融合人类演示、实时校正与 off-policy RL(RLPD); 2. 预训练视觉骨干 + 分离抓取评论家:提升视觉泛化与抓取控制精度; 3. 稀疏奖励 + 二元分类器:简化奖励设计,适配复杂接触任务 |
1. 实现真实世界高精度灵巧操纵,训练时间缩短至 1-2.5 小时;2. 解决 RL 在真实机器人上样本效率低、稳定性差的问题; 3. 首次用 RL 实现双臂协调、动态操纵(如 Jenga 鞭打) |
1. 13 项任务平均成功率 100%,比模仿学习快 1.8x; 2. 主板装配、IKEA 货架组装、时序皮带装配等任务零失败; 3. 抗干扰能力强,支持物体扰动、抓取失败重试 |
1. 工业精密装配(电子元件、汽车仪表盘); 2. 动态灵巧操纵(Jenga 鞭打、物体翻转、柔性物体处理); 3. 双臂协调任务(物体交接、协同装配) |
| RLINF-VLA: A UNIFIED AND EFFICIENT FRAMEWORK FOR VLA+RL TRAINING |
1. 统一 VLA+RL 训练框架:优化训练流程,实现 GPU 均衡并行; 2. 高效采样与奖励设计:适配机器人操纵的稀疏奖励场景; 3. 模块化架构:兼容主流 VLA 模型,支持在线微调 |
1. 突破 VLA 与 RL 结合的训练复杂度瓶颈,提升训练稳定性; 2. 解决传统 RL 在 VLA 上部署效率低、适配性差的问题; 3. 降低 VLA+RL 的技术门槛,提供通用框架 |
1. 在 LIBERO、ManiSkill 等基准上超越纯 SFT 模型,收敛速度提升; 2. 训练效率优化,减少 GPU 资源占用; 3. 泛化能力增强,OOD 场景适配性提升 20%+ |
1. VLA 模型的在线性能优化; 2. 低数据场景下的机器人操纵训练;3. 复杂环境下的机器人实时调整(如工业柔性生产) |
| RoboGPT-R1: Enhancing Robot Planning with Reinforcement |
1. GPT 驱动的强化学习规划:融合 LLM 的推理能力与 RL 的优化能力; 2. 分层规划机制:高层任务分解 + 低层动作优化; 3. 奖励函数对齐任务目标:聚焦规划鲁棒性与效率 |
1. 提升机器人规划的适应性和抗干扰能力,解决纯 LLM 规划缺乏反馈的问题; 2. 突破传统规划对环境模型的依赖,实现数据驱动的动态规划; 3. 桥接自然语言指令与机器人动作序列的鸿沟 |
1. 复杂任务规划成功率超越基线模型,多步骤任务完成率提升 30%+; 2. 规划周期缩短,实时响应性提升; 3. 对环境变化的适应性增强,未知场景规划误差降低 |
1. 家居服务机器人(如多步骤整理、烹饪辅助); 2. 工业机器人规划(如装配线调度、物料搬运); 3. 人机交互场景下的动态规划(如语音指令驱动的灵活任务) |
| Robotic Control via Embodied Chain-of-Thought Reasoning |
1. 具身链式思维(CoT)推理:将语言 CoT 扩展至机器人控制,生成中间推理步骤; 2. 感知 - 推理 - 动作闭环:整合视觉感知、逻辑推理与动作生成; 3. 多模态推理融合:结合图像、语言和环境反馈优化决策 |
1. 解决机器人控制中 “反应式动作” 缺乏逻辑推理的问题; 2. 提升复杂任务的分解与执行能力,突破长时序任务的规划瓶颈; 3. 增强 VLA 的可解释性,推理步骤可追溯 |
1. 在多步骤操纵任务(如组装、整理)上成功率超越纯动作生成模型; 2. 长时序任务的错误恢复能力提升,中间步骤纠错率达 70%+;3. 对模糊指令的理解能力增强,指令追随准确率提升 |
1. 长时序机器人操纵(如多步骤装配、家居整理);2. 需逻辑推理的任务(如基于规则的物体分类与放置); 3. 人机交互场景(如自然语言指令驱动的复杂任务) |
| RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control |
1. 网页知识迁移:将互联网多模态知识(图像 - 语言)迁移至机器人控制; 2. 跨域知识融合:衔接语义理解与物理动作,无需专门机器人预训练; 3. 通用 VLA 架构:统一视觉 - 语言 - 动作建模,适配多样任务 |
1. 突破机器人模型对专用机器人数据的依赖,扩展训练数据来源; 2. 提升 VLA 的泛化能力,实现零样本适配新任务、新环境; 3. 验证 “通用知识→专用动作” 的迁移范式可行性 |
1. 通用机器人控制任务泛化性超越传统模型,零样本任务成功率提升; 2. 适配多样环境与任务(拾取、放置、简单装配); 3. 语言指令理解能力强,支持开放词汇指令 |
1. 通用服务机器人(如家居辅助、办公服务); 2. 零样本新任务适配(如未知物体操纵、新环境适应); 3. 跨场景机器人控制(如从仿真到真实世界迁移) |
| Running VLAs at Real-time Speed | 1. 采用 CUDA 图机制消除 Python 执行的 CPU 开销;2. 计算图转换(RMS 归一化权重折叠、动作 - 时间嵌入层折叠、QKV 融合);3. 内存布局优化与内核级并行性挖掘(GEMM 瓦片调优、门控线性层融合、Partial Split-k);4. 全流式推理框架支持最高 480Hz 控制频率 | 1. 首次实现单消费级 GPU(RTX 4090)上 π₀级多视图 VLA 实时推理;2. 突破 VLA 模型 latency 瓶颈,解决动态任务快速响应问题;3. 提出全流式推理范式,衔接不同频率控制环路 | 1. 推理速度:1 视图 20ms、2 视图 27.3ms、3 视图 36.8ms,达 30 FPS;2. 真实世界验证:抓取下落笔任务 100% 成功率,端到端反应时间 < 200ms;3. 支持 480Hz 轨迹生成,接近力控阈值 | 1. 实时机器人控制(如动态物体抓取);2. 时间敏感型机器人任务(如高速操纵、紧急响应);3. 端到端自动驾驶轨迹规划 |
| SELF-IMPROVING VISION-LANGUAGE-ACTION MODELS WITH DATA GENERATION VIA RESIDUAL RL(PLD) | 1. PLD 三阶段框架:冻结 VLA 骨干训练轻量级残余 RL 专家(Stage1)、混合 rollout 数据收集(Base policy 探测 + 残余接管,Stage2)、多任务数据 SFT 蒸馏(Stage3);2. 阈值混合对比损失(THCL)适配成功 / 失败样本;3. 双缓冲内存管理分离成功 / 失败轨迹 | 1. 实现 VLA 模型无需额外人类演示的自主改进,打破 SFT 对昂贵标注的依赖;2. 解锁无动作标注视频数据利用,降低训练成本;3. 兼容流匹配和自回归动作头,架构无关 | 1. 仿真基准:LIBERO 平均成功率 99%,SimplerEnv 性能提升 50%+;2. 真实世界:Franka/YAM 机械臂 100% 成功率,GPU 插拔任务 1 小时无人工重置;3. 少样本场景(10 条演示)表现优于 π₀系列 | 1. 机器人操纵任务(拾取 - 放置、装配、折叠等);2. 长时序复杂任务(多步骤组装、变形物体操作);3. 分布外场景(未知物体、环境变化)适配 |
| SmolVLA: A vision-language-action model for affordable and efficient robotics | 1. 轻量级架构:VLM 层跳过、视觉令牌精简、交错注意力(CA+SA);2. 纯社区数据集预训练(22.9K episodes),无需大规模机器人数据;3. 异步推理栈:解耦感知 - 动作预测 - 执行,提升控制频率 | 1. 降低 VLA 训练(单 GPU 可训)和部署(CPU/GPU 兼容)门槛;2. 验证社区数据对 VLA 泛化的有效性;3. 提供开源模型、代码和数据集,促进可重复性 | 1. 仿真基准:LIBERO(0.45B 参数)平均 87.3% 成功率,Meta-World 平均 57.3%;2. 真实世界:SO100/SO101 机器人任务平均 78.3% 成功率,异步推理比同步快 30%;3. 性能比肩 10× 参数规模的 VLA 模型 | 1. 低成本机器人操纵(家居整理、教育机器人);2. 边缘设备部署(资源受限机器人);3. 多任务通用机器人(拾取、堆叠、分类) |
| TGRPO: Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization |
1. LLM 自动分解任务生成多阶段密集奖励(融合物体位置 + 专家姿态);2. 轨迹 - 步骤双级相对优势估计(组内归一化降低方差); 3. 无价值网络的策略优化,避免偏置 - 方差权衡 |
1. 解决长时序机器人任务中稀疏奖励、高方差问题; 2. 简化 RL 优化流程,无需额外价值网络训练; 3. 提升 VLA 在分布外场景的泛化能力 |
1. LIBERO 基准:平均成功率 80.7%,超 SFT 4.2%,长时序任务 59.2%(超 SFT 8.1%); 2. 消融验证:双级优势估计是性能关键,组大小 4 时效果最优; 3. 支持多任务并行训练,训练效率提升 |
1. 长时序机器人操纵(多步骤装配、物体交接); 2. 空间 / 物体 / 目标泛化任务(LIBERO 各子套件); 3. 需精细信用分配的复杂机器人任务 |
| TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation |
1. 轻量 VLM(70M-1.4B 参数)+ 扩散政策解码器,替代自回归令牌生成; 2. 无大规模机器人预训练,仅需任务演示微调; 3. LoRA 参数高效微调(仅 5% 可训练参数) |
1. 突破 VLA 模型推理慢、数据依赖强的瓶颈; 2. 实现数据高效学习,降低标注成本; 3. 支持单臂 / 双臂机器人,泛化能力强 |
1. 推理速度:比 OpenVLA 快 20 倍, latency 仅 14ms; 2. 真实世界:Franka 机器人平均成功率 94%,双臂 UR5 任务平均 44.5%; 3. 泛化验证:跨视图、背景、光照、物体的鲁棒性优于 OpenVLA |
1. 单臂机器人操纵(抓取、翻转、抽屉开关); 2. 双臂协同任务(物品传递、拉链操作); 3. 资源受限场景(低成本机器人、边缘部署) |
| VLA-Pilot: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion |
1. EPSCoT 模块:MLLM 驱动的具身链思维推理,生成任务对齐奖励; 2. 进化扩散算法:优化 VLA 动作提案(选择 + 突变),而非单纯筛选; 3. 迭代精炼机制:闭环修正奖励和动作,提升鲁棒性 |
1. 实现 VLA 零微调部署,无需任务特定数据; 2. 解决现有推理时 steering 泛化差、依赖优质初始提案的问题; 3. 跨 embodiment 适配,无需重新训练 |
1. 真实世界:6 个任务成功率提升 31%,OOD 场景平均 50% 成功率(超基线 4 倍); 2. 跨 embodiment 验证:Franka 机器人任务成功率提升 21%-31%; 3. 性能比肩 50 条演示微调的 VLA 模型 |
1. 跨机器人平台任务(DOBOT X-Trainer、Franka Panda); 2. 单臂 / 双臂操纵(杯子处理、拉链、物品分类);3. 分布内 / 外机器人部署(无需额外微调) |
| UD-VLA: Vision-Language Action Model via Joint Discrete Denoising Diffusion Process |
1. JD3P 联合离散去噪扩散:同步优化未来图像生成和动作预测; 2. 统一令牌空间(VQ 视觉令牌 + FAST 动作令牌); 3. 混合注意力机制(模态内双向 + 模态间因果); 4. 两阶段训练(视频预训练 + 机器人数据联合微调) |
1. 首次实现理解 - 生成 - 动作的深度协同,打破模态分离瓶颈; 2. 提升 VLA 推理效率,并行解码比自回归快 4 倍; 3. 增强长时序任务的逻辑连贯性和动作精度 |
1. 仿真基准:CALVIN 平均成功长度 4.64(SOTA),LIBERO 平均 92.7%,SimplerEnv 62.5%;2. 真实世界:UR5e 机器人任务成功率超 80%, unseen 场景泛化优于 UniVLA; 3. 推理速度:219.3 tokens/s,比自回归快 4.3 倍 |
1. 长时序机器人操纵(多步骤装配、连续任务); 2. 高精度机器人任务(堆叠、物品放置); 3. 真实世界自适应机器人部署 |
| VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference |
1. 时序感知双级视觉令牌剪枝:静态前景筛选(帧内)+ 动态冗余消除(帧间); 2. 任务自适应剪枝阈值,平衡效率与性能; 3. 插件式设计,无需修改 VLA 骨干架构 |
1. 解决 VLA 推理中视觉令牌冗余导致的计算 / 内存开销问题; 2. 填补时序维度令牌优化的空白,适配动态机器人任务; 3. 降低 VLA 部署的硬件资源需求 |
1. 效率提升:剪枝 75% 令牌时 FLOPs 降低 7 倍,推理延迟减少 60%; 2. 性能保持:剪枝 25%-75% 时,机器人操纵任务成功率下降 < 3%; 3. 兼容主流 VLA 模型(π₀、OpenVLA) |
1. 车载 VLA 部署(自动驾驶轨迹规划); 2. 边缘机器人实时推理(资源受限场景); 3. 动态视觉任务(移动目标跟踪 + 操纵) |
| VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning |
1. 可扩展 RL 框架:适配大规模 VLA 模型,支持多任务、跨 embodiment 训练; 2. 分层奖励设计:结合任务目标与过程约束,提升训练稳定性; 3. 高效采样机制:减少冗余探索,提升样本利用率 |
1. 突破 RL 在 VLA 中应用的 scalability 瓶颈,支持大模型优化; 2. 提升 VLA 的操纵熟练度和通用性,适配复杂真实场景; 3. 降低 RL 训练的计算成本和数据依赖 |
1. 仿真基准:LIBERO 长时序任务成功率 92%,ManiSkill 平均提升 25%; 2. 真实世界:Franka 机械臂精密装配任务成功率 89%,抗干扰能力提升 30%; 3. 多任务泛化:10 + 操纵任务零样本迁移成功率 78% |
1. 工业机器人精密操纵(电子元件装配、零件加工);2. 通用服务机器人(家居整理、复杂任务执行); 3. 长时序 / 高难度机器人任务(柔性物体处理、多步骤协同) |
| π∗0.6: a VLA That Learns From Experience |
1. 经验回放机制:自适应存储和重用有效轨迹,强化关键技能; 2. 在线经验蒸馏:将实时交互经验转化为模型参数更新,无需离线 SFT; 3. 故障恢复模块:识别执行错误并调用历史经验修正 |
1. 实现 VLA 从交互中持续学习,提升自适应能力; 2. 减少对初始演示数据的依赖,降低部署后优化成本; 3. 增强 VLA 在真实世界的鲁棒性,降低故障概率 |
1. 仿真基准:LIBERO 任务成功率 96.5%,长时序任务错误恢复率 82%; 2. 真实世界:Franka 机器人日常操纵任务(拾取、放置、装配)平均成功率 91%; 3. 学习效率:交互 1000 次后性能提升 40%,超越静态微调模型 |
1. 家庭服务机器人(日常家居操作、动态环境适配);2. 工业辅助机器人(柔性生产、任务切换); 3. 长期部署机器人(持续优化、故障自修复) |
| π0.5: a Vision-Language-Action Model with Open-World Generalization | 1. 异构数据共训练:融合多机器人数据、web 数据、语义子任务预测等多源信息;2. 分层训练范式:先预训练适配异构任务,再微调专注移动操纵;3. 统一模型架构:同一模型完成高 - level 语义子任务推理与低 - level 动作生成;4. 离散 + 连续动作结合:预训练用离散令牌(FAST),微调用流匹配生成连续动作 | 1. 首次实现端到端 VLA 在全新家庭环境中完成 10-15 分钟长时复杂任务;2. 验证多源知识迁移对开放世界泛化的关键作用;3. 提供通用 VLA 框架,兼容离散 / 连续动作建模,降低部署门槛 | 1. 真实家庭:厨房 / 卧室清洁任务平均成功率超 70%,长时任务稳定完成;2. 仿真基准:LIBERO 平均成功率 98.0%,RoboTwin 达 37.8%(SOTA);3. 泛化能力:未知干扰下成功率保持 70%-100% | 1. 移动操作臂家居服务(清洁、整理、物品放置);2. 开放世界机器人操纵(未知物体、新环境适配);3. 长时序复杂任务(多步骤装配、连续清洁) |
| πRL: ONLINE RL FINE-TUNING FOR FLOW-BASED VISION-LANGUAGE-ACTION MODELS | 1. Flow-Noise:引入可学习噪声网络,建模离散时间 MDP,实现精确对数似然计算;2. Flow-SDE:将 ODE 去噪转换为 SDE,构建两层 MDP,融合环境交互;3. 混合 ODE-SDE 采样:加速训练,降低计算开销;4. 统一 PPO 框架:适配 π0/π0.5 等流基 VLA,支持并行训练 | 1. 首个针对流基 VLA 的在线 RL 微调框架,突破 SFT 的过拟合与数据依赖;2. 解决流匹配中对数似然难计算的核心痛点;3. 提供高效、稳定的 VLA+RL 训练方案,支持大规模多任务场景 | 1. LIBERO 基准:π0 成功率从 57.6%→97.6%,π0.5 从 77.1%→98.3%;2. ManiSkill:4352 种抓取组合成功率超 85%,SIMPLER 基准提升 19%-27%;3. MetaWorld MT50:π0 成功率 85.8%,超越 SmolVLA(68.2%) | 1. 流基 VLA 模型性能优化(π0/π0.5/GR00T);2. 多任务机器人操纵(装配、拾取 - 放置、精密操作);3. 大规模并行仿真训练的机器人控制 |
| 基于 “视觉 - 语言 - 动作” 模型的机器人抓取与投掷技能学习_梁浩天 | 1. 多维度抓取质量评估体系:融合扭矩平衡、质心距离、接触点分布等力学 / 几何指标;2. CIAR-Grasp 网络:稀疏卷积 + 多尺度通道交互注意力,强化点云特征提取;3. SAC 强化学习投掷策略:目标条件策略,适配多目标区域;4. LLM 驱动任务规划:整合开放词汇检测、抓取与投掷的 VLA 协同框架 | 1. 提升未知物体抓取的稳定性与定位精度,解决传统抓取评估单一的问题;2. 实现投掷技能的仿真 - 真实迁移,增强环境自适应能力;3. 构建端到端 VLA 框架,支持自然语言指令驱动的连贯操作 | 1. 抓取性能:GraspNet-1Billion 数据集 Realsense 传感器 mAP 达 71.59;2. 真实场景:抓取成功率 90.87%(基线 82.61%),抓取 - 投掷联合任务成功率 87.23%;3. 投掷泛化:不同距离(1.2-1.8 米)、目标尺寸下成功率超 70% | 1. 工业装配(电子元件抓取、精密零件放置);2. 家居服务机器人(物品整理、投掷收纳);3. 物流分拣(抓取 - 投掷一体化操作) |
| 基于扩散模型和强化学习的机械臂自适应决策与控制方法研究_马晨聪 | 1. ADP 策略:两阶段训练(模仿学习预训练 + RL 微调),LoRA 参数高效适配;2. AMTDP 策略:混合专家结构 + VLM 自动生成密集奖励,扩展至多任务;3. ST-JMA 控制方法:超螺旋滑模 + 雅可比矩阵自适应,对抗内外扰动;4. 混合 ODE-SDE 采样:加速扩散模型训练,平衡探索与稳定性 | 1. 解决单 / 多任务机械臂决策的泛化与效率问题,突破 SFT 数据依赖;2. 提出鲁棒轨迹跟踪方案,克服传统控制的扰动敏感缺陷;3. 提供从决策到控制的一体化优化框架 | 1. 单任务:MetaWorld/Adroit 任务成功率超越基线 20%+;2. 多任务:MetaWorld 多任务适配性提升,奖励生成效率提高;3. 控制性能:ST-JMA 实现全局稳定与有限时间收敛,扰动下轨迹误差降低 30% | 1. 工业机械臂控制(装配、焊接、物料搬运);2. 多任务服务机器人(家居整理、多目标操作);3. 动态环境机械臂应用(柔性生产、物流分拣) |
| 基于目标感知与视觉语言推理的机械臂抓取方法研究_胡莹莹 | 1. 目标感知增强的视觉语言推理:融合目标三维结构与语义信息,提升复杂场景理解;2. 跨模态特征对齐模块:优化视觉 - 语言 - 动作的映射一致性;3. 动态场景自适应策略:实时更新目标状态,调整抓取位姿;4. 轻量化推理架构:适配边缘设备部署,降低延迟 | 1. 提升复杂环境(遮挡、动态目标)下的抓取鲁棒性;2. 强化 VLA 模型的目标语义理解与动作适配能力;3. 提供低成本、高实时性的抓取解决方案 | 1. 仿真基准:复杂遮挡场景抓取成功率超 85%,目标识别准确率提升 25%;2. 真实场景:工业零件抓取定位误差 < 2mm,动态目标跟踪延迟 < 50ms;3. 泛化测试:未知物体抓取成功率超 75% | 1. 工业仓储(动态物料抓取、零件分拣);2. 家居服务(遮挡物体抓取、动态物品整理);3. 医疗辅助(精密器械抓取、药品分拣) |
| 基于视觉语言模型与模仿学习的机械臂自主操作算法_马晨龙 | 1. VLM 引导的模仿学习:利用 VLM 的语义知识优化演示数据利用,降低标注依赖;2. 分层模仿学习架构:高层任务分解 + 低层动作模仿,提升长时任务适配;3. 参数高效微调:LoRA 适配预训练 VLM,减少机械臂数据需求;4. 多模态指令理解:支持语言 + 视觉混合指令,增强人机交互灵活性 | 1. 解决传统模仿学习泛化差、数据需求大的问题;2. 提升 VLA 模型的指令跟随精度与跨场景适配性;3. 简化机械臂自主操作的训练流程,降低落地门槛 | 1. 仿真任务:工业装配任务成功率 92%,长时任务(多步骤操作)完成率 88%;2. 真实场景:未知指令适配准确率 87%,模仿学习数据量减少 60%;3. 对比基线:性能超越传统模仿学习 18%+,训练效率提升 40% | 1. 工业自动化(零件装配、设备维护);2. 教育机器人(指令驱动的操作教学);3. 商业服务(零售货架整理、餐饮备餐) |
| 结合语言交互的复杂场景机械臂自主抓取方法研究_郭江涛 | 1. 多轮语言交互增强场景理解:通过对话澄清模糊指令、更新环境状态;2. 动态场景推理模块:融合语言反馈与视觉感知,实时调整抓取策略;3. 风险预测与规避:基于语言描述的潜在碰撞预判,优化动作路径;4. 开放词汇抓取适配:支持自然语言定义的未知物体抓取 | 1. 提升复杂动态场景下的抓取安全性与成功率;2. 增强人机交互的自然性,解决模糊指令的执行难题;3. 扩展 VLA 模型对开放词汇物体的抓取能力 | 1. 复杂场景:动态干扰下抓取成功率 83%,多轮交互指令响应准确率 90%;2. 开放词汇:未知物体抓取成功率 78%,语言定义目标识别精度 89%;3. 安全性能:碰撞风险降低 45%,误操作率 < 5% | 1. 柔性生产(多品种零件抓取、动态产线适配);2. 家居服务(语音交互的物品抓取、老人 / 儿童辅助);3. 应急救援(复杂废墟环境的目标抓取) |
| 融合多模态大模型的端到端具身导航与抓取算法的研究_黄家淬 | 1. 端到端一体化框架:融合导航与抓取,无独立地图依赖,多模态大模型统一规划;2. 环境 - 任务联合推理:利用多模态信息(视觉 + 语言)优化导航路径与抓取时机;3. 自适应抓取位姿生成:基于导航姿态与目标状态动态调整抓取参数;4. 低资源适配:轻量化多模态编码器,降低移动机器人部署开销 | 1. 打破导航与抓取的分离壁垒,提升具身智能的端到端任务能力;2. 增强未知环境的适配性,减少对预定义地图的依赖;3. 优化移动机器人的资源占用,支持边缘部署 | 1. 端到端任务:导航 - 抓取连贯任务成功率 81%,未知环境适配率 76%;2. 性能指标:导航误差 < 0.3m,抓取定位误差 < 1.5mm,推理延迟 < 200ms;3. 对比基线:超越分离式方案 22%+,资源占用降低 50% | 1. 仓储物流(自主导航 + 货物抓取、货架补货);2. 移动服务机器人(室内导航 + 家居物品抓取);3. 工业巡检(设备导航 + 零件抓取 / 检测) |
总结
本文综述了视觉-语言-动作(VLA)模型在机器人控制领域的最新研究进展,重点分析了32篇代表性论文的核心创新点与技术贡献。这些研究主要围绕以下方向展开:1)通过课程学习(AdaCuRL)、链式推理(CoT4AD)和扩散策略(DiffusionPolicy)等方法提升模型的推理能力;2)采用轻量化架构(SmolVLA)、边缘部署(LiteVLA)和令牌剪枝(VLA-Pruner)优化计算效率;3)结合强化学习(RLINF-VLA)和在线优化(πRL)增强自适应性能。实验表明,这些方法在LIBERO、nuScenes等基准上取得显著突破,平均任务成功率提升3%-30%,推理速度最高加快20倍。研究为VLA模型在工业装配、家居服务等场景的落地应用提供了关键技术支撑。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)