【论文自动阅读】SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulat
正常总结:本文提出SemanticVLA框架,通过“语义对齐的稀疏化与增强”解决现有VLA模型在机器人操作中的感知冗余(低效处理无关视觉输入)和指令-视觉对齐浅层(阻碍动作语义接地)问题;框架包含SD-Pruner(语义引导双视觉剪枝)、SH-Fuser(语义互补分层融合)、SA-Coupler(语义条件动作耦合)三大模块,在LIBERO模拟基准和AgileX真实机器人平台上验证,性能(如LIBE
1. 题目
SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation
2. 时间、机构
- 时间:2025年11月
- 机构:HIT Shenzhen (Harbin Institute of Technology, Shenzhen)、Huawei Noah’s Ark Lab
3. 3个关键词(仅英文)
Vision-Language-Action (VLA)、Robotic Manipulation、Semantic-Aligned Sparsification
4. 总结
- 正常总结:本文提出SemanticVLA框架,通过“语义对齐的稀疏化与增强”解决现有VLA模型在机器人操作中的感知冗余(低效处理无关视觉输入)和指令-视觉对齐浅层(阻碍动作语义接地)问题;框架包含SD-Pruner(语义引导双视觉剪枝)、SH-Fuser(语义互补分层融合)、SA-Coupler(语义条件动作耦合)三大模块,在LIBERO模拟基准和AgileX真实机器人平台上验证,性能(如LIBERO总体成功率97.7%)和效率(训练成本降3.0×、推理延迟降2.7×)均达SOTA。
- 通俗总结:之前机器人用的VLA模型会浪费算力处理没用的背景视觉信息,还没法深度理解“指令和看到的东西”的关联,导致干活不准又慢。这篇论文搞了个SemanticVLA框架,能挑出和任务相关的视觉信息、把指令和视觉更好结合,还能更高效地把“看到的”转成“该做的动作”,最终让机器人干活更准(比如真实任务成功率77.8%)、更快、训练和运行成本还更低。
6. 作者的研究目标是什么?
解决现有Vision-Language-Action(VLA)模型在机器人操作实际部署中的两大核心局限——感知冗余(低效处理无关视觉输入)与指令-视觉语义对齐浅层(阻碍动作的语义接地),构建兼具高性能、高效率与可解释性的VLA框架,实现高效的机器人操作任务。
7. 作者需要解决的问题是什么?
- 视觉感知冗余问题:现有VLA框架采用与指令无关的通用视觉编码器(如ViT、DINOv2),均匀处理所有像素,无法区分“任务相关视觉信息”与“背景干扰、无关目标、环境噪声”,导致计算成本过高、注意力被稀释,遗漏任务关键线索。
- 指令-视觉语义对齐浅层问题:多数VLA模型仅依赖与大语言模型(LLM)的通用跨模态对齐,无法捕捉机器人操作特有的复杂语义关系(如全局动作逻辑、局部目标锚点、指令与空间布局的关联),难以实现精细的视觉组合性理解,限制动作的语义接地能力。
8. 作者解决问题的方法/算法是什么?是否基于前人方法?基于了哪些?
解决方法:提出SemanticVLA框架,包含三大核心模块
- 语义引导双视觉剪枝器(SD-Pruner):针对“感知冗余”,分两路剪枝冗余视觉特征
- 指令驱动剪枝器(ID-Pruner):基于SigLIP模型,计算“指令-图像跨模态余弦相似度”,通过“视觉到语言映射”提取全局动作线索、“语言到视觉过滤”保留局部语义锚点,实现指令感知的稀疏化;
- 空间聚合剪枝器(SA-Pruner):基于DINOv2模型,将密集几何特征聚合为任务适配令牌,通过FiLM(Feature-wise Linear Modulation)层注入指令相关性,补充SigLIP的语义信息。
- 语义互补分层融合器(SH-Fuser):针对“语义对齐浅层”,实现跨编码器特征融合
- 密集融合(Dense-Fuser):在SigLIP与DINOv2的浅层、中层、深层Transformer块间交换补丁级特征,让“语义信息”与“几何信息”早期协同;
- 稀疏融合(Sparse-Fuser):合并ID-Pruner的语义令牌与SA-Pruner的几何令牌,生成“语义接地+几何精准”的统一表示。
- 语义条件动作耦合器(SA-Coupler):优化“感知到动作的映射”
替代传统“观测→自由度(DoF)”的直接映射,将感知表示显式映射到“平移、旋转、夹爪控制”三类语义动作类型,通过模块化预测头回归连续动作参数,提升动作解码的效率与可解释性。
是否基于前人方法?基于了哪些?
是,核心依赖以下前人方法与模型:
- 视觉-语言预训练模型:SigLIP(用于指令与视觉的语义接地)、DINOv2(用于提取空间几何特征);
- 特征调制技术:FiLM(Feature-wise Linear Modulation,用于SA-Pruner中注入指令相关性);
- 高效微调策略:LoRA(Low-Rank Adaptation,用于模型训练时降低参数更新成本);
- 基线与对比方法:参考OpenVLA、PD-VLA、π₀等VLA模型的架构设计,以及FastV、SliME等稀疏化方法作为性能对比基准。
9. 作者如何评估自己的方法?实验的setup是什么样的?实验数据和结果有哪些?有没有问题或者可以借鉴的地方?
一、评估方法
从“性能”(任务成功率)与“效率”(计算成本、推理延迟、吞吐量)两维度,在模拟场景与真实场景中对比SOTA基线模型,同时通过消融实验验证核心模块的有效性。
二、实验Setup
- 硬件环境:8×NVIDIA A800(80GB)GPU;
- 模拟实验:基于LIBERO基准(机器人操作终身学习基准),含4个任务套件(各500个人工遥控演示):
- Spatial:空间推理(如识别物体相对位置);
- Object:目标泛化(如选择特定物体);
- Goal:动作序列(如放置、开门);
- Long:长 horizon 任务(混合空间/目标/物体需求);
- 真实实验:基于AgileX Cobot Magic机器人平台(双机械臂+RGB-D传感器),测试4类任务(各60-105个人工演示):物体放置、抽屉操作、T恤折叠、多属性目标抓取;
- 基线对比:OpenVLA、OpenVLA-OFT(OpenVLA加速版)、PD-VLA、π₀、Octo、STAR等SOTA VLA模型;
- 训练配置:采用LoRA微调(rank=32/64),动作块大小K=8(模拟)/25(真实),学习率5e-4(余弦衰减至1e-5), batch size=64/128。
三、实验数据和结果
- 模拟性能(LIBERO基准)
- SemanticVLA总体成功率97.7%(排名1),远超OpenVLA(76.5%)21.1%,在4个套件中均排名1(Spatial 98.6%、Object 99.6%、Goal 97.6%、Long 94.8%);
- 轻量版SemanticVLA-Lite(16×视觉压缩)仍达95.8%成功率(排名3),性能优于多数基线。
- 效率指标
- 视觉令牌压缩:仅用OpenVLA的1/8(32 tokens)或1/16(16 tokens);
- 训练成本:比OpenVLA降低3.0×(3.9 h vs 11.7 h);
- 推理延迟:比OpenVLA降低2.7×(0.089 s vs 0.240 s);
- 吞吐量:SemanticVLA达89.9 Hz,是OpenVLA(4.2 Hz)的21倍。
- 真实场景性能
- 在AgileX平台上总体成功率77.8%,超过OpenVLA-OFT(55.6%)22.2%,尤其在T恤折叠(Step 3成功率8.0/10)、多属性抓取(橙色大立方体放置成功率12/15)等复杂任务中优势显著;
- ALOHA双臂场景中,SA-Coupler将动作令牌从350减至150,大幅降低推理开销。
- 消融实验
- SD-Pruner有效性:ID-Pruner(SigLIP)+SA-Pruner(DINOv2)组合的总体成功率97.1%,比单一剪枝器(如仅ID-Pruner 91.9%)高5.2%;
- 稀疏化比率:8×压缩时性能最佳(97.7%),32×压缩因丢失关键语义导致性能降至92.0%;
- SH-Fuser+SA-Coupler:两者协同提升总体成功率3.5%(97.1% vs 93.6%),长horizon任务提升最显著(Long套件93.8% vs 88.6%)。
四、问题与可借鉴之处
- 存在问题
- 未引入“主动感知”或“记忆机制”,对“部分可观测场景”(如物体遮挡持续变化)或“超长期任务”(如多步装配)的适配性不足;
- 语言理解局限于“单句指令”,未验证“对话式指令”“修正反馈”等开放世界交互场景的鲁棒性。
- 可借鉴之处
- 语义对齐的稀疏化思路:针对不同编码器(SigLIP语义、DINOv2几何)设计专用剪枝策略,平衡“压缩率”与“关键信息保留”;
- 分层融合设计:早期密集融合+晚期稀疏融合,实现“语义-几何”信息的深度协同,避免传统“晚期拼接”的信息损失;
- 动作模块化建模:将7-DoF动作拆分为“平移/旋转/夹爪”三类语义类型,提升可解释性,为机器人动作调试提供直观依据;
- 模拟+真实双场景验证:确保方法从实验室到实际部署的泛化性,降低落地风险。
10. 作者给出了哪些结论?哪些是strong conclusions, 哪些又是weak的conclusions?
一、总体结论
SemanticVLA通过“语义对齐的稀疏化与增强”设计,有效解决了VLA模型的感知冗余与指令-视觉对齐问题,在机器人操作任务中实现“性能-效率”双提升,为高效 embodied 智能提供新范式。
二、Strong Conclusions(有明确实验证据支持)
- 核心模块有效性:SD-Pruner、SH-Fuser、SA-Coupler三者协同,是性能与效率提升的关键——消融实验显示,缺失任一模块会导致总体成功率下降2.5%-5.2%,且效率指标显著退化(如无SH-Fuser时FLOPs增加40%)。
- 性能SOTA:SemanticVLA在LIBERO模拟基准(总体97.7%)与AgileX真实场景(总体77.8%)中均排名1,且显著超越OpenVLA、π₀等主流VLA模型(性能差距21.1%-22.2%)。
- 效率优势显著:在保持高性能的同时,SemanticVLA将训练成本降低3.0×、推理延迟降低2.7×,视觉令牌压缩率达1/8-1/16,且效率优于同压缩级别的FastV、SliME(如8×压缩时,SemanticVLA成功率97.7%,FastV仅88.8%)。
- 稀疏化比率最优解:8×视觉压缩是“性能-效率”的最佳平衡点——既保持97.7%的高成功率,又实现FLOPs(2.37 T)、训练成本(3.9 h)的大幅降低;16×压缩虽效率更高,但成功率下降1.9%,32×压缩则因语义丢失导致性能骤降5.7%。
三、Weak Conclusions(无充分实验证据或仅为讨论/展望)
- 未来扩展方向:作者提出“结合强化学习/元学习实现自适应动作预测”“加入视觉记忆支持超长期任务”“整合对话式指令接地”,但未提供任何实验验证,仅为理论设想。
- 极端场景鲁棒性:论文未测试“恶劣光照”“动态障碍物”“多机器人协作”等复杂场景,仅在“受控的模拟/实验室环境”中验证,无法确定方法在开放世界极端条件下的表现。
- 偏见与安全性:作者提及“预训练VLM可能携带数据偏见”,但未评估SemanticVLA在“目标类别不平衡”“指令歧义”场景中的公平性,也未验证“动作安全性”(如避免碰撞)的保障机制。
11. 列出和本文相关性高的文献
- Brohan et al. 2023 (Rt-2):首个将预训练VLM用于机器人控制的VLA模型,为SemanticVLA提供基础架构参考;
- Kim et al. 2024 (OpenVLA):开源VLA基准模型,SemanticVLA的核心对比基线,两者均基于“VLM+动作解码”架构;
- Kim et al. 2025 (OpenVLA-OFT):OpenVLA的加速变体,采用并行解码优化效率,SemanticVLA在效率上与其直接对比;
- Zhai et al. 2023 (SigLIP):基于sigmoid损失的视觉-语言预训练模型,SemanticVLA中ID-Pruner的基础模型,用于指令与视觉的语义接地;
- Oquab et al. 2023 (DINOv2):自监督视觉Transformer,SemanticVLA中SA-Pruner的基础模型,用于提取空间几何特征;
- Perez et al. 2018 (FiLM):特征调制技术,SemanticVLA中SA-Pruner用于注入指令相关性的核心方法;
- Song et al. 2025 (PD-VLA):采用“动作分块+并行解码”的高效VLA模型,SemanticVLA在效率与性能上与其对比;
- Black et al. 2024 (π₀):基于流模型的VLA框架,用于机器人控制,SemanticVLA在LIBERO基准中与其对比性能;
- Liu et al. 2023a (LIBERO):机器人操作终身学习基准,SemanticVLA模拟实验的核心测试平台;
- Chen et al. 2024b (FastV)、Zhang et al. 2024 (SliME):视觉稀疏化方法,SemanticVLA在相同压缩级别下与其对比性能,验证语义对齐稀疏化的优势;
- Hao et al. 2025 (STAR):基于向量量化的VLA模型,SemanticVLA在LIBERO基准中与其对比,凸显语义融合的价值。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)