终极疑问：当前VLA SOTA模型已进化到顶了吗？自变量 + PI 开源，答案藏在这！

相比LLM用了3年才实现SOTA模型开源，VLA领域仅用不到1年就做到了——这不仅说明“具身智能是行业热点”，更反映出“开源是VLA快速落地的最佳路径”。开发者更活跃：中小团队、高校研究者能低成本参与VLA创新，比如有人会给模型加“老人护理场景的动作”，有人会优化“工业分拣的精准度”；硬件适配更快：机器人厂商不用再“自研AI”，直接用开源模型适配硬件，能加速“家庭服务机器人、工业协作机器人”的商业

具身新纪元

666人浏览 · 2025-10-13 15:51:21

具身新纪元 · 2025-10-13 15:51:21 发布

RT2

一、里程碑：VLA开源密集落地，两大SOTA模型解锁生态

今年，具身智能领域的视觉-语言-动作（VLA）模型迎来“开源爆发季”——全球顶尖团队相继释放核心模型权重与代码，把“能理解、会动作”的智能能力从“实验室”推向“开发者社区”，每一步都堪称行业里程碑：

2月4日：PI首破僵局，开源初代SOTA模型π0
物理智能公司（Physical Intelligence）率先开源当时业界最优的VLA模型π0，首次打通“视觉理解→语言指令解析→连续动作生成”的端到端链路，为后续模型搭建了技术框架，开源地址：PI/openpi。
9月8日：中国自变量发力，WALL-OSS带创新架构开源
自变量机器人推出端到端具身智能基础模型WALL-OSS，核心突破是“紧密耦合MoE架构”——既能精准执行动作，又能深度推理长程任务，且上线即开源（支持多机器人本体微调），开发者可直接适配自家硬件：
- 轻量版：x-square-robot/wall-oss-fast
- 完整版：x-square-robot/wall-oss-flow。
9月9日：PI快速迭代，π0.5聚焦真实环境泛化
仅隔1天，PI就跟进开源π0.5，重点优化“跨场景、跨机器人本体”的动作适应性，比如在家庭、实验室等不同环境中，面对不同机械臂时仍能稳定执行任务，与WALL-OSS形成“技术互补”。

值得关注的是，两大团队核心成员——自变量CTO王昊与PI研究员柯丽一鸣（Kay Ke），还在对话节目《临近机器人GPT-3时刻，具身智能开源模型的加速演进》中坦言：“开源不是终点，而是希望更多人一起解决VLA的核心难题。”这种“开放协作”的态度，正是生态崛起的关键。

二、开源背后的深意：复刻LLM成功路径，VLA要走“生态先赢”路线

VLA模型密集开源，绝非单纯的“技术分享”——而是直接对标大语言模型（LLM）的生态崛起逻辑，从学术到商业，都在为行业铺就“快车道”：

1. 学术端：打破壁垒，让中小团队也能“玩得起”VLA

回顾LLM的发展，2022年Meta的OPT（首个大型开源LLM）降低了“训练大模型”的门槛，2023年LLaMA1代码泄露后，斯坦福、伯克利等高校快速推出Alpaca、Vicuna等衍生模型，直接推动开源LLM从“小众探索”变成“主流方向”。
如今VLA的开源，正在复制这一路径：

降成本：中小团队无需投入千万级算力训练基础模型，只需基于π0.5、WALL-OSS微调（比如适配餐厅服务机器人、工业分拣机械臂）；
促创新：社区可针对“动作泛化差”“物理常识不足”等痛点定向优化，比如有人给模型加“防滑动作反馈”，有人补充“厨房场景数据”，形成“众人拾柴”的迭代氛围。

2. 商业端：锁定技术路线，用“开源”抢滩未来市场

LLM早已证明“开源是好生意”：DeepSeek通过开源6710亿参数量的R1模型，快速成为“开源LLM头部玩家”，后续通过“企业级微调服务”实现盈利；Meta则靠LLaMA系列锁定“开源生态主导权”，吸引全球开发者基于其框架创新。
这一逻辑在VLA领域同样成立：

对企业：自变量、PI通过开源“定义VLA技术标准”——未来开发者用惯了WALL-OSS/π0.5，硬件厂商自然更愿意与它们合作；
对行业：开源让VLA从“定制化技术”变成“通用基础设施”，比如以前每个机器人厂商都要自研AI，现在直接用开源模型，能加速“家庭服务机器人、工业协作机器人”的落地。

就像《大教堂与集市》里说的：“想成为更大的青蛙，最好的办法是让水池先变大。”对VLA来说，“水池”就是开源生态——生态越大，技术落地越快，整个行业才能更快迎来“机器人GPT-3时刻”。
SmolVLA 是由 Hugging Face 开发的一款仅有 4.5 亿参数的开创性视觉语言动作 (VLA) 模型。

三、VLA仍需跨越的鸿沟：从“懂理论”到“会实操”的难题

尽管π0.5、WALL-OSS已是SOTA水平，但VLA模型要真正“融入物理世界”，还得解决两大核心挑战——本质是“如何让‘看图像、懂语言’的AI，学会像人一样精准动作”：

挑战1：跨模态数据“难协同”，语言和动作像“两套系统”

语言、视觉、动作的数据形态完全不同，强行融合容易“互相拖后腿”：

形态不兼容：语言是“离散的token”（比如“我喝了一杯___”，模型能预测“水”），动作是“连续的信号”（比如机械臂关节每秒要转5度、10度，像一条平滑的曲线）；如果用“预测token”的方式训练动作，会把流畅的动作拆成“碎片化指令”，导致机器人抓握时“一顿一顿”。
训练互干扰：如果把“语言模块”和“动作模块”分开，机器人会“不听指令”——比如你说“拿杯子”，它却去抓盘子；如果把两个模块绑太紧，动作训练产生的“错误信号”会污染VLM（视觉语言模型），导致模型连“杯子是什么”都认不清了。

挑战2：VLM缺“物理常识”，懂理论却不会“实操”

现有VLM都是“在互联网上长大的”——只看过千万张“杯子的图片”，读过无数“如何拿杯子”的文字，却从没真正碰过杯子，就像“背熟游泳理论却没下过水的人”：

不会用反馈修正：如果抓杯子时没抓稳，杯子滑了，VLM不知道“是力度不够”，只会重复原来的动作；
不会规划动作：看到“叠衣服”的指令，VLM能理解“要把衣服叠整齐”，却不知道“先把袖子折进去，再对折”的步骤，更不会生成对应的动作。

具身智能进化史

四、破局方案：PI与自变量的技术创新，各有高招

针对上述难题，PI和自变量分别给出了“差异化解决方案”——既有技术接力，也有创新突破，共同推动VLA进步：

方向1：解决“跨模态协同”，让语言和动作“同频”

（1）先让动作“适配”VLM：把连续动作变成“模型能懂的形式”

核心思路是“给动作做‘翻译’”，让VLM能理解连续动作信号：

PI π0：首设“动作专家”，单独处理连续动作
在VLM主干模型外，新增一个“动作专家分支”，用“流匹配（Flow Matching）”技术直接建模连续动作——就像给模型配了个“动作翻译官”，专门负责把“连续信号”转化为模型能处理的格式，不干扰VLM原本的语言理解能力。
PI π0.5：升级FAST tokenizer，给动作“分段落”
设计了专门的“动作token化工具”：把机械臂的连续动作拆成“短片段”（比如每0.1秒的动作算一个“动作token”），既保留动作的连续性，又能让Transformer模型（VLM的核心框架）像处理语言一样处理动作。
自变量WALL-OSS：融合两种方案，兼顾流畅与兼容
既保留“动作专家+流匹配”，保证动作流畅；又采纳FAST tokenizer，让动作能更好地与VLM的语言模块协同——比如你说“慢慢拿杯子”，模型能生成“力度轻、速度慢”的连续动作，不会出现“猛抓”的情况。

（2）再解决“训练干扰”：既保护VLM，又学好动作

核心是通过“架构设计”隔离干扰，两大团队的思路各有侧重：

模型	架构设计	核心逻辑（通俗解释）
PI π0/π0.5	MoE混合专家+知识绝缘	模型里有“语言专家”和“动作专家”两个团队；训练时用“知识绝缘”把“动作专家”的错误信号挡住，不让它影响“语言专家”的知识。
自变量WALL-OSS	紧密耦合MoE	“语言专家”和“动作专家”共享“注意力机制”（相当于共用“大脑核心”），但各有专属“技能网络”；既能一起理解指令，又不会互相干扰。

Different types of Tactile Sensors.

方向2：补“物理常识”，让VLM学会“思考+实操”

核心是“让模型积累‘物理经验’，并学会拆解任务”：

（1）学会“长推理”：把复杂任务拆成“小步骤”

PI π0.5：层次化推理，先定目标再做动作
面对“整理书桌”这样的任务，模型会先拆出“高层子任务”：“第一步拿废纸→第二步扔垃圾桶→第三步摆书本”，再让“动作专家”生成每个子任务的动作——就像先列清单，再按清单做事。
自变量WALL-OSS：思维链（CoT）闭环，边想边做
更进一步实现“思考-规划-动作”全流程端到端，比如接到“整理书桌”指令：
① 先“思考”：“桌上有废纸、书本、杯子，要先扔垃圾再摆东西”；
② 再“规划”：“第一步抓废纸→第二步移到垃圾桶上方→第三步松手”；
③ 最后“动作”：精准执行每个步骤，不会漏步骤或重复。
整个过程在一个模型里完成，没有“思考和动作脱节”的问题。

（2）建立“具身语义”：让VLM“懂物理”而非“背理论”

PI π0.5：补互联网多模态数据，学“物体属性”
在预训练时加入“图像描述、视觉问答（VQA）、目标定位”数据，比如让模型看“杯子滑落在地”的图片，回答“杯子为什么会掉”，帮模型理解“杯子光滑、易滑落”的物理属性。
自变量WALL-OSS：两阶段预训练，先“懂”再“做”
把预训练分成两步，针对性补“物理常识”：
- 第一阶段（Inspiration，开窍）：给模型看大量“机器人在真实场景里的图片/视频”，并让它回答问题——比如“桌子上的苹果离杯子有多远？”“怎么拿才不会掉？”，先让模型“看懂物理世界”；
- 第二阶段（Integration，整合）：用“流匹配”技术教模型学动作，让“常识”转化为“实操能力”——比如模型知道“杯子易滑”，就会生成“力度稍大但不捏碎”的抓握动作。

（3）用“真实数据”练手，避免“纸上谈兵”

PI和自变量都认为“真实数据比互联网数据更重要”——毕竟机器人要在真实世界动作，光看图片没用：

PI π0.5：采集多本体真实数据
用不同类型的机器人（比如6轴机械臂、协作机械臂）在家庭、实验室等场景采集动作数据，保证模型在不同硬件上都能“适配”。
自变量WALL-OSS：构建“三万小时+多源数据集”
数据分三类，覆盖“理解-动作-推理”全需求：
① 自研高质量动作数据：比如“抓握不同重量的杯子”“摆放不同形状的书本”，保证任务复杂性；
② 开源动作数据：从社区收集其他机器人的动作数据，提升跨硬件泛化能力；
③ 多模态VQA数据：比如“怎么叠衣服才不会散？”“怎么推桌子更省力？”，补全物理推理能力。

模拟数据与真实数据

五、实测见真章：WALL-OSS的“实操能力”有多强？

为了验证WALL-OSS的实力，研究团队做了多轮对比实验——结果显示，它在“物理理解、动作泛化、长程任务、逻辑推理”上都达到SOTA水平，部分指标甚至超过π0.5：

1. 更懂物理世界：能“看懂”也能“预判”

基础能力不丢：完全继承VLM的语言理解、文本生成能力，能准确识别“杯子、书本”等物体，理解“轻轻拿、慢慢放”等指令；
具身理解跃升：在“物体定位（Grounding）”“场景描述（Captioning）”“动作规划（Action Planning）”三个核心任务中，对比基础模型Qwen2.5-VL-3B，提升非常显著：
- 物体定位：从46.1%提升到91.6%（近乎翻倍），能精准指出“杯子在桌子左上角”；
- 场景描述：从57.7%提升到87.6%（提升52%），能描述“桌上有一个红色杯子，旁边放着三本书”；
- 动作规划：从59.8%提升到69.0%（提升15%），能规划“拿杯子→移到饮水机→接水”的步骤。

2. 动作精准且泛化：面对“新情况”不慌

指令对齐度高：在“捡垃圾、摆杯子”等基础任务中，WALL-OSS的动作与指令的匹配度，显著高于π0和Diffusion-Policy（另一个VLA模型）——比如你说“把杯子放在盘子右边”，它不会放错位置；
零样本能力强：面对“没见过的物体、没去过的环境”，仍能稳定执行任务：
- 已知物体（比如之前见过的杯子）：pick-and-place任务平均进度85%；
- 全新物体（比如从没见过的异形花瓶）：pick-and-place任务平均进度61%，远超行业平均的40%。

3. 能搞定复杂长任务：不会“忘步骤、做无用功”

在“整理卧室、布置餐桌”等多步骤任务中，其他模型常犯两个错：要么“中途失忆”（比如摆了盘子忘了摆筷子），要么“重复动作”（比如反复抓同一本书）；而WALL-OSS靠“子任务规划能力”，能有条不紊地完成：

任务连贯性：能记住“已完成步骤”和“待完成步骤”，比如整理卧室时，先叠被子、再擦桌子、最后扫地，不会跳步；
稳定性强：长程任务的成功率比π0.5高12%，不会因为步骤多而“崩溃”。

4. 会思考、能推理：不只是“执行工具”

最让人惊喜的是“逻辑推理能力”——在“用字母积木拼单词”任务中（需要先想“怎么拼”，再做“怎么动”）：

其他模型：只会盲目抓字母，比如要拼“CAT”，却抓来D、O、G，拼不出目标单词；
WALL-OSS：会先在“大脑里”推理“拼CAT需要C、A、T三个字母”，再规划“先抓C放在左侧，再抓A放中间，最后抓T放右侧”，然后精准执行动作，真正实现“先想后做”。

六、总结：VLA开源潮，让机器人AI离落地更近一步

相比LLM用了3年才实现SOTA模型开源，VLA领域仅用不到1年就做到了——这不仅说明“具身智能是行业热点”，更反映出“开源是VLA快速落地的最佳路径”。

随着π0.5、WALL-OSS的开源，VLA生态会迎来三个变化：

开发者更活跃：中小团队、高校研究者能低成本参与VLA创新，比如有人会给模型加“老人护理场景的动作”，有人会优化“工业分拣的精准度”；
硬件适配更快：机器人厂商不用再“自研AI”，直接用开源模型适配硬件，能加速“家庭服务机器人、工业协作机器人”的商业化；
技术路线更清晰：WALL-OSS的“紧密耦合MoE”“两阶段具身训练”，π0.5的“知识绝缘”“层次化推理”，为后续模型指明了方向——未来的VLA，要“既懂物理世界，又会精准动作，还能深度推理”。

对开发者来说，现在正是参与VLA生态的好时机——如果你有机器人硬件，不妨试试在上面微调WALL-OSS或π0.5；如果你擅长算法，也可以针对“物理常识不足”“跨场景泛化差”等痛点做优化。毕竟，具身智能的“GPT-3时刻”，需要更多人一起推动才能到来。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla