家务具身智能机器人黑客松活动总结
基于NVIDIA Thor驱动的Qwen2.5-VL多模态大模型,使搭载so101机械臂的机器狗KittyDog能够理解人类指令、感知环境并执行任务,最终实现端到端的“取外卖”演示,支持通过Web界面进行自然语言交互。队伍4:XBartender。
活动背景
本次活动要求使用Nvidia的Thor套件开发,机械臂都是使用舵机控制,使用Nvidia的GR00TN1.5会有加分。
活动过程
我们基于Lerobot框架完成了机器人的标定、数采、训练和推理,并接入了语音和LLM模型实现语音交互。
数据采集了10到20次,采集期间确保相机的位置、周围光线和环境的信息尽量不变。不能出现误操作等脏数据。
模型的训练策略采用ACT,将采集好的数据上传至AutoDL服务器训练一小时,训练步数20~30万次。
将Nvidia工程师提供的Docker安装到环境中,进行模型的推理。
其他组技术经验
此次活动中值得借鉴学习的其他组的方案和技术:
-
双机械臂+深度相机
比赛现场有一组采用头部深度RGBD相机+左右两个臂末端的2D相机,通过定制修改Lerobot的输入图像参数,将深度与彩图合为体素进行训练,提交了抓取的鲁棒性。 -
预训练GR00TN1.5模型+现场数采微调:面向的双臂机械臂采用了三个摄像头,固定顶部的摄像头看全部, 固定后上方的摄像头看后方,另外一个机械臂末端固定了一个摄像头跟随末端观测。通过运行在Thor的GROOTN1.5架构模型进行实时推理。在来现场之前已经采集了200组数据预训练,初步达到一个良好效果,在现场基于预训练的模型采集了30组数据训练,达到了较为良好的鲁棒性。
采用端到端的AI模型从视觉输入生成六轴角度控制。
现场机械臂较为抖动,开发人员表示是因为算力问题,在A100上运行丝滑。但是和其他运行丝滑的开发者交流,他们认为是舵机的PID需要整定,避免抖动或滞后。
虽然末端摄像头看到的干扰较多,但是模型在训练过程中会自动调低机械臂末端安装的摄像头图像的权重,降低外界环境干扰。 -

- 基于Issa sim模型仿真预训练+现场微调下面是活动中其他小组的作品简介:
接入Visino Pro设备,在Isaac Sim平台进行遥操作、录制、推理、仿真,得到一个预训练模型,再到真实的设备和环境中采集数据和模型微调训练,最终可以达到一个鲁邦的控制结果。
整个模型在推理过程中表现出较好的鲁棒性,机械臂可以抓取任意放置的笔,并且对周围环境扰动的适应性较好,抓取毛巾擦拭桌面过程也很丝滑。
技术思考与展望
1 具身智能机器人能否在近五年或近两年大规模落地
从目前的效果看,机器人的控制通过VLA + RL 等AI技术,要想实现稳定落地,可以在较为固定环境、少量特定技能、小负载机械臂的场景实现。
2 具身智能数据训练问题
VLA基于数据驱动模型的算法,采集的数据要确保没有脏数据,而且采集的数据要尽可能覆盖真实使用环境的情况,目前各个模型策略(ACT、PI0、SMOLVAL、GR00TN1.5)的优缺点需要根据具体试验总结,模型训练步数时长和采集数据的质量都会影响最终的运行效果。
3 具身智能传感器输入问题
机器人的视觉摄像头需要安装在多个位置以及末端,传感器除了纯RGB,还有深度信息,通常深度+RGB安装在头部进行全局观测。众多视觉数据的输入以及彩图与深度图对齐的方案还需要确认。
4 VLA 仿真+实物运行
机器人通过VLA仿真,将遥操数据输入接入仿真环境,进行数采和训练,然后在实际环境中基于仿真的预训练模型继续微调,看起来可以极大降低数采的成本,并提高效率。
目前机器狗或双足机器人的控制领域,采用强化学习RL和sim2real技术已经可以达到远超传统模型控制的效果。比如下面是通过强化学习实现的双足机器人
基于RL的双足机器人
在VLA领域应该也是一个好的思路。
活动作品大全
第1组 会取外卖的机械狗
基于NVIDIA Thor驱动的Qwen2.5-VL多模态大模型,使搭载so101机械臂的机器狗KittyDog能够理解人类指令、感知环境并执行任务,最终实现端到端的“取外卖”演示,支持通过Web界面进行自然语言交互。
第2组 会做早餐的赛博小姐姐
阶跃致能,赛博小姐姐帮你做早餐!
第4组 调酒机器人
XBartender
第5组 收纳机器人
VLA拉抽屉收纳+倒装双臂升降XLeRobot
该团队采用了SmolVLA模型,训练和部署轻量化,只需要在单卡5090上就可以完成训练,而且执行右臂胡萝卜的抓取->左臂拉抽屉->右臂放置胡萝卜->左臂合入抽屉,效果流畅。
第7组 三明治机器人
项目打造了一套语音指令驱动的智能机械臂系统,可精准理解用户需求并自动完成三明治的制作,实现了从语音交互到物理操作的全流程智能化。
第8组 桌面清理机器人
Lerobot-GR00TN1.5 (LEO-ROBOT)是一个聚焦桌面清理任务的机器人开发项目,基于 NVIDIA GR00T N1.5 基础视觉语言动作模型(VLA),通过微调与部署,实现 Lerobot SO-101 机械臂自主完成桌面清理长时序任务。作为一个便携,易于嵌入的低成本组件,可以接入: 底盘、无人机底座、固定部署在家庭场景、遥操平台准备接入基于 Vision Pro 等混合现实显示设备,使用姿态数据进行操作。
可以在Mujoco和Isaac Sim平台进行遥操作、录制、推理、仿真。
第9组 叠毛巾机器人
聚焦双臂叠衣服浴巾等柔性物体的整理家务,今天的工作是基于SO101、Thor及GR00T1.5模型,实现叠毛巾的任务

第10组 倒茶机器人

第11组 餐桌清洁机器人
BowlXLeRobot
BowlXLeRobot机器人——一款帮您收拾家庭餐桌的机器人,让您远离油污烦恼~
第14组 具身智能全自动植物管家
队伍14 Florabot是一款具身智能全自动植物管家。作为一个可自主移动、具备多模态感知和灵巧操作的机器人,能够像园丁精心料理家中的植物,并提供包括浇水、施肥、修剪枯叶、清扫落叶、智能补光在内的全方位、个性化照料。
第15组 植物养护大师


第16组 高空清洁机器人
HomeFlyClean,无人机机械臂,充分利⽤了NVIDIAJetson平台在边缘AI⽅⾯的计算能⼒、
OrbbecGemini2摄像头的先进感知能⼒,以及NVIDIAIsaacROS套件的强⼤软件框架。
1.空中平台:搭载NVIDIAJetson、OrbbecGemini2摄像头和LeRobot机械臂的⽆⼈机。
2. 家庭⽹络:作为通信层的Wi-Fi⽹络。
3. ⽤⼾界⾯:HomeCleanMonitor应⽤程序,解决,⾼价值住宅中的“Z轴难题,期待清洁您家中够不着的污渍的污渍
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)