目录

1. Gemini Robotics 1.5:加速机器人学习与指令遵循

多模态理解

学习效率提升

2. Gemini Robotics-ER 1.5:引入长上下文扩展推理

长期记忆与规划

鲁棒性与纠错

3. 生态展望:加速物理 AI 的商业落地

开发者赋能

物理 AI 时代


谷歌在人工智能领域持续保持领先地位,其最新的成果聚焦于将大型语言模型(LLM)的智能引入物理世界。近日,谷歌正式推出了两款具身智能领域的重磅模型:Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5。这一代模型的发布,标志着具身智能体在理解、规划和执行复杂任务的能力上实现了质的飞跃。

1. Gemini Robotics 1.5:加速机器人学习与指令遵循

Gemini Robotics 1.5 模型专注于提升机器人的即时响应和学习效率:

多模态理解

该模型能够同时处理视觉、触觉和音频数据,结合人类的自然语言指令,实现更精细、更准确的环境感知和任务理解。例如,机器人能更好地理解“把那个红色的杯子拿到桌子中央”这类涉及颜色、位置和意图的复杂指令。

学习效率提升

通过利用大规模的具身数据和 Gemini 1.5 的预训练知识,新模型能在更少的数据和更短的训练时间内,掌握新的操作技能和环境适应能力,加速了机器人在特定场景下的部署。

具身智能再突破:谷歌推出 Gemini Robotics 1.5 系列,提升机器人学习与泛化能力

2. Gemini Robotics-ER 1.5:引入长上下文扩展推理

Gemini Robotics-ER 1.5 是此次发布最具突破性的模型,专注于解决复杂、非结构化的长期任务:

长期记忆与规划

该模型可以追踪并利用任务开始时(例如数小时前)的初始状态、中间步骤和失败尝试,进行连贯的长期规划。这使得机器人能够执行更复杂的、多步骤的家庭服务或仓储物流任务。

鲁棒性与纠错

在任务执行过程中遇到意外干扰或失败时,ER 模型能够基于其对全部上下文的理解,进行智能的回溯和纠错,而非简单地重头开始,大幅提高了任务完成的鲁棒性和成功率。

具身智能再突破:谷歌推出 Gemini Robotics 1.5 系列,提升机器人学习与泛化能力

3. 生态展望:加速物理 AI 的商业落地

谷歌致力于通过开源合作和 API 接口,将这些先进的具身智能能力带给全球的机器人制造商和开发者:

开发者赋能

新模型将通过 Google Cloud 的 Vertex AI 等平台向企业客户开放,使企业能够在其机器人硬件上快速集成行业领先的 AI 驱动的决策系统。

具身智能再突破:谷歌推出 Gemini Robotics 1.5 系列,提升机器人学习与泛化能力

物理 AI 时代

谷歌相信,通过 Gemini Robotics 1.5 系列的强大泛化和推理能力,将有助于解决现实世界中的复杂问题,加速“物理 AI”(Physical AI)时代的到来,让智能体真正走向千家万户和工业现场。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐