文章详情

Google 最新 AI 技术助力机器人实现精细操作，包括折纸、拉链袋封口和绑鞋带能力

Google DeepMind 周三发表两款革命性机器人 AI 模型：Gemini Robotics 和 Gemini Robotics-ER！使机器人能够运行「前所未有的精细...

更新:

2025-04-02 11:40:03

文章详情介绍

Google最新AI技术助力机器人实现精细操作，包括折纸、拉链袋封口和绑鞋带能力

Google DeepMind 周三发表两款革命性机器人 AI 模型：Gemini Robotics 和 Gemini Robotics-ER！使机器人能够运行「前所未有的精细操作」，如折纸艺术和封紧拉链袋或者是系紧鞋带，可说是往通用人形机器人的重大一步。

新模型展现的通用能力比现有最先进系统提高超过一倍，显著缩小了机器人知识与实际操作之间的差距。这项进展使得无需针对每种情境特别训练的机器人变为可能，为未来在不可预测现实环境中工作的通用机器人打下基础。

业界所称的「具现化 AI」（embodied AI）一直是科技巨头如 NVIDIA 等公司的登月计划级目标，它代表着让 AI 能够在物理世界中自主操作的能力。这被视为机器人技术的圣杯，可能将机器人从特定任务的运行者转变为实体世界中的通用劳动力。Google 的 Gemini Robotics 系列在这方面取得的突破，可能标志着「具身 AI」从概念走向现实的重要里程碑。

Google 已与德州 Apptronik 公司合作，将 Gemini 机器人 AI 模型作为其 Apollo 人形机器人的「大脑」，同时也向 Boston Dynamics 、 Agility Robotics 等公司提供有限访问权。（前述机器人公司《INSIDE》都曾专文介绍，有兴趣的读者可以点进超链接内阅读。）

这种合作亦标志着 Google 重返人形机器人领域，但采取了全新的技术方向。

Gemini 2.0 为基础、集成 VLA 能力

这项技术以 Gemini 2.0 大型语言模型为基础，集成了「视觉-语言-动作」（vision-language-action，VLA）能力，使机器人能处理视觉信息、理解语言指令并产生精确的实体动作。用户可以简单地指示机器人「折一只纸狐狸」或「拿起香蕉放入篮子」，机器人就能理解并完成这些需要精细操作的任务。

针对安全考量，Google 开发了受艾萨克·阿西莫夫（Isaac Asimov）机器人三定律启发的「机器人宪法」（Robot Constitution）框架，并发布「 ASIMOV 」数据集，用于评估机器人行动的安全性。该数据集帮助研究人员测试 AI 模型对机器人可能行动后果的理解程度。

尽管展示视频显示了显著进步，不过这些模型仍处于研究阶段，Google 尚未宣布商业应用时间表。业界仍对这些系统在不可预测的现实环境中的表现持保留态度。

文章详情

Gemini 2.0 为基础、集成 VLA 能力

最新思能攻略

最新思能智能

最新思能游戏