文章详情

Google推出的双子座机器人AI模型让我对未来感到惊讶不已

当Chatgpt首次到达时，我们得到了一个基于文本的聊天机器人，即使遇到了问题，也可以试图合理地回答任何问题（尽管幻觉尚未消失）。 AI很...

更新:

2025-04-03 12:20:03

文章详情介绍

Google推出的双子座机器人AI模型让我对未来感到惊讶不已

当Chatgpt首次到达时，我们得到了一个基于文本的聊天机器人，即使遇到了问题，也可以试图合理地回答任何问题（尽管幻觉尚未消失）。 AI很快就获得了新的能力。它可以通过照片和视频看到事物。它可以听到人类通过自己的声音说话和回应。

下一步是给AI的眼睛和耳朵，可以实时观察周围的环境。我们已经有了Ray-Ban Meta型号可以做到这一点的智能眼镜。 Google和其他人正在开发类似产品。苹果可能出于同样的原因将摄像头放入Airpods。

当AI有一个身体在我们周围的身体上，并帮助我们完成各种需要处理现实生活对象的任务时，这项工作将完成。几个月前，当我说我想要人类AI机器人时，我在墙上看到了写作。

最近，我看到了一种AI模型，它会让机器人智能观察和理解周围的物理世界，并与他们从未受过训练的对象和动作进行互动。那就是AI机器人的图形螺旋视觉语言动作（VLA）。

毫不奇怪，其他人正在研究类似的技术，而Google刚刚宣布了两种使我震惊的双子座机器人技术模型。像人物技术一样，双子座机器人AIS将帮助机器人了解人类命令，周围环境以及他们要执行人类给他们的任务所需的工作。

我们仍处于AI机器人技术的初期，直到我想要在房子周围的人形机器人帮助者准备大量消费还需要一段时间。但是Google已经为未来奠定了基础。

Google DeepMind发表了一篇博客文章和一份研究论文，描述了它在Gemini 2.0 Tech背面开发的新的Gemini Robotics和Gemini Robotics-ER模型。这是Google目前可供用户使用的最先进的生成AI程序。

Google Robotics是基于Gemini 2.0建立的VLA，“添加了物理动作作为新的输出模式，目的是直接控制机器人。”

第二个是“具有高级空间理解的双子座模型，使机器人主义者能够使用双子座的体现推理（ER）能力来运行自己的程序。”它被恰当地称为Gemini Robotics-er。

通过体现的推理，Google意味着机器人需要发展“人类般的能力来理解和对周围世界的反应”，并安全地做到这一点。

Google分享了各种视频，这些视频显示了AI机器人的作用，响应自然语言命令并适应不断变化的景观。多亏了双子座，机器人可以看到周围的环境并了解自然语言。然后，即使他们可能从未与对象或位置进行过互动，他们也可以执行新任务。

Google解释了指导双子座机器人技术发展的三个原则。那是一般性，互动性和灵巧性：

要对人有用且有用，机器人的AI模型需要三种主要品质：它们必须是一般性的，这意味着他们能够适应不同的情况；他们必须进行互动，这意味着他们可以理解并迅速对环境中的指示或变化做出反应；它们必须是灵巧的，这意味着他们可以做人们通常可以用手和手指做的事情，例如精心操纵物体。

正如您在这篇文章中的视频中看到的那样，机器人可以识别表上的各种对象并实时执行任务。例如，一个机器人在被告知时通过篮球猛击了一个小篮球。

各种类型的机器人可以使用双子座机器人AI模型。图像来源：Google

AI机器人还可以迅速适应不断变化的景观。被告知要把香蕉放在桌子上的特定颜色的篮子里，机器人即使人类烦人地移动了那个篮子，也可以正确执行任务。

最后，AI机器人可以显示出精细的运动技能，例如折叠折纸或打包自封袋。

Google解释说，Gemini机器人技术模型可与各种机器人类型一起使用，无论是双臂机器人平台还是类人动物模型。

Gemini Robotics-ER是机器人技术同样出色的AI技术。该模型专注于理解世界，因此机器人可以在他们应该执行动作的空间内执行运动和任务。使用Gemini Robotics-ER，AI机器人将使用Gemini 2.0来代码（原因？）：

Gemini Robotics-ER提高了Gemini 2.0的现有能力，例如指向和3D检测，并通过很大的边距提高了Gemini 2.0。 Gemini Robotics-ER结合了空间推理和双子座的编码能力，可以实例化全新的功能。例如，当显示咖啡杯时，该型号可以直观合适的两指掌握手柄拾取手柄，并可以安全地接近它。

至少对于这个人工智能爱好者来说，所有这些都非常令人兴奋，尽管我知道我有很多等待，直到由此类技术提供动力的AI机器人。

Gemini机器人可以帮助机器人看到对象并了解周围的空间。图像来源：Google

在您开始担心AI机器人成为敌人之前，就像在电影中一样，您应该知道Google还在以前的工作中开发了机器人宪法，以确保AI机器人在环境中安全地行事并防止对人类的伤害。安全宪法基于以撒·阿西莫夫（Isaac Asimov）的三个机器人法则，Google对其进行了更新，以创建一个可以通过简单的自然语言说明进一步调整的新框架：

此后，我们开发了一个框架来自动生成数据驱动的宪法 – 直接以自然语言表示的规则 – 以引导机器人的行为。该框架将使人们能够创建，修改和应用宪法来开发更安全且与人类价值观更加一致的机器人。

您可以在此链接中阅读有关Gemini Robotics模型的更多信息。

文章详情

最新思能攻略

最新思能智能

最新思能游戏