谷歌发布离线机器人AI系统,无需联网即可系鞋带
创始人
2025-06-26 00:00:33
0

尽管我们有时称Gemini和 ChatGPT等聊天机器人为"机器人",但生成式 AI正在真正的物理机器人中发挥越来越重要的作用。继今年早些时候发布Gemini Robotics后,谷歌 DeepMind现在推出了一款新的设备端VLA(视觉语言动作)模型来控制机器人。与之前的版本不同,这个版本不依赖云端组件,让机器人能够完全自主运行。

谷歌DeepMind机器人部门负责人Carolina Parada表示,这种AI机器人方法可以让机器人在复杂环境中更加可靠。这也是谷歌机器人模型的首个版本,开发者可以根据特定用途对其进行调优。

机器人技术对AI来说是一个独特的挑战,因为机器人不仅存在于物理世界中,还会改变其环境。无论是让机器人移动积木还是系鞋带,都很难预测机器人可能遇到的每种情况。传统的通过强化学习训练机器人动作的方法非常缓慢,但生成式AI允许更大程度的泛化。

"它利用Gemini的多模态世界理解能力来完成全新的任务,"Carolina Parada解释道。"这使得Gemini不仅能够生成文本、写诗、总结文章,还能编写代码、生成图像,同样也能生成机器人动作。"

通用机器人,无需云端支持

在之前的Gemini Robotics版本中(这仍然是谷歌机器人技术的"最佳"版本),平台运行混合系统,机器人上有一个小模型,云端运行一个更大的模型。你可能看过聊天机器人在生成输出时"思考"几秒钟,但机器人需要快速反应。如果你告诉机器人拾取并移动物体,你不希望它在生成每个步骤时暂停。本地模型允许快速适应,而基于服务器的模型可以帮助处理复杂的推理任务。谷歌DeepMind现在将本地模型作为独立的VLA发布,它的表现出人意料地强大。

新的Gemini Robotics设备端模型的准确性仅略低于混合版本。据Parada介绍,许多任务可以直接使用。"当我们与机器人互动时,发现它们在理解新情况方面能力惊人,"Parada告诉Ars。

通过发布带有完整SDK的模型,团队希望开发者能为Gemini驱动的机器人提供新任务并展示新环境,这可能会揭示模型标准调优无法处理的动作。使用SDK,机器人研究人员能够仅用50到100次演示就让VLA适应新任务。

在AI机器人技术中,"演示"与其他AI研究领域有所不同。Parada解释说,演示通常涉及远程操作机器人——手动控制机械设备完成任务来调优模型,使其能够自主处理该任务。虽然合成数据是谷歌训练的一个要素,但它不能替代真实数据。"我们仍然发现,对于最复杂、最精细的行为,我们需要真实数据,"Parada说。"但通过仿真可以做很多事情。"

然而,这些高度复杂的行为可能超出了设备端VLA的能力范围。它应该能够毫无问题地处理简单动作,如系鞋带(这对AI机器人来说传统上是一项困难任务)或折叠衬衫。但是,如果你想让机器人为你制作三明治,它可能需要更强大的模型来进行必要的多步推理,将面包放在正确的位置。

团队认为Gemini Robotics设备端版本非常适合云连接不稳定或不存在的环境。在本地处理机器人的视觉数据对隐私保护也更有利,例如在医疗环境中。

构建安全机器人

无论是提供危险信息的聊天机器人还是像终结者一样的机器人,AI系统的安全性始终是一个关注点。我们都见过生成式AI聊天机器人和图像生成器在输出中产生虚假信息,驱动Gemini Robotics的生成系统也不例外——模型不是每次都能做对,但给模型一个带有冰冷金属抓手的物理实体让问题变得更加棘手。

为确保机器人行为安全,Gemini Robotics采用多层方法。"通过完整的Gemini Robotics,你连接到一个能够推理什么是安全行为的模型,"Parada说。"然后让它与实际产生选项的VLA对话,接着VLA调用低级控制器,后者通常具有安全关键组件,比如可以施加多大力量或手臂可以多快移动。"

重要的是,新的设备端模型只是一个VLA,所以开发者需要自己构建安全机制。不过,谷歌建议他们复制Gemini团队的做法。建议早期测试程序中的开发者将系统连接到标准的Gemini Live API,其中包含安全层。他们还应该实施低级控制器进行关键安全检查。

任何有兴趣测试Gemini Robotics设备端版本的人都应申请加入谷歌的可信测试程序。谷歌的Carolina Parada表示,过去三年中机器人技术取得了许多突破,这只是开始——当前发布的Gemini Robotics仍基于Gemini 2.0。Parada指出,Gemini Robotics团队通常比Gemini开发落后一个版本,而Gemini 2.5被认为在聊天机器人功能方面有了巨大改进。也许机器人也会如此。

相关内容

热门资讯

福耀玻璃公布“黑边显示玻璃、投... 天眼查APP显示,近日,福耀玻璃工业集团股份有限公司申请的“黑边显示玻璃、投影系统及车辆”专利公布。...
2025世界人形机器人运动会上... 当机器人的舞步 踏出《秦俑魂》的韵律; 当人机同台走秀 碰撞出科技与时尚的火花; 当机器人军团踏出整...
2025第三届全国工业文化摄影... 图文合集导航 ☝点我浏览投稿细则 影像记录历史印记,光影书写时代变迁 工业文明的发展轨迹在快门下显影...
原创 工... 今天咱来聊聊蚂蚁啊,这小东西可太有意思了。你看那工蚁,一辈子忙忙碌碌,找吃的、照顾幼虫、保卫蚁巢,啥...
上海优尊真空设备取得一种两级干... 金融界2025年8月20日消息,国家知识产权局信息显示,上海优尊真空设备有限公司取得一项名为“一种两...
夏普推出口袋智能伙伴“Poke... IT之家 8 月 21 日消息,夏普公司推出了名为“Poketomo”的口袋智能伙伴,旨在为用户的日...
一分钟完成自主点外卖!智谱推出... 8月20日,以B端(面向企业)见长的智谱再度在C端发力,拓展C端(面向消费者)Agent(智能体)应...
以数字技术筑牢生命健康防线,中... 健康是民生之基,数字是时代之翼。当信息技术与生命健康深度交融,一条守护全民福祉的数字防线正愈发坚实。...
我国发现世界首个全温区固态相变... 我国发现世界首个全温区固态相变制冷材料 传统的冰箱和空调使用的气体压缩制冷技术存在能耗高等问题。为...
字节跳动回应“豆包手机”传闻:... 8月20日消息,针对近日市场上有关字节跳动正在研发“豆包手机”的传言,字节跳动相关负责人明确回应称,...
AI时代,高等教育有何可为与不... 中新社北京8月20日电 题:AI时代,高等教育有何可为与不为? 中新社记者 曾玥 “人工智能(AI)...
共筑社区微景观!这场亲子活动让... 近日,定海路街道党群服务中心在爱西居委举办了一场主题为“绿意萌芽 新芽初绽”的亲子活动,特别邀请了辖...
百度李彦宏曾辟谣“All in... 作者|号外工作室 一周一场媒体招待会,周周“AI Day”,研发费用被砍13%,李彦宏曾辟谣说过“...
山钢·京东运营中心构建区域生态... 近日,山钢·京东运营中心在莱钢文化服务中心启动。该项目是山钢集团与京东集团深度融合的重要成果,也是莱...
医渡科技公布数字疗法海南落地成... 近日,2025数字疗法大会在海南举办。在“AI+慢病管理场景应用论坛”上,一场以“数字疗法在基层糖尿...
日本功率芯片危矣!“散兵”难敌... 来源:金投网 尽管日本已经投入数十亿美元用于人工智能芯片制造,但在传统功率半导体领域,其主导地位却正...
外媒:奥尔特曼称自己不适合担任... 环球网 8月18日消息,据timesofindia援引彭博社报道,OpenAI 首席执行官 Sam ...
绿的谐波跌1.44%,成交额1... 来源:新浪证券-红岸工作室 8月20日,绿的谐波跌1.44%,成交额11.05亿元,换手率4.07%...
驰阳休闲取得户外百叶篷用圈梁组... 金融界2025年8月20日消息,国家知识产权局信息显示,临海驰阳休闲用品有限公司取得一项名为“一种户...
原创 韦... 四十年前旅行者二号曾与之失之交臂。 美国国家航空航天局詹姆斯·韦伯望远镜最新发现天王星最小卫星,这...