断网都没用,机器人终于「摆脱」人类控制!Google 首发离线 AI 大脑,一句话让它干活
创始人
2025-06-25 15:41:25
0

在影视作品里,我们看过太多机器人失控的场面。一些应对方案的段子也早已烂熟于心:断网、拔电、重启三连,一键送它回炉重造。

但现在,这一套流程可能不太管用了。

今天,Google DeepMind 推出了一款全新机器人控制模型——Gemini Robotics On-Device。这款大模型能在机器人本地运行,集视觉识别、语言理解和动作执行于一体。

而它最大亮点在于,即使完全离线,它也能理解人类指令,流畅完成任务。

比起诸如 ChatGPT、Gemini 等擅长聊天、写作、答题的大模型,Gemini Robotics On-Device 则给机器人装上了一个真正的「大脑」,让其也能具备类似的理解力和执行力。

它本质上是一个专为双臂机器人打造的 VLA 基础模型,顾名思义,Vision(视觉)+Language(语言)+Action(动作),三者结合,看得见、听得懂、动得了,是它的基本素养。

举例而言,你可以对机器人发出请求:「请把这件衣服叠好,再放进背包里,拉上拉链。」过去这需要提前编写程序、分解动作,现在 Gemini On-Device 可以直接理解这句话的意思,然后一步一步执行下来。

那既然联网也能跑,为什么还要费劲折腾本地运行?答案不外乎速度和稳定性。

机器人若需将数据传至云端、等待服务器分析再返回结果,必然产生延迟。在医疗操作、灾难救援、工厂自动化等任务中,延迟容错空间几乎为零。何况,现实中许多地方网络条件差,甚至完全无网。

实际上,让机器人顺利应对复杂、动态的现实任务,一直是 AI 领域最难啃的骨头之一。

从公开视频看,Gemini On-Device 已能胜任多种常见场景,如叠衣、拉链、抓取陌生物体并放置到指定位置。而这一切得益于它的学习机制。

▲强大的泛化能力

它不需要从零开始进行长时间训练,开发者仅需提供 50 至 100 次人工演示,如亲自操控机器人叠衣,模型便能迅速学会并独立操作。

在更具挑战性的分布式任务或复杂的多步骤指令执行中,Gemini Robotics On-Device 的表现依然优于目前其他本地运行的替代方案。

而且,它的适配性也很强。

虽然 Gemini Robotics On-Device 最初在 Google 自研的 ALOHA 双臂机器人平台上进行训练的 ,但稍加适配,它也能稳定运行于 Franka FR3 工业机械臂。

甚至结构迥异的人形机器人 Apollo 也能丝滑运行,同一个通用模型通过少量学习,就习惯了完全不同的身体形态。

理想情况下,开发者无需为每种新机器人重新训练一个 AI,只需训练一次通用模型,之后通过轻量级的迁移学习即可部署到各式各样的机器人平台上。这种「一模多用」的能力将有望加速机器人技术的普及和应用。

当然,理想归理想,它也还有短板。

随着机器人智能与自主性提升,安全要求也随之提高。Gemini On-Device 虽然能执行动作,但它并不能合理判断你给的任务是否安全,因此,必须为模型加装「安全栓」。

DeepMind 给出的建议是,开发者可以给模型接入 Google Gemini Live API 接口,让系统先判断这个指令合不合理,再决定是否执行;同时在动作层面设置物理限制,如力度、角度、速度,以防意外。

此外,模型多步骤逻辑规划能力仍有提升空间。

像做三明治、整理桌面这这类需要先后逻辑、顺序安排的操作,目前还不在它的舒适区。这和它所基于的 Gemini 2.0 架构有关,未来随着升级到 2.5,这部分能力可能也会补齐。

另一个现实挑战,是数据。

虽然它只需几十次演示就能上手,但最理想的示范,是由真人实际操控机器人时采集的真实数据,而不是虚拟模拟。这类数据训练出来的效果,更快、更准,也更稳定。

▲技术报告地址:https://arxiv.org/pdf/2503.20020

据项目负责人 Carolina Parada 介绍,这是 Google 首次发布完全脱离云端运行的机器人 AI 模型,也是首个供开发者根据自身需求进行微调的版本。

目前,DeepMind 向「可信测试者」开放了 Gemini Robotics On-Device 的 SDK 和模型访问权限。如果你是做机器人开发、工业自动化,或智能系统研究的开发者,现在就可以申请试用。

附上申请链接:https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/edit?ts=67cef986

相关内容

热门资讯

US GLOBAL:电网承压下... 来源:市场资讯 8月21日,近期,德州电力局正准备在电网紧急情况下切断数据中心的供电,这一信号显示出...
当基因不是“说明书”:一场关于... 《生命传》,[英]菲利普·鲍尔 著,王乔琦 译,中信出版集团出版 如果要给生命找一个类比,来直观地描...
反内卷之下,究竟有多少新建光伏... 来源:赶碳号科技 赶碳号感觉这场“反内卷”一直很魔幻:一面是雷厉风行的限产限价、一场接一场规格越来越...
从蹒跚学步到健步如飞——人形机... 今年以来,人形机器人东风劲吹。“天工”,成为各界瞩目的焦点之一。 机器人“跑马”,不再是天方夜谭。随...
奇瑞汽车在合肥成立销售服务新公... 天眼查工商信息显示,近日,合肥盈智达汽车销售服务有限公司成立,法定代表人为尹兴杰,注册资本1000万...
均胜电子发布机器人全域控制器胸... 记者从均胜电子获悉,公司在机器人“大小脑”及关键零部件的核心技术攻关上取得积极进展,推出行业首创的“...
广东宝星取得一体双刀双梁桥式自... 金融界2025年8月21日消息,国家知识产权局信息显示,广东宝星新型石材有限公司取得一项名为“一种一...
高通发布第二代骁龙W5+与W5... 2025年8月21日,高通技术公司有了大动作,推出了第二代骁龙W5+和第二代骁龙W5可穿戴平台。这一...
男子酒后“自动驾驶”,醒来已上... 据央视新闻8月21日消息,现如今,汽车智能辅助驾驶技术越来越普遍,但智能辅助驾驶不等于自动驾驶。近日...
原创 深... “世界上第一个男人和女人是怎么来的?” 这个问题困扰了人类数千年。 在神话传说中,不同文明都有自己...
“未来教室”开进社区暑假课堂 (来源:沈阳晚报) 转自:沈阳晚报 “哇!我的麦子熟了!”“光合作用加速!”在沈阳市铁西区凌空...
全红婵“被带货”土鸡蛋,AI克... 当“AI孙燕姿”横空出世时,人们还在惊叹于技术进步之快,而今被滥用的AI克隆技术已经成了人工智能合规...
“一刻登机” 南航在广州-上海... 8月20日,南航在广州-上海虹桥往返航线推出“极速一刻 自在登机”(“一刻登机”)服务,这也是继广州...
智能电动汽车评测结果揭晓:小米... 在智能电动汽车领域,每一次的测评结果都备受关注,它不仅反映了各品牌车型的综合实力,也影响着消费者的购...
原创 淘... 淘宝首位程序员是谁呢?问一下AI,给出的答案是“蔡景现”,内部花名为“多隆”! 但其实蔡景现并非科班...
谷歌手机十年最狠升级,全家桶A... 新智元报道 编辑:桃子 KingHZ 【新智元导读】还没等到苹果出手,谷歌直接截胡了!昨晚,全新P...
请立即更新:苹果紧急修复iPh... IT之家 8 月 21 日消息,科技媒体 bleepingcomputer 昨日(8 月 20 日)...
都在造电车,但小米和华为还不是... 华为和小米几乎同一时间从科技圈进入到车圈,两家企业的竞争跳跃式的进入到了另一个行业。 网上,两家企业...
2025数博会|东彩科技将携“... 即将启幕的数博会,将迎来一位“新面孔”——贵州东彩供应链科技有限公司。与去年以嘉宾身份观摩学习不同,...
和泽科技美妆装备跻身国际顶流 (来源:湖州日报) 转自:湖州日报 记者 朱寅敏 本报讯 连日来,在南浔区练市镇的和泽科技(湖州)...