谷歌发布本地VLA模型,机器人界的“安卓系统”要来了?
创始人
2025-06-26 02:40:39
0

图片来自视觉中国

蓝鲸新闻6月25日讯(记者 武静静)6月25日,Google DeepMind正式发布首个可完全在机器人本地部署的视觉-语言-动作模型(Visual-Language-Action, VLA)——Gemini Robotics On-Device。

这也意味着,具身智能(Embodied AI)正在从依赖云端算力,迈入本地自主运行的关键转折点,也为产业落地打开了新的可能性窗口。

少量演示即可快速学习,具有跨机器人形态泛化能力

一直以来,具身智能的部署面临着两大挑战:一是对云计算资源的重度依赖,这限制了机器人在网络不稳定或无网络环境下的独立作业能力;二是模型体积庞大,难以在机器人有限的计算资源上高效运行。

据官方介绍,Gemini Robotics On-Device能够在算力受限的机器人设备上本地运行,同时展现出卓越的通用性和任务泛化能力。由于该模型无需依赖数据网络,因此对于对延迟敏感的应用程序具有显著优势。

更为关键的是,该模型在实际操作中展现出高水平的通用能力和稳定性。Google DeepMind展示的演示视频中,机器人在无网络连接状态下完成了如“把一个魔方放进包装袋里”“拉开一个包包的拉链”等任务,涵盖感知、语义理解、空间推理和高精度执行多个环节。

DeepMind研究人员表示,它具备 Gemini Robotics 的通用性和灵活性,可以立即处理各种复杂的双手任务,且只需 50-100 次演示, 它就能学习新技能。一位机器人领域工程师告诉记者,目前大部分机器人需要进行成千上百次训练,才能完成一个任务。这意味着,谷歌的新模型极大地扩展了模型的应用范围和部署灵活性。

值得注意的是,尽管模型最初针对特定机器人训练,但它能泛化到不同的机器人形态,如双臂机器人和人形机器人,极大地扩展了其应用潜力。在演示视频中可以看到,在双臂 Franka 上,该模型可以执行通用指令,包括处理以前未见过的物体和场景、完成折叠衣服等灵巧的任务,或执行需要精确度和灵巧性的工业皮带组装任务 。

此外,谷歌首次开放VLA模型的微调功能,这意味着工程师或机器人公司可以基于自有数据对模型进行定制训练,从而优化其在特定任务、场景或硬件平台上的表现,进一步提升应用效率与实用价值。同时,谷歌还推出了 Gemini Robotics SDK,方便开发者进行模型评估和快速调整。从这些动作可以看出,谷歌希望为机器人领域提供一个开放、通用且易于开发的平台,就像安卓系统为智能手机行业所做的那样。

具身智能正在进入“端侧时代”

“这标志着机器人终于可以走入真实环境了。一位具身智能领域专家告诉蓝鲸科技记者,“以往受限于带宽和算力,很多机器人AI只能做示范。这次谷歌的进展,意味着通用模型可以真正运行在硬件终端上,未来不依赖联网也能做复杂操作。”

具身智能一度被认为是AGI通向现实世界的桥梁,而具备本地部署能力的VLA模型,则是这座桥梁通车的关键一环。前述专家告诉蓝鲸科技记者,本地VLA模型将使得机器人更适合家庭、医疗、教育等敏感场景,解决数据隐私、实时反应、安全稳定性等核心挑战。

过去几年,大语言模型的“端侧部署”已成为重要趋势之一。从最初依赖大规模云端计算资源,到如今能够在手机、平板等边缘设备本地运行,模型的压缩优化、推理加速与硬件协同不断取得进展。

同样的演进路径,正逐步发生在具身智能领域。VLA模型(视觉-语言-动作)作为具身智能的核心架构,其本质是让机器人具备从多模态信息中理解任务并做出行动的能力。此前这类模型往往需要依赖强大的云端资源进行推理和决策,受制于网络带宽、算力功耗与实时性瓶颈,难以在现实复杂环境中高效运行。

谷歌此次发布的 Gemini Robotics On-Device,意味着具身智能正在进入类似语言模型的“端侧时代”。它不仅在有限算力下实现了稳定运行,还具备良好的通用性与迁移能力,能够支持快速学习与适配不同任务和机器人形态。此次发布,也可能引发业界连锁反应。随着AI算力和模型架构的持续演进,“边缘智能”正从传统的物联网(IoT)走向以具身智能为代表的更高级阶段。

本地VLA模型将成为下一个必争之地。“目前各类机器人在本体结构、自由度和传感器配置上的差异,使得统一的软件架构难以实现。”一位关注机器人领域的投资人表示,“一旦硬件标准趋于统一,正如智能手机生态中USB接口、键盘、屏幕等通用组件所形成的规范一样,将大大推动算法的标准化与本地部署的实现。”他认为,谷歌正在构建的“机器人安卓生态”愿景,预示着一个更加标准化、易于开发与普及的具身智能有望到来。

不过,在实际落地中挑战依旧不容小觑,机器人硬件的多样性和复杂性依然是突出问题,市场上形形色色的机器人硬件意味着即使是强大的通用模型,也需针对每种具体硬件进行细致的适配和调优。此外,要在海量、多样化的实际应用场景中真正落地,数据收集和标注的成本可能异常高昂,特别是在需要专业操作知识和设备的工业或特定服务场景。

更重要的是,机器人需要在极其复杂、动态且不可预测的真实世界环境中保持鲁棒性。光照变化、物体遮挡、非结构化杂乱环境,以及人机交互中的细微差异,都将对模型的实时感知和决策能力提出严苛考验。确保机器人在各种实际场景中都能保持高水平的稳定性和安全性,是未来具身智能发展必须持续攻克的难题。

相关内容

热门资讯

夏普推出口袋智能伙伴“Poke... IT之家 8 月 21 日消息,夏普公司推出了名为“Poketomo”的口袋智能伙伴,旨在为用户的日...
一分钟完成自主点外卖!智谱推出... 8月20日,以B端(面向企业)见长的智谱再度在C端发力,拓展C端(面向消费者)Agent(智能体)应...
以数字技术筑牢生命健康防线,中... 健康是民生之基,数字是时代之翼。当信息技术与生命健康深度交融,一条守护全民福祉的数字防线正愈发坚实。...
我国发现世界首个全温区固态相变... 我国发现世界首个全温区固态相变制冷材料 传统的冰箱和空调使用的气体压缩制冷技术存在能耗高等问题。为...
字节跳动回应“豆包手机”传闻:... 8月20日消息,针对近日市场上有关字节跳动正在研发“豆包手机”的传言,字节跳动相关负责人明确回应称,...
AI时代,高等教育有何可为与不... 中新社北京8月20日电 题:AI时代,高等教育有何可为与不为? 中新社记者 曾玥 “人工智能(AI)...
共筑社区微景观!这场亲子活动让... 近日,定海路街道党群服务中心在爱西居委举办了一场主题为“绿意萌芽 新芽初绽”的亲子活动,特别邀请了辖...
百度李彦宏曾辟谣“All in... 作者|号外工作室 一周一场媒体招待会,周周“AI Day”,研发费用被砍13%,李彦宏曾辟谣说过“...
山钢·京东运营中心构建区域生态... 近日,山钢·京东运营中心在莱钢文化服务中心启动。该项目是山钢集团与京东集团深度融合的重要成果,也是莱...
医渡科技公布数字疗法海南落地成... 近日,2025数字疗法大会在海南举办。在“AI+慢病管理场景应用论坛”上,一场以“数字疗法在基层糖尿...
日本功率芯片危矣!“散兵”难敌... 来源:金投网 尽管日本已经投入数十亿美元用于人工智能芯片制造,但在传统功率半导体领域,其主导地位却正...
外媒:奥尔特曼称自己不适合担任... 环球网 8月18日消息,据timesofindia援引彭博社报道,OpenAI 首席执行官 Sam ...
绿的谐波跌1.44%,成交额1... 来源:新浪证券-红岸工作室 8月20日,绿的谐波跌1.44%,成交额11.05亿元,换手率4.07%...
驰阳休闲取得户外百叶篷用圈梁组... 金融界2025年8月20日消息,国家知识产权局信息显示,临海驰阳休闲用品有限公司取得一项名为“一种户...
原创 韦... 四十年前旅行者二号曾与之失之交臂。 美国国家航空航天局詹姆斯·韦伯望远镜最新发现天王星最小卫星,这...
印度AI服务卷起价格战,印媒:... 【环球时报报道 记者 苑基荣】生成式人工智能(AI)工具ChatGPT制造商OpenAI于19日推出...
国网平舆县供电公司:数智赋能 ... 大象新闻记者 周文德 通讯员 张超会 闫梦珂 8月20日,国网平舆县供电公司深入落实数字转型赋能行...
能绕过人脸识别的AI,已经盯上... 就前段时间的事情,南京那边发生了一起诈骗案。 195万多条隐私信息,最后只黑了一万五,看上去这哥们...
辛巴五次“退网”,辛选帝国谁来... 图源:辛选官网 “消失与重现”,成了流量密码 撰文/ 李觐麟 编辑/ 李 季 排版/ Annalee...
山东方诺取得加强型拖拉机驱动半... 金融界2025年8月20日消息,国家知识产权局信息显示,山东方诺机械科技有限公司取得一项名为“一种加...