全球首例!大模型机器人线下真机展示泛化干活技能
创始人
2024-06-22 11:02:13
0

这是被称为“全球首例可以线下真机展示泛化干活技能的大模型机器人”,是现象级人形机器人企业「银河通用」的首个人形机器人GALBOT G1。

当前,大模型在技术的推动下不断迭代进化,涌现出具备多能力的“全能选手”。然而,这些模型仍面临着感知模态不足、实时性响应不足以及泛化能力较弱等挑战。

机器人大模型发展的终极目标之一是提升机器人在不同环境和任务下的执行成功率,通用人形机器人是该领域科研人员和技术人员共同追求的理想目标。

那么,通用机器人需要怎样的具身智能大模型系统?

在本月举办的2024中国人形机器人开发者大会上,北京大学助理教授、北京银河通用机器人有限公司创始人兼CEO王鹤先生发表了关于“面向通用机器人的具身多模态大模型系统”的主旨演讲,引发了行业内外的广泛关注。

本文将从银河通用人形机器人GALBOT G1以及王鹤教授最近发表的一些观点出发,探讨通用机器人技术的新进展、挑战及未来趋势。

▍通用人形机器人的定义与挑战

对于“通用人形机器人”的概念,王鹤教授认为,通用不仅指机器人在形态上的人形化,更重要的是其在任务和环境上的通用性。通用机器人的实现需要解决两大关键问题:任务通用和环境通用。

任务通用意味着机器人能够执行各种不同的任务,如抓取、放置、开抽屉、开柜子、送货等,实现“言出法随”;环境通用则要求机器人能够在各种地形和环境中自由穿梭,达到人类能够到达的地方。

为了实现通用性,银河通用机器人提出了一个由基石层能力层支撑的机器人结构。基石层的核心在于打造一个通用的本体,这决定了机器人能够产生和利用的数据种类和质量。基于这些数据,机器人将发展出感知、决策和执行的能力,形成一个完整的通用机器人系统。

▍本体创新:打造通用机器人基石

在通用机器人的研发过程中,本体设计是至关重要的一环。传统的腿式人形机器人虽然在行走和奔跑方面取得了显著进展,但在泛化能力方面仍有待提升。

在本体层面,银河通用首个人形机器人GALBOT G1以其独特的移动双臂和轮式腿设计,实现了全方位的360°移动能力。其身高为173cm,臂展为190cm,这样的设计使得它能够应对不同任务需求。其中,机器人的躯干提升能力达65cm,能够胜任不同工作场景。

值得一提的是,GALBOT G1的操作范围可从0至240cm,极大地扩展了其工作区域。据悉,基于这一特性,GALBOT G1能够灵活地调整其工作模式。

在需要稳定抓取地面物体时,它可以自主切换到“跪姿”模式;而当面对高度超过两米的物品时,它又能迅速转换为“站立”模式,从而覆盖了更广泛的工作空间。

不仅如此,GALBOT G1还展现出了高成功率的通用操作能力,这使得它能够胜任多种复杂任务。

▍数据驱动:赋能机器人具身智能

数据层面是实现具身智能的关键。王鹤教授强调了通过大规模合成仿真数据来驱动具身智能的重要性。

传统的数据采集方式成本高昂,难以大规模应用于实际场景。当前,银河通用的研究团队已经能够将各种家用电器等实际物体引入仿真设备中,并实现高度逼真的物理仿真。

例如,当机器人需要模拟拉抽屉的动作时,它会遵循真实的物理规律,沿着特定的方向施加力量,而不是简单地像在游戏中那样,手一挥抽屉就立即弹开。这样的仿真方式至关重要,因为它确保了机器人在虚拟环境中学习到的技能和经验,在真实世界中同样具有实用价值。

为了进一步提升仿真的真实性,研究团队在仿真世界中放置了丰富多样的物体,并为它们赋予了与真实世界相同的交互方式。此外,他们还在仿真环境中集成了传感器,用于收集训练数据。通过这种方式,他们获得了一个高效且可靠的数据生成来源,为机器人的学习和训练提供了强有力的支持。

据悉,他们的研究成果在CVPR等顶级会议上获得了高度认可,展示了合成数据在提升机器人操作效率和泛化能力方面的巨大潜力。

银河通用机器人展示了其在合成数据方面的突破。通过合成数据进行训练,机器人能够在抓取透明、高光物体,以及在复杂光照条件下操作时表现出色。

这些操作完全基于合成数据训练,没有使用一张真实世界的数据,体现了合成数据驱动具身智能的高效性和可扩展性。

▍大小脑协同:驱动通用机器人智能进化

谷歌的视觉语言动作大模型在环境的泛化性和速度方面表现并不出色。谷歌的大模型在响应速度上每秒只能达到一到三次,而OpenAI使用的小模型能实现200赫兹的响应速度。这种差异源于谷歌的模型试图同时处理大脑和小脑的功能,导致在实时性和柔顺性上表现不佳。

对于具身大模型的构建,王鹤教授提出了大脑大模型和小脑大模型的概念。大脑大模型负责高层次的语义理解和决策,小脑大模型则负责具体的操作和执行。

银河通用机器人在具身大模型的构建上,提出了一个三层架构:底层是硬件层,中间层是三维视觉合成数据驱动的技能层,上层是图文大模型层。

图文大模型负责低频调用,而技能层则负责高频快速执行,这种架构设计既保证了操作的精准性,又提高了系统的响应速度。

▍未来展望:端到端具身大模型的实现

关于未来,一些专家坚信通用人形机器人的发展将趋向于端到端具身大模型,这一理念与特斯拉在自动驾驶领域的早期探索颇为相似,他们同样采取了模块化的方式,涵盖感知、规划和控制等多个环节。

通过构建一个端到端具身大模型,机器人能够仅凭一句简单的指令,在未见过的环境中执行行走任务。对于银河通用来说,这背后的关键是自然语言导航大模型,它无需依赖深度传感器、激光雷达、里程计或箭图等传统导航手段,仅凭RGB观测就能理解人类语言并作出相应行动,甚至在嘈杂的实验室环境中也能精准执行指令。

王鹤教授表示,随着研究的深入,团队将进一步引入手部动作的能力,实现手与腿的协同操作,从而构建出真正的首个机器人基础大模型。

相关内容

热门资讯

夏日躬行路,青春实践歌 南京邮电大学 近日,南京邮电大学硕博实践团赴南京多家知名科技企业开展调研。实践团深入企业研发一线...
“绵阳造”人形机器人应用场景又... “抬起左手,再抬起右手……”近日,成都一家养老院来了一名特殊的新“护工”——一款由绵阳乐聚机器人技术...
人形机器人离我们的生活还有多远... 新华社北京8月16日电(记者阳娜、魏梦佳)15日,2025世界人形机器人运动会的首个比赛日产生5块金...
格瑞迪斯公布“一种可无限次开关... 天眼查APP显示,近日,新疆格瑞迪斯石油技术股份有限公司申请的“一种可无限次开关旁通循环系统及工作方...
城市无人机医药配送西安成功首飞 一架搭载药品的无人机起飞配送药品。(记者 王超 摄) 本报讯(记者 王超)近日,西北地区交通物流与医...
苹果新一代HomePod mi... 【环球网科技综合报道】8月14日消息,科技媒体MacRumors最新报道显示,苹果正在研发第二代Ho...
金马科技“一种智能楼宇视频监控... 天眼查APP显示,近日,北京中科金马科技股份有限公司申请的“一种智能楼宇视频监控设备自动化控制系统”...
飞凯材料获得发明专利授权:“涂... 证券之星消息,根据天眼查APP数据显示飞凯材料(300398)新获得一项发明专利授权,专利名为“涂料...
AIGC单元入围公布|人文之光... 来源:市场资讯 (来源:东南卫视) 随着AI技术汹涌而来,AIGC正以前所未有的速度拓展着创作与想...
盱眙华洋取得一种钢管内磨机专利... 金融界2025年8月16日消息,国家知识产权局信息显示,盱眙华洋工业科技有限公司取得一项名为“一种钢...
Meta六个月内第四次全面改革... 美东时间本周五,据多位知情人士独家透露,科技巨头Meta正计划对其人工智能(AI)工作团队进行全面重...
中国电信智算创新 引领人工智能... (图片来源:摄图网) (记者 陈锦锋)在数字经济与人工智能深度融合的时代浪潮中,中国电信以科技创新...
辽宁远东取得组合式换热器专利,... 金融界2025年8月16日消息,国家知识产权局信息显示,辽宁远东换热设备制造有限公司取得一项名为“一...
原创 能... 一直以来都有一个问题在小智脑海里盘旋,那就是我手上的手机"真的完全属于我自己"吗?可能很多人看到这个...
沪天阀门取得紧凑型水平电动锥形... 金融界2025年8月16日消息,国家知识产权局信息显示,沪天阀门制造有限公司取得一项名为“一种紧凑型...
在“2025年度AI人物”看见... 8月14日,总台人工智能产业发展大型主题活动《2025中国·AI盛典》重磅揭晓“2025年度AI人物...
工学云签到数据一键同步钉钉企业... 在现代办公环境中,多平台协作已成为常态,但不同系统间的数据同步问题却常常困扰着职场人士。以往,员工在...
常荣声学等公布“一种声波发生器... 天眼查APP显示,近日,国家能源集团永州发电有限公司,南京常荣声学股份有限公司申请的“一种声波发生器...
人形机器人,进化“赛道”向何方... 来源:市场资讯 (来源:上观新闻) 8月15日,2025世界人形机器人运动会正式开赛!来自16个国...
方圆阀门申请一种球阀专利,可将... 金融界2025年8月16日消息,国家知识产权局信息显示,方圆阀门集团有限公司申请一项名为“一种球阀”...