大模型这把“火”,烧到了人形机器人
创始人
2024-02-02 10:17:57
0

原标题:大模型这把“火”,烧到了人形机器人

图片来源@视觉中国

文|读懂财经

如果大模型是雷神之锤,那么适合它的钉子在哪?过去一年里,所有人都在急切地寻找这个问题的答案。人形机器人,是所有科技公司为数不多的一个共识。

近日,据外媒报道,微软与OpenAI正洽谈参与人形机器人公司Figure的新一轮融资,本轮融资金额最高可能达5亿美元。

这已经是OpenAI出手投资的第二家人形机器人公司。这并不是孤例。几乎所有布局大模型的人和公司,都对人形机器人有着浓厚的热情,并投入了研究资源。从英伟达到谷歌,从亚马逊到Meta,甚至包括马斯克,莫不是如此。

作为一个曾经经历几度起伏的高科技技术,市场对人形机器人的热情被AI 大模型彻底“点燃”。正如很多人预期的那样,在生成式AI通过AGI(人工通用智能)的道路上,人形机器人是不可或缺的重要硬件载体。

人形机器人,正在重新回到熟悉的聚光灯下。

机器人热情由来已久

此次投资Figure,并不是OpenAI第一次投资人形机器人公司。去年3月,来自挪威的人形机器人初创企业 1X Technologies(简称:1X),获得了一轮由 OpenAI 创业基金领投的 2350 万美元融资,成为了 OpenAI 投资的第一家硬件公司。

OpenAI的初创企业基金全称是“OpenAI Startup Fund”,投资方向更侧重于率先实现AI技术落地的方向。这也是OpenAI投资1X的重要逻辑。OpenAI一名高管曾公开表示,“投资1X瞄准的时机是其机器人硬件已经成熟,能够在AI的加持下开拓更广泛的劳动力市场。”

如今,再次加注机器人赛道,说明OpenAI对人形机器人赛道的高度看好。作为人形机器人领域领先的创业公司,1X和Figure都已经推出了人形机器人的产品。

其中,1X共有两款机器人产品,工作机器人EVE和正在研发的家用双足机器人NEO。而Figure也在去年发布了第一款通用人形机器人Figure 01,目前Figure已经与宝马达成协议,将在汽车制造领域部署“通用人形机器人”。

事实上,OpenAI对人形机器人的热情由来已久,比大家想象得更高,甚至OpenAI还一度专门在内部成立了一个机器人部门。

早在2017年,OpenAI的机器人团队,就发布过用于模拟机器人控制的开源软件Roboschool。2018年,团队研发出来的机械臂已经能自如地“盘核桃”,即灵活把玩木块。当然,OpenAI机器人团队最著名的研究,是它研发的机械手,单手就能拧魔方。‍

当然,对人形机器人情有独钟的大模型企业还不止OpenAI。一个有趣的现象是,几乎每一个在大模型领域有所建树的企业,都或多或少地布局了人形机器人。

就拿谷歌来说,去年10月DeepMind发布RT-X机器人大模型,并开放训练数据集Open X-Embodiment。今年1月,谷歌DeepMind团队和斯坦福大学华人团队合作研发的能炒菜、做家务的通用机器人Mobile ALOHA刷屏全网。

至于马斯克更不用说,去年7月成立了一家名为X.Al的人工智能公司,今年年底,特斯拉推出了人形机器人擎天柱,并有望在明年实现交付。

AI大模型落地过程中,人形机器人究竟扮演着怎么角色,能够受到这么多的青睐?

人形机器人,AGI的“答案”?

在说大模型与人形机器人关系之前,我们需要先对什么是人形机器人有一个认知。

必须明确一点的是,机器人并不是一个新兴事物。在人形机器人出来之前,工业机器人已经是一个超过500亿的市场,并广泛应用于汽车、3C、纺织、包装等行业。

但是工业机器人也有很明显的弊端,就是通用性不足。传统的工业机器人并不能直接使用,需要被系统集成商集成后使用。机器人的系统集成不仅需要结合对客户工艺的理解高度定制,同时也是严重依赖工程师的经验。这注定了工业机器人适用于大规模、重复性生产的工作。

与其说,工业机器人是机器人,倒不如说其更像是自动化设备。在这一点上,人形机器人无疑更接近我们对机器人的理解。

人形机器人,顾名思义就是形态更接近人的机器人。但外在的形态不过是表象,其内核的特点是机器人的智能性和通用性。之所以选择“人形”,只是因为我们活动的世界是为人的身体所创造的,人的形态可以操作一切工具,具有最广泛的适应性。

从物理维度上说,人形机器人由三个模块组成,分别是“肢体”“小脑”和“大脑”,其中“肢体”由灵巧手、传感器等一系列硬件组成,“小脑”负责运动控制,“大脑”则主导机器人的环境感知、推理决策和语言交互。

而大模型的出现,将语义理解能力和推理生成能力引入其中,相当于给人形机器人换了个“大脑”。大模型对人形机器人的提升主要体现在两个方面:感知能力和思考决策能力。

先说感知能力,大模型的强拟合能力使得人形机器人在进行目标识别、避障、三维重建、语义分割等任务时有可能实现更高的高精确度。举个例子,现在AI已经可以做到识别障碍物,但是如果路边有个人举个牌子,说前方桥断请绕行。过去的AI很难理解这种情况,但基于大模型的人形机器人却有可能识别、理解这些信息。

思考决策能力的意思是,人形机器人具备较好的知识完备性,能够把一个指令拆解成多个子任务和子指令,在不同场景去完成各种任务。比方说,你和机器人说“把饭热一下”,它知道要去找微波炉。

随着谷歌、英伟达等公司对大模型+机器人探索的深入,上述积极影响也得到了证实。2022 年 12 月,谷歌发布了RT-1模型。这是一个基于机器人数据的端到端模型,输入端是一小段图像序列和用文本描述的任务,输出端是动作指令,包括7个维度的手臂动作指令、3个维度的基础移动指令和1个维度的状态切换指令。

研究人员让机器人执行了超过 700 项任务,结果显示:在之前见过的场景、之前未见过的场景、被干扰场景、背景更换场景,搭载 RT-1 模型的机器人都展现出了更高的成功率。

值得一提的是,这是机器人首次通过庞大的、多样化的、任务无关的数据,展现出泛化性,执行了一些未曾见过的任务。

去年7月,谷歌发布了RT-2,这是一个视觉—语言—动作模型。在这个模型里,谷歌将参数量从35M提高到55B。研究人员对RT-2模型进行了和RT-1一样的测试。结果显示,RT-2的理解能力、推理能力、针对未知场景的泛化能力都显著优于RT-1模型。

可以说,基于大模型的AI技术让人形机器人通用化变成了可能。而人形机器人作为一个硬件载体,也让生成式AI距离AGI的目标越来越近了。

重新回到聚光灯下

尽管引入大模型后拥有了“常识”,并带来了一定的泛化能力,解决了自然语言理解和任务规划的两大难题,也有越来越多公司发布人形机器人,似乎这一切离我们越来越近了。但我们必须清醒认识到:人形机器人距离真正落地仍然有很长的路要走。

大模型对人形机器人智能化的突破固然可喜,但并不解决机器人硬件层面的难题。人形机器人的操作能力和移动能力需要借助硬件本体的硬件和算法来实现,但在过去50年的人形机器人研究历程中,这个难关一直没有被攻克。

比如,扫地机器人能通过底盘滑动前行,四足机器狗可以靠四肢保持稳定和平衡,但人形机器人只有两条腿,行动时只能依赖一条腿保证整个身体的稳定和平衡。大模型对物理运动能力的帮助是有限的。

对于人形机器人公司来说,另一大挑战是数据。人形机器人的模型训练需要大量决策数据做支撑,如果数据不够,输出的结果会容易漂移,成功率也会受影响。

目前,遥操作数据是各家机器人收集数据的重要方法,操作逻辑是先学习和分解人是怎么做到的,然后对应机器人要怎么做到。由于采用的是真实世界数据,数据质量最高,但采集成本也很高。比如,谷歌用于训练 RT-1 和 RT-2 的机器人数据是历时超过17个月在13个机器人上收集而来。当年,OpenAI解散了旗下的机器人团队,获取收集难度大就是一个重要原因。

这也是大模型企业都在布局人形机器人的原因。借助机器人的硬件本体,AI可以更多地接触外界信息,这些数据也有反哺AI算法的可能性。比如,特斯拉的自动驾驶汽车在高速路上积累的数据,哺育了 FSD 的算法系统,提供了最基本的数据基础。

尽管有着种种问题,但还是无法阻挡越来越多大模型公司冲入人形机器人赛道。很多人把去年称为,人形机器人真正产业化的元年。但已经少有人记得,2016年那波人形机器人热潮,潮水褪去,最后活下来的所谓人形机器人公司寥寥无几。

当一项超出想象的新技术开始真正走向商业化,面世之初的震撼会很快消退。参与公司需要一边接受商业规律的检验、一边推动技术走向成熟。个人电脑、互联网行业都经受住这样的考验,进而重塑了整个世界。人形机器人曾几度突围、几度停滞,现在借着大模型的风口,新一批公司又到了这个阶段。

相关内容

热门资讯

雷军宣布:小米YU7月底震撼登... 雷军近日在微博上透露,备受瞩目的小米YU7即将于本月底震撼发布。与此同时,他还预告了多款重磅新品的亮...
emoji跨平台显示差异惹争议... 今日,“苹果用户再也不敢乱用emoji表情了”的话题冲上热搜榜。 博主测试发现,苹果的emoji,...
格力主导ISO制冷新国标落地,... 6月12日,格力电器在珠海举办了一场盛大而特别的全球发布。 没发布任何一款新品,也未推出任何一项新技...
华为发布“天才少年挑战课题” ... 其中,智能联接&计算的课题有:自主智能无线通信架构与关键技术研究、昇腾强化学习系统关键技术研究、AI...
读书丨人工智能:引领新一轮科技... 人工智能 人工智能,是一个以计算机科学为基础,由计算机、心理学、哲学等多学科交叉融合的交叉学科、新...
Nature子刊,北大团队使用... 编辑 | 白菜叶 细胞间通讯(CCC)是确保生物系统和谐运作的基本生物学过程。 越来越多的证据表明,...
智慧园区的创新发展与趋势 近年来,我国对智慧园区的建设与发展愈发重视,各部门相继出台一系列政策大力支持和引导园区建设。而通过运...
原创 华... 华为Pura80系列2025年6月11日正式发布,影像方面迎来重磅升级,售价和上一代保持一致,加量不...
核心网年收入不足1亿,震有科技... 6月12日晚,震有科技(688418.SH)发布定增预案,拟募资不超过10.96亿元,用于建设“卫星...
虚拟现实“造梦” 探路影院未来 中新社上海6月16日电 题:虚拟现实“造梦” 探路影院未来 中新社记者 王笈 戴上头显设备,坐入球状...
618换机就选华为畅享系列,超... 随着618年中大促进入最后冲刺阶段,消费者们纷纷开始寻找高性价比的产品。而华为畅享系列凭借其卓越的续...
毕业论文拥抱AI 边界如何定? 正值2025年毕业季,关于“论文AI率”的讨论冲上热搜。一些高校在传统的查重、答辩等流程之外,新增了...
11万股民热泪盈眶!江苏无锡的... 先导智能经历了一轮“过山车”行情。 2015年5月,先导智能(300450.SZ)登陆资本市场,发行...
原创 专... 今日,成都市首批智能机器人实景验证活动举行,在东御街88号、红星路、天府广场、泡桐树小学、武侯祠五个...
从手术到病房,临安医院的“机器... 潮新闻客户端 记者 郑佳颖 通讯员 夏陈添 指导患者出入院流程、针对高血压、糖尿病等常见慢性病,提供...
腾讯云首次亮相科技盛会Viva... 巴黎时间6月11日-13日,有着“欧洲科技春晚”之称的盛会 Viva Technology 2025...
银发经济崛起中的技术温度:英科... 银发经济蓬勃发展,老年群体的健康管理、便捷出行与生活品质需求激增。值此父亲节健康关怀聚焦之际,英科医...
未来图灵诚邀您寻找“下一个De... 2025年,全球AI行业正经历“技术达尔文主义”的残酷筛选,OpenAI、谷歌等巨头用GPT-5、G...
深度智控——用AI重构能效极限... 在AI技术驱动的革命浪潮中,深度智控凭借“PhyAI”的前沿技术,正成为工业能效智控领域的引领者与破...
罗永浩数字人直播带货了,开播2... 罗永浩不会错过任何一个风口,这次是数字人直播带货。 6月15日下午17:00,数字人罗永浩和数字人朱...