智源研究院院长王仲远:多模态大模型尚未实现高度普适化
创始人
2025-06-07 12:21:45
0

2025北京智源大会6月6日开幕,智源研究院院长王仲远就多模态大模型、具身智能等热点问题接受媒体采访。他表示,多模态大模型已在特定场景启动落地,但尚未实现高度普适化。智源多模态大模型是为了推动AI从数字世界走向物理世界,未来除了视频、文字、语音、脑信号数据等,多模态大模型还将加入3D信号、时空信号等数据进行融合。

从繁杂的模态数据中筛选最有效信息亟待突破

王仲远表示,互联网文本数据基本已经被使用完毕,大语言模型性能提升已相对缓慢。现实世界中存在大量多模态数据,比如流程图、CT数据和各行业的传感器数据等,可以突破大语言模型的瓶颈。

开幕式上,智源研究院推出“悟界”系列大模型,其中,Emu3作为原生多模态统一架构,让大模型具备理解和推理世界的能力。

如何理解原生多模态大模型的“原生”概念?王仲远说,当前多模态大模型的学习路径,尤其是多模态理解模型,通常是先将语言模型训练到很强的程度,随后再学习其他模态信息,如同先达到博士学位水平,再去接触其他知识。在此过程中,模型的能力可能会出现下降,从“博士”水平降至“大学”甚至“高中”水平。

但人类的学习路径不是这样的,小朋友从出生就开始听到世界的声音,跟各种物品、图像交互学习,父母通过声音教他。所谓的“原生”正是如此,是指在模型训练初始阶段,就将文字、图像、声音乃至脑信号等各种模态数据都纳入其中进行训练。随着模态种类不断增加,如何从繁杂的模态数据中筛选出最有效的信息,成为亟待突破的技术难题。目前,不仅智源研究院,行业内众多机构都在积极探索原生多模态技术。

此外,也有专家学者猜测,国际上近期发布的产品背后或许已运用原生多模态技术,不过这些产品对技术细节的披露愈发稀少。从行业专家及学术层面来看,原生多模态是值得深入探索的技术路线,它与企业多模态技术路线存在差异。企业多模态技术是先强化语言模型,再添加多模态,更便于实现产业落地。

在产业界,多模态大模型依然在做图像生成、视频生成,这些在设计、广告、电商领域有很好的落地,可以极大提升生产效率。王仲远介绍,多模态大模型已在特定场景启动落地,但尚未实现高度普适化。在实际场景中,多模态需求不可回避。例如,英语教学需融合声音、图像与场景理解,但当前多模态大模型能力仍显著弱于语言模型,导致产品效果不及预期。尽管产业界尝试通过“打补丁”的方式优化体验,但根本性突破仍依赖更强大的基础模型。

未来多模态模型将加入3D信号、时空信号等

“智源多模态大模型是为了推动AI从数字世界走向物理世界。”王仲远说,具身领域的数据有更多模态,现在的模态包括视频、文字、语音、脑信号数据等,未来还可能加入3D信号、时空信号等数据。

“我们做的原生多模态世界模型的统一架构,不仅理解静态的多模态数据,还要理解空间、时间。”他举例说,现在很多多模态模型看到桌子上的咖啡杯,会描述“咖啡杯在桌上,咖啡杯是白色的,上面有一些文字”,但人类对空间上的认知会觉得“咖啡杯在桌子的边缘,很危险”。现在绝大部分多模态大模型不具备这样的判断能力。

有了空间的理解后,机器人操作时就应该从桌子边缘往里拿杯子,而不是从里往外拿杯子。“咖啡杯有可能掉下去甚至弄脏地板,这就是时空智能预测,是我们要探索的多模态世界模型的能力。”

具身智能“小组赛”还未结束,远没有到“淘汰赛”

谈及具身智能,王仲远表示,在具身智能发展过程中,智源希望能探索出独特的发展路径:首先是数字智能物理化。通过大模型技术将数字世界的推理、规划等智能能力延伸至物理世界,推动机器人从“单一功能”向“通用智能”进化。

其次是低成本功能化。聚焦垂直场景,降低单台机器人成本并强化特定能力,如家庭清洁、工业分拣,通过规模化落地积累数据,逐步拓展应用边界,让很多小型机器人也能走进千家万户。因为大型人形机器人技术复杂度高,商业化周期更长,而小型专用机器人若能在细分场景实现极致性价比,可能率先渗透家庭与产业场景,为具身智能的长期发展奠定基础。

目前,许多智能驾驶车企正在进军具身智能领域。对此,他认为,车企的核心优势体现在制造能力与产业链整合、落地场景资源两个方面。智能驾驶车企积累的交通、出行等场景数据,可能为具身智能提供初期应用场景,比如物流、服务机器人等。

但具身智能的技术复杂度远超智能驾驶,需融合感知、决策、行动等多维度能力,对算法、硬件协同要求更高,车企现有技术积累未必直接适用。另外,具身智能尚处发展早期。“小组赛”阶段,大模型机构、硬件厂商、科研团队等多方参与,不同领域玩家的技术路径仍在碰撞中,远没有到“淘汰赛”阶段,最终谁能形成突破尚未可知。“不过,越来越多参与方共建具身智能产业,本身是件好事,每一方都会带来不同的视角和理念。具身智能最终是交叉学科,不同思想的碰撞一定有利于产业发展。”

未来三年,具身智能最可能在哪个领域产生突破性的规模化应用?王仲远认为,首先是在相对封闭的特定场景里落地,比如工厂,这不仅能规避当前具身智能不成熟阶段的安全隐患,同时也能替代人类进行相对重复且枯燥的任务。

新京报记者 张璐

编辑 刘梦婕 校对 付春愔

相关内容

热门资讯

【2025数博会】数博会交流活... 8月26日,2025年中国国际大数据产业博览会媒体吹风会举行。记者从吹风会获悉,本届数博会交流活动预...
联影医疗:公司自主研发光子计数... 本报讯 (记者金婉霞)8月26日,记者从上海联影医疗科技股份有限公司(以下简称“联影医疗”)获悉,由...
原创 马... 《Her》是曾经上映的一部电影,讲述了有血有肉的人类和一堆代码构成的人工智能之间的爱情。 最近, ...
世界互联网大会文化遗产数字化论... 8月26日,2025年世界互联网大会文化遗产数字化论坛新闻发布会在北京召开。陕西网记者从会上获悉,世...
马斯克新公司:“巨硬”!硬刚微... 来源:市场资讯 (来源:智东西) 智东西 作者 王涵 编辑 漠影 智东西8月25日消息,两天前,马...
解码数字金融时代的保险新基建 大象新闻记者 于艳彬 在北京稻香湖的科技园区,有一座隐形的“科技之城”正在崛起。 这里没有鳞次栉比的...
小米16系列定档9月!四款机型... 设计革命:直屏+3D打印中框引爆行业 曲面屏时代正式终结!小米16全系回归直屏,标准版黑边压缩至1...
花江峡谷大桥荷载试验背后的“贵... 原标题:从“桥梁博物馆”走来的技术输出者 花江峡谷大桥荷载试验背后的“贵州智慧” “花江峡谷荷载试验...
赛力斯公布无人机加氢控制专利 ... 松果财经讯,天眼查App显示,8月26日,赛力斯汽车有限公司申请的“无人机加氢控制方法、车载氢能供给...
罗永浩火速澄清:并未拉黑俞敏洪... 8月26日,罗永浩发博澄清,并未拉黑俞敏洪与王自如,而是拉黑了两个“起哄”的网友。 罗永浩表示,“你...
云端上的高性价比云手机是什么? 你有没有因为手机内存不够用而头疼?或者担心重要数据丢失或者隐私泄露?还有,是不是因为手机配置不够,玩...
活动回顾 | 峥嵘岁月忆初心•... 峥嵘岁月忆初心•童心巧手颂祖国 8月23日,由市文广体旅局主办、市图书馆承办的“追寻红色记忆•点亮爱...
原创 墨... 玛雅文明在整个人类进化史上占据着极为重要的地位,其诞生与衰亡都充满了神秘色彩,至今仍然是令人困惑的谜...
2025数智美食生态大会在丰台... 新京报讯(记者姜慧梓)8月25日,2025中关村论坛系列活动—2025数智美食生态大会在北京丰台开幕...
重磅好消息,来自地下700米! 江门中微子实验大科学装置正式运行 2025年8月26日,江门中微子实验(JUNO)成功完成2万吨液体...
国星宇航更新招股书:AI智算卫... 近日,港交所文件显示,中国民营商业航天企业成都国星宇航科技股份有限公司(以下简称"国星宇航")更新招...
腾讯会议上线AI纪要,实时捕捉... 2025-08-26 14:14:04 作者:狼叫兽 8月25日,腾讯会议更新,正式上线“AI纪要...
XR眼镜如何成为工业现场的生产... 工业制造领域始终面临着诸多挑战。精密设备的维护复杂度持续增加,生产环节的质量控制要求愈发严格,物流仓...
vivo Y500系列官宣9月... 今日上午,vivo手机官宣“国民旗舰”新机 vivo Y500 将于9月1日19时正式发布。 按照官...
捉到“幽灵粒子”,江门中微子实... 捉到“幽灵粒子”,江门中微子实验正式运行 江门中微子实验中心探测器内部的有机玻璃球及光电倍增管。...