智源研究院院长王仲远:多模态大模型尚未实现高度普适化
创始人
2025-06-07 12:21:45
0

2025北京智源大会6月6日开幕,智源研究院院长王仲远就多模态大模型、具身智能等热点问题接受媒体采访。他表示,多模态大模型已在特定场景启动落地,但尚未实现高度普适化。智源多模态大模型是为了推动AI从数字世界走向物理世界,未来除了视频、文字、语音、脑信号数据等,多模态大模型还将加入3D信号、时空信号等数据进行融合。

从繁杂的模态数据中筛选最有效信息亟待突破

王仲远表示,互联网文本数据基本已经被使用完毕,大语言模型性能提升已相对缓慢。现实世界中存在大量多模态数据,比如流程图、CT数据和各行业的传感器数据等,可以突破大语言模型的瓶颈。

开幕式上,智源研究院推出“悟界”系列大模型,其中,Emu3作为原生多模态统一架构,让大模型具备理解和推理世界的能力。

如何理解原生多模态大模型的“原生”概念?王仲远说,当前多模态大模型的学习路径,尤其是多模态理解模型,通常是先将语言模型训练到很强的程度,随后再学习其他模态信息,如同先达到博士学位水平,再去接触其他知识。在此过程中,模型的能力可能会出现下降,从“博士”水平降至“大学”甚至“高中”水平。

但人类的学习路径不是这样的,小朋友从出生就开始听到世界的声音,跟各种物品、图像交互学习,父母通过声音教他。所谓的“原生”正是如此,是指在模型训练初始阶段,就将文字、图像、声音乃至脑信号等各种模态数据都纳入其中进行训练。随着模态种类不断增加,如何从繁杂的模态数据中筛选出最有效的信息,成为亟待突破的技术难题。目前,不仅智源研究院,行业内众多机构都在积极探索原生多模态技术。

此外,也有专家学者猜测,国际上近期发布的产品背后或许已运用原生多模态技术,不过这些产品对技术细节的披露愈发稀少。从行业专家及学术层面来看,原生多模态是值得深入探索的技术路线,它与企业多模态技术路线存在差异。企业多模态技术是先强化语言模型,再添加多模态,更便于实现产业落地。

在产业界,多模态大模型依然在做图像生成、视频生成,这些在设计、广告、电商领域有很好的落地,可以极大提升生产效率。王仲远介绍,多模态大模型已在特定场景启动落地,但尚未实现高度普适化。在实际场景中,多模态需求不可回避。例如,英语教学需融合声音、图像与场景理解,但当前多模态大模型能力仍显著弱于语言模型,导致产品效果不及预期。尽管产业界尝试通过“打补丁”的方式优化体验,但根本性突破仍依赖更强大的基础模型。

未来多模态模型将加入3D信号、时空信号等

“智源多模态大模型是为了推动AI从数字世界走向物理世界。”王仲远说,具身领域的数据有更多模态,现在的模态包括视频、文字、语音、脑信号数据等,未来还可能加入3D信号、时空信号等数据。

“我们做的原生多模态世界模型的统一架构,不仅理解静态的多模态数据,还要理解空间、时间。”他举例说,现在很多多模态模型看到桌子上的咖啡杯,会描述“咖啡杯在桌上,咖啡杯是白色的,上面有一些文字”,但人类对空间上的认知会觉得“咖啡杯在桌子的边缘,很危险”。现在绝大部分多模态大模型不具备这样的判断能力。

有了空间的理解后,机器人操作时就应该从桌子边缘往里拿杯子,而不是从里往外拿杯子。“咖啡杯有可能掉下去甚至弄脏地板,这就是时空智能预测,是我们要探索的多模态世界模型的能力。”

具身智能“小组赛”还未结束,远没有到“淘汰赛”

谈及具身智能,王仲远表示,在具身智能发展过程中,智源希望能探索出独特的发展路径:首先是数字智能物理化。通过大模型技术将数字世界的推理、规划等智能能力延伸至物理世界,推动机器人从“单一功能”向“通用智能”进化。

其次是低成本功能化。聚焦垂直场景,降低单台机器人成本并强化特定能力,如家庭清洁、工业分拣,通过规模化落地积累数据,逐步拓展应用边界,让很多小型机器人也能走进千家万户。因为大型人形机器人技术复杂度高,商业化周期更长,而小型专用机器人若能在细分场景实现极致性价比,可能率先渗透家庭与产业场景,为具身智能的长期发展奠定基础。

目前,许多智能驾驶车企正在进军具身智能领域。对此,他认为,车企的核心优势体现在制造能力与产业链整合、落地场景资源两个方面。智能驾驶车企积累的交通、出行等场景数据,可能为具身智能提供初期应用场景,比如物流、服务机器人等。

但具身智能的技术复杂度远超智能驾驶,需融合感知、决策、行动等多维度能力,对算法、硬件协同要求更高,车企现有技术积累未必直接适用。另外,具身智能尚处发展早期。“小组赛”阶段,大模型机构、硬件厂商、科研团队等多方参与,不同领域玩家的技术路径仍在碰撞中,远没有到“淘汰赛”阶段,最终谁能形成突破尚未可知。“不过,越来越多参与方共建具身智能产业,本身是件好事,每一方都会带来不同的视角和理念。具身智能最终是交叉学科,不同思想的碰撞一定有利于产业发展。”

未来三年,具身智能最可能在哪个领域产生突破性的规模化应用?王仲远认为,首先是在相对封闭的特定场景里落地,比如工厂,这不仅能规避当前具身智能不成熟阶段的安全隐患,同时也能替代人类进行相对重复且枯燥的任务。

新京报记者 张璐

编辑 刘梦婕 校对 付春愔

相关内容

热门资讯

科粤机械取得空心轴加工用悬吊机... 金融界2025年6月7日消息,国家知识产权局信息显示,佛山市南海科粤机械有限公司取得一项名为“一种空...
为矿工生命安全筑起智能防护墙 在西山煤电,AI预警平台为矿工生命安全筑起一道智能防护墙。本报记者 王佳丽 摄 ...
我国中小企业生产经营回升向好 央视网消息(新闻联播):今年以来,我国中小企业产销持续改善,创新活力竞相迸发,回升向好势头进一步巩固...
腾瑞电力取得便携式用电采集装置... 金融界2025年6月7日消息,国家知识产权局信息显示,腾瑞电力科技有限公司取得一项名为“一种便携式用...
优化企业安全的等保测评收费标准... 在数字化转型背景下,信息安全等级保护测评成为企业合规的重要基础。本文探讨了优化企业安全的等保测评收费...
公牛集团获得发明专利授权:“适... 证券之星消息,根据天眼查APP数据显示公牛集团(603195)新获得一项发明专利授权,专利名为“适配...
元平台申请免插入处方矫正光学模... 金融界2025年6月7日消息,国家知识产权局信息显示,元平台技术有限公司申请一项名为“免插入处方矫正...
“黑科技”建材有多神奇?来看看... 记者从中国建筑材料联合会获悉,我国建材行业首次实现重点领域碳排放核算全覆盖。在对我国建材行业的调研过...
带学生斩获160多个大奖!这名... 在AI和机器人火热的当下 谁能想到 早在2005年 海宁就诞生了 第一批学校机器人社团 此后更是拿奖...
(经济观察)广东加速打造人工智... 广州6月7日电 (记者 孙秋霞)近年来,广东密集出台一系列支持人工智能与机器人产业创新发展的政策措施...
原创 人... 人形设计的核心必要性,环境适配性:人类社会的物理环境(如门把手、楼梯、工具)均以人体工程学为基础设计...
柬埔寨官员呼吁中国企业助力柬农... 金边6月7日电 (记者 杨强)由中柬两国企业合作建设的柬埔寨首个香蕉供应链气体负压催熟库当地时间6日...
格力电器获得发明专利授权:“换... 证券之星消息,根据天眼查APP数据显示格力电器(000651)新获得一项发明专利授权,专利名为“换热...
武陟:梯度培育赋能企业“拔节生... 河南日报客户端记者 成安林 通讯员 成睿 6月6日,位于武陟经济技术开发区的焦作赛科中药生物科技有限...
准备干掉360整个市场部?周鸿... 每经AI快讯,6月6日晚间,360集团创始人、董事长周鸿祎在其个人微博账号发文称,“我准备干掉360...
“超越日本,中国首次跃居首位” 据《日本经济新闻》网站6月4日报道,中国在氢相关专利竞争力方面超越日本,首次跃居首位。中国企业主要在...
2025 年性价比超强的 6 ... 2025 年性价比超强的 6 款 512G 大内存手机:从地铁通勤到高原徒步,哪台是你的「搬砖神器」...
字节跳动CQC前掌门李彤离职,... 近日,字节跳动内部传出一则重要人事变动消息,其内容质量中心(Content Quality Cent...
电脑主机:数字世界的核心引擎 现代生活中,电脑已成为工作娱乐的重要工具。当我们注视显示器时,机箱里正进行着复杂的电子交响乐。这个方...
网络优化、智能屏蔽、应急保障…... 天津北方网讯:6月7日,2025年全国高考正式拉开帷幕。天津电信组建专业保障团队,通过网络优化、智能...