观察家
文/陈永伟
8月5日,谷歌DeepMind发布了其新模型——Genie 3。
该模型能够根据用户的文本或图像提示,实时生成可供用户与AI智能体(AI Agent)互动的3D虚拟环境。例如,用户只需输入“月球上的火山边”,Genie 3便能即时生成一片浮动的火山、黄色的大地与远处的宇宙背景,并允许用户进入探索。
相比此前的AI模型,Genie 3展现出更强的实时交互能力,并在互动时长和记忆连贯性上表现尤为出色。例如,如果用户在生成的房间墙壁上涂鸦,然后转身探索别处,那么当他稍后返回时,墙上的涂鸦依旧保留。
不仅如此,Genie 3还引入了“可提示的世界事件”(Promptable World Events)功能。这允许用户在交互过程中,通过新的文本指令动态改变世界。无论用户要求“加入一只奔跑的小狗”“把天气从晴天变成大雨”,还是“将环境从海边变成山上”,Ge-nie 3都能瞬间响应。
Genie 3的出色表现不仅刷新了AI生成世界的边界,也让人们看到了另一条通向通用人工智能(AGI)的路径——“世界模型”(World Model)的希望。一时间,关于“世界模型”的讨论频频见诸媒体。
那么,什么是“世界模型”?它如何实现?又能为我们带来什么?且让我们一一道来。
世界模型简史
在人工智能领域,许多重要的模型都是模仿人类的某种能力或大脑的某种机能建立的。例如,卷积神经网络(CNN)的灵感来自生物视觉皮层感受域(receptive field)的工作方式,Transformer模型则借鉴了人类注意力的聚焦机制。同样,世界模型的灵感源自对人脑一种重要机制的模仿——在大脑中构建并运用“内部世界”(inner world)的能力。
设想一下,你正走在大街上,突然看见一辆汽车急速驶来。这时,你会迅速在脑中进行计算,模拟它在接下来几秒的运行方向和速度,并判断是否需要避让以及向哪个方向避让。随后,你的身体会根据大脑的判断采取行动。需要注意的是,此时你脑中的工作机制与传统机器学习有显著不同——机器学习的判断依赖于对大量数据的学习,这意味着只有在多次遭遇汽车迎面驶来并积累了统计经验后,才可能得出预测。 然而,现实中这种突发情境极为罕见,人类几乎不可能仅靠经验学习来应对。事实上,面对突然驶来的汽车,人们依靠的往往不是经验,而是一种预测能力。换言之,你会在脑中提前“看到”那辆车未来的位置。这种“在心中演练未来”的能力,是人类智能最基本、也最奇妙的组成部分。
很早以前,就有人注意到人类构建“内部世界”的能力。18世纪,德国古典哲学家康德指出,人类的感知从来不是对现实的直接复制,而是在心灵内部通过某种“先验框架”加以组织和解释的。从这个意义上讲,我们所见的世界,其实是自己建构的一个版本。20世纪,心理学家皮亚杰进一步指出,儿童并非被动接收信息来理解世界,而是通过不断尝试、失败与重建,在脑中建立起一套关于世界运行规则的“心理模型”。这些模型使他们能够预判事件的后果并指导决策。正因如此,人类才能成长为拥有计划与想象力的存在。
随着现代认知科学兴起,“人类可以不依赖真实世界输入而进行‘心智模拟’(Mental Simulation)”这一事实得到进一步证实。研究还发现,人脑会不断用感官输入来验证和修正自己的预测,使构建的“内部世界”愈加接近真实世界,并用更新的模型持续模拟现实、指导行动。
人工智能学科创立之初,专家们便开始尝试模仿人脑的这种能力。例如,维纳等人的反馈控制理论强调,智能体要与环境交互,必须对环境状态有内部表示。同一时期,“符号主义”学者尝试用逻辑规则和知识图谱构建“世界描述”,并通过推理机进行决策,在棋类、路径规划等领域取得不少进展。20世纪70年代的Shakey机器人,就已能在“内部地图”上模拟移动与避障。
进入20世纪80年代,随着统计学习方法的发展,研究者开始用概率模型刻画环境动态,并将隐马尔可夫模型(HMM)、卡尔曼滤波等先进统计方法应用于内部世界构建。这类模型的优势在于能够从数据中估计转移概率,减少对人工规则的依赖,但缺点同样明显——一旦状态空间维度上升,模型规模与计算量便呈爆炸式增长,难以适用于图像、视频等高维感知输入。
1989年,理查德·萨顿将强化学习与“内部世界”思想结合,提出Dyna架构。利用该架构,智能体既可以直接从环境中学习策略,也可利用学到的环境模型在内部进行计划(plan-ning)。显然,这一思路正是对人脑“心智模拟”功能的模仿。
1990年,时任博士生的人工智能专家于尔根·施密德胡伯(JürgenSchmidhuber)提出,理想的AI模型应像人类一样,对真实世界有全面而准确的认知,并能模拟可能发生的情况。这样的模型不仅要理解“现在”,还要想象“未来”;不仅要描述“是什么”,还要推测“会变成什么”。它不是传统的分类器或生成器,而是一种具备“时间意识”的智能体。施密德胡伯将这种理想模型命名为“世界模型”,并在博士论文中用循环神经网络(RNN)构建了一个简单版本,“世界模型”一词由此诞生。
遗憾的是,当时神经网络并非人工智能的主流方向,加之技术条件限制,该模型表现并不突出,“世界模型”这一名词在此后多年传播有限。直到2018年,施密德胡伯及其合作者发表题为《世界模型》(WorldModels)的论文,这一概念才被更多人熟知。
这篇论文之所以在多年后引发关注,原因多方面:其一,“深度学习革命”已经发生,基于神经网络的模型更易获得认可;其二,论文中的世界模型在性能上显著优于20世纪90年代的版本。但或许更重要的,是文中那幅漫画:一个人正在骑车,而他脑海中也浮现着一个骑车的人。虽无一字,却生动呈现了“世界模型”的核心——人在行动的同时,“内部世界”正模拟行动的可能结果,并据此指导行为。所谓“一图胜千言”,在人工智能领域同样适用。
随着“世界模型”思想被接受,众多研究团队投入到相关模型的开发之中。其中,谷歌DeepMind团队无疑最引人注目。早在2019年,他们推出了基于模型的智能体PlaNet,能够直接从图像学习内容,构建世界模型,并预测后续图像走向。测试显示,它只需观察前5帧,就能在给定动作序列的条件下提前准确预测接下来50步的发展。
2020年,DeepMind在PlaNet的基础上推出改进版Dreamer模型,引入递归状态空间模型(RSSM)等新技术,使其在预测与模拟性能上有显著提升。进入“生成式AI革命”阶段,尤其是在OpenAI发布Sora之后,DeepMind开始将世界模型思路应用于高质量视频生成,而Genie正是这一工作的产物。与Sora相比,Genie系列在视频精细度与流畅性上略有不足,但因其基于世界模型构建,交互性远优于Sora。这一特点,使其应用潜力大大超出视频生成范畴。
世界模型的技术实现
从本质上讲,所谓世界模型,其实就是AI的“理解引擎”。它的核心原理,用一句通俗的话概括,就是让机器先在“心里”排练一遍,再付诸行动。那么,如何实现世界模型呢?虽然技术细节十分复杂,但总体上可以分为几个主要环节。
首先是表征学习(RepresentationLearning)。在模拟现实阶段,世界模型并不需要额外的数据输入,但在构建阶段,相关数据是必不可少的。这就好比我们在大脑中想象世界之前,必须先对世界的基本结构有所了解——而要做到这一点,就必须先用眼睛看、用耳朵听,再将这些信息转化为大脑可处理的电信号。同样地,在构建世界模型时,AI需要通过传感器从外界获取各种数据输入,这些输入可以是文本、图像,也可能是声音或视频。接着,AI通过“表征学习”过程,将这些输入压缩成机器能够理解的“内部语言”。在不同应用需求下,“表征学习”会使用不同技术。例如,在学习连续潜在空间时常用变分自编码器(VAE);在从未标注数据中提取有意义的视觉特征时,则会用到自监督视觉模型。
接下来是动态建模(DynamicModelling),这一阶段要回答的问题是:“如果我现在采取某个动作,比如前进一步,世界的状态会发生什么变化?”AI需要基于已有数据和先验知识,不断对可能的未来场景进行模拟。难点在于准确刻画现实世界中的物理规律。众所周知,传统机器学习多半学到的是相关性,而非因果关系,这在模拟中容易出错。例如,按照万有引力定律,物体被抛出后会在重力作用下下落。但如果AI的训练数据只包含抛掷羽毛的情景,它可能会错误地“学习”到物体不会下落,而是漂浮空中,从而在模拟中产生荒谬的结果。解决方法之一,是在模型结构中直接嵌入物理规律,例如依据万有引力定律和空气阻力公式设计损失函数,将其作为训练约束。另一种方法是从数据入手,确保训练样本涵盖多样化场景——既包括抛掷羽毛,也包括抛掷铅球。AI在多样化的样本中便可归纳出更普适的规律,实现更准确的建模。只有当AI“学会”并内化了物理定律,构建出的模型才具有真正价值。
第三个环节是控制与规划(ControlandPlanning)。在这一阶段,AI基于世界模型对现实进行模拟,并在众多可能方案中寻找最优策略。以躲避汽车为例,这一步就是在成千上万种闪避方式中找到最优解。不同场景下,控制与规划的方法各不相同。例如,在早期模型中,蒙特卡洛树搜索常被用于寻找最优策略;而在PlaNet、Dreamer等知名世界模型中,则通过基于模型的强化学习(Model-basedRL)在潜变量空间中进行多步规划。有些模型还会在策略优化的同时,反向优化“内部世界”本身,实现模型与策略的双向提升。
最后是结果输出。顾名思义,这一环节的任务是将模型“想象”的结果以可见、可听或可感的形式呈现出来。对于许多世界模型(如本文开头提到的Genie)而言,这一步至关重要。最常见的输出形式是视频或图像序列。实现这一目标,需要将“表征学习”过程反向执行——将AI内部的表征还原为像素。早期常用基于像素的生成模型,如卷积神经网络(CNN)解码器或自回归模型。 较新的方法多采用基于潜在空间的渲染:先在低维潜在空间生成内容,再解码为像素,其效率远高于直接像素生成。如果目标不仅是“看得见”,还包括“听得到”甚至“可触摸”,则需引入更多模态的生成与渲染技术,这里不再展开。
世界模型能做什么
世界模型的出现,究竟能为我们带来什么?如果说过去的AI擅长的是“计算”“识别”或“对话”,那么世界模型则为AI打开了一扇新大门——它不仅能够“看懂世界”,还能够主动“在世界中行动”。这种能力,使它可以被应用于多个不同场景。
首先,是与“具身智能”相关的领域。这里所说的“具身智能”范围更广,既包括拥有真实机械结构的机器人,也包括虚拟游戏角色等任何具备“身体”的智能体。一旦智能体有了身体,它就可以主动移动、操作和试探。理论上,我们可以让它通过这些行动不断学习,像婴儿通过抓、摔、跳、爬来探索世界规律一样。然而在现实中,这种探索往往成本高昂,甚至存在破坏性风险,因此在实践中并不可行。比如,虽然理论上可以让机器人通过试错学习躲避汽车,但在真实环境中,只要出现一次错误,就可能导致严重损坏,学习自然无法继续。
在这种情况下,世界模型为智能体提供了一个安全的训练场。AI可以在其中反复尝试各种策略,直到找到最佳路径,再回到现实世界时,它已经是“经验丰富”的行动者。显然,这种训练方式相比传统方法不仅能显著降低成本,还能避免大量不必要的事故。施密德胡伯曾将这种在世界模型中进行训练的方式形象地称为“做梦”(dreaming),这个比喻恰当地刻画了它的特点。
其次,是“数字孪生”领域。数字孪生是指为现实世界中的实体(如工厂、城市、港口)等创建高度还原的数字副本,以此实时同步数据、预测变化。过去,即便数字孪生做得再逼真,它也只是一个被动的模型。而有了世界模型的介入,这个孪生体就能主动模拟未来、预测问题并实时响应。它不仅可以预警设备故障、识别仓储流程可能的拥堵,还能提前给出优化建议。将世界模型应用于数字孪生,不仅能显著提升自动化水平,还能实现“感知—预测—决策”的一体化跃迁。
第三,是教育与科研领域。科学家可以利用世界模型构建虚拟物理实验室,更精确地预测液体流动、粒子运动或电路反应;教育者则可以打造交互式虚拟课堂,让学生在模拟环境中亲手实验、探索知识。随着世界模型的加入,知识生产与传播的效率都将得到显著提升,整个知识产业链有望实现优化升级。
第四,是游戏和娱乐领域。在这里,世界模型就像一台自动生成可玩世界的引擎。玩家不再受限于预设场景,而是可以根据自己的行为、兴趣和指令,让AI实时生成全新世界。同时,虚拟世界中的NPC将具备更高的智能水平,与玩家进行更丰富、自然的互动,从而大幅提升游戏的沉浸感与可玩性。
如果我们把视野放得更远,世界模型甚至可能成为“虚拟社会”的基础设施。一个高度发达的世界模型,或许能够支撑数十亿人同时生活、交流和建造的数字世界。在那里,每一个人的动作与决策,都会被模型合理接收、反馈并推动演化。那时,世界模型带来的将不仅仅是游戏或模拟,而是一种全新的存在方式。
世界模型背后的隐忧
科技的每一次突破,都是一把双刃剑,世界模型也不例外。当它让AI不再只是识别现实,而是能够“创造”现实时,随之而来的伦理与治理问题正逐渐浮出水面。
第一,世界模型可能进一步模糊真实与虚拟的边界,引发“后真相”危机。它生成的内容不仅符合物理规律,还能与用户深度交互,带来的“真实感”远超当前的AI生成物。在这种情况下,“有图有真相”甚至“有视频有真相”的时代将一去不返。一旦被用于诈骗、造谣或政治操纵,其社会危害将极为严重。
第二,世界模型可能成为行为操控的工具。它不仅能建构环境,还可以通过环境反向影响用户行为。由于虚拟世界足够逼真,构建者完全可以借助物理布局、奖励机制、剧情走向等方式,潜移默化地引导用户做出特定选择。在这种情况下,人们在AI世界中的“自由选择”可能并不真正自由。如何抵御商业诱导、政治宣传和极端意识形态的渗透,在虚拟幻象中守住自我,将成为一大挑战。
第三,世界模型可能加剧人们对虚拟世界的沉迷与对现实的疏离。它能够构建一个巨大的“智能乌托邦”——既与真实世界一样真实可交互,又比现实更美好、更有回报感。在那里,人们可以轻易获得完美的社交关系、理想的职业和永恒的胜利感。然而,当沉浸其中的快感不断累积,人们面对现实的意愿和能力可能逐渐削弱,甚至丧失在现实世界生存的必要技能,最终被困于虚拟世界。
第四,世界模型可能放大偏见、歧视与社会固化。为了构建逼真的虚拟世界,它会大量参考现实世界的数据,从而吸收并重现其中根深蒂固的偏见。在AI的放大效应下,这些偏见不仅会被复制,还可能通过互动灌输给用户,使错误观念在潜移默化中得以强化。
第五,世界模型的责任归属与治理缺口亟待关注。当模型变得足够复杂时,其生成的内容与交互效果往往超出单一开发者的直接控制。这带来一个棘手问题:一旦虚拟世界出现伤害性后果,责任应由谁承担?例如,用户在虚拟世界中受到心理伤害,或被诱导做出危险行为,责任在模型构建者、平台运营方,还是用户自身?又如,当AI在虚拟训练中学会不良策略并在现实中重现,应追责于模型设计者、应用方,还是数据提供者?这些问题目前尚无明确答案,但随着世界模型的普及,迟早必须直面。
综上,世界模型虽具有巨大的应用潜力,但其伴生风险同样不容忽视。唯有提前建立伦理、法律与技术的多重防护,才能确保这项技术真正造福人类。
世界模型是通往AGI的必由之路吗
世界模型之所以在近期引发高度关注,除了其潜在应用广泛外,还有一个重要原因:不少人工智能专家认为,它才是通向“通用人工智能”(AGI)的正确道路。Meta首席AI科学家、2018年图灵奖得主杨立坤(YannLeCun)多次公开表示,世界模型不仅重要,而且几乎不可或缺。他指出,当今的大语言模型(LLM)虽能在语言空间中生成连贯文本,但从本质上看,它们缺乏对现实世界的连续表征和物理一致性推理能力。 人类之所以能在复杂环境中高效学习与适应,关键在于能在大脑中构建对真实世界的模拟,并在内部模型中进行“离线思考”。这种能力不仅显著降低了试错成本,还能帮助我们更好地应对未知情境,实现知识的跨领域迁移。从目前来看,只有世界模型能够模拟人类的这一能力。因此,如果希望AI的能力接近甚至超越人类,世界模型或许是必经之路。
杨立坤的观点在AI界收获了不少支持,但也遭到同样多的质疑。一部分强调“端到端学习”和“规模驱动”的研究者,对这一观点持谨慎甚至怀疑态度。在他们看来,尽管世界模型有其价值,但AGI未必需要显式的世界模型,更谈不上是“必由之路”。例如,Deep-Mind创始人、2024年诺贝尔化学奖得主德米斯·哈萨比斯(DemisHassabis)就指出,大规模无模型(Model-free)方法在一些复杂任务中已取得令人瞩目的成绩——AlphaGoZero、AlphaStar等系统并没有显式的物理世界建模,却在多个领域表现超越人类。因此,通过类似方法模仿、逼近甚至超越人类能力,实现AGI并非不可能。
与此同时,还有学者质疑世界模型本身的发展潜力。他们认为,首先,显式的物理世界建模容易受到建模误差的限制,多步预测中的累积偏差可能严重影响规划质量,从而削弱模型性能,甚至不如普通神经网络。其次,如果目标环境过于复杂,在潜在空间中构建准确、稳定的世界模型所需成本将极为高昂,此时直接依赖强大的策略网络拟合最优行为,反而可能更具性价比。
除“世界模型派”和“反世界模型派”外,还有学者主张中间路线。他们认为,AGI未必依赖单一、统一的世界模型,而可以通过“隐式建模”获得类似能力。许多现代大语言模型和多模态模型在训练过程中,实际上已经学会了某种世界知识的结构化表示——这种表示并非工程师显式构建的物理引擎,而是以海量数据训练结果隐含在参数空间中。这种“参数即世界”的方式虽然可解释性较差,但在推理、预测、规划等任务中依然能展现出一定的世界理解。 例如,GPT类模型可以通过多轮对话推演事件逻辑,甚至在虚拟物理场景中给出连贯结果。换言之,即使在模型设计时未预先植入物理规律,它们依然可能通过学习自行抽取这些规律。因此,中间路线派认为,显式物理建模并非实现世界模型的唯一途径。
那么,哪一种观点更有道理?这在很大程度上取决于我们如何定义AGI,以及如何理解“必由之路”。在AI圈内,对于AI的目标本就存在分歧:有学者认为,AI的目标是让机器像人一样思考和行动;也有人认为,目标是让机器像人类一样完成任务,而不必在机制上与人类相同。基于不同的理解,AGI的定义也有所不同:如果目标是让机器像人类一样行动,那么模拟人类构建“内部世界”的能力就必不可少;如果目标只是让机器在任务表现上不逊于人类,那么是否使用世界模型就不是必须。相比一刀切地依赖世界模型,根据任务性质选择最适合的技术路径,或许才是更为务实的通向AGI之路。
结语
几千年来,人类一直在追问一个问题:世界是如何运作的?从古代神话中的创世之神,到近代物理学的牛顿与爱因斯坦;从文学中的乌托邦,到哲学中的“物自体”与“现象界”,我们始终渴望理解世界的规律、命运与可能性。而今天,当人工智能开始尝试“创造”一个世界,它实际上也在加入这场古老的对话。
世界模型不仅是一种AI工具,更是一次对“认知本身”的挑战。它不仅试图再现世界的外观,更力图理解其机制、因果的流动,以及行动与反馈之间的微妙关系。从这个意义上看,无论它最终能否引领我们走向AGI,也无论它能带来多少直接应用,其探索价值都不可低估。