「世界通用模拟器」 Sora 真的能懂物理世界吗?
创始人
2024-02-25 13:13:54
0

原标题:「世界通用模拟器」 Sora 真的能懂物理世界吗?

机器之心PRO · 会员通讯 Week 08

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. 「世界通用模拟器」 Sora 真的能懂物理世界吗?

Sora 的技术有哪些独特之处?Sora 到底是不是世界模型?世界模型和生成视频的关系是什么?Sora 生成符合物理规律的视频是否意味着能理解物理世界?同期其他相关研究工作在技术路线上有哪些差异?...

2. 热归热,Groq 离取代英伟达 GPT 有多远?

Groq 为何一夜爆火?LPU 和 GPU 有什么区别?各方大佬都如何对比 Groq 和 H100 的成本?Groq 有希望取代 GPU 吗?...

3. YC 发布 2024 年最值得关注的 20 个创业方向

20 个 创业方向都有哪些?知名创投公司 YC 近期都投资了哪些方向的创业公司?涉及重点创业方向的公司目前发展的怎么样?...

...本期完整版通讯含 3 项专题解读 + 33 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 6 项,国外方面 15 项...

本期通讯总计 27819 字,可免费试读至 9 %

消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)

要事解读 ①「世界通用模拟器」 Sora 真的能懂物理世界吗?

日期:2 月 16 日

事件:OpenAI 发布了文本到视频生成模型 Sora,因其生成效果惊艳,同时可以生成不同时长、长宽比和分辨率的视频和图像,最多可以输出长达一分钟的高清视频,打开了文生视频的新格局。Open AI 在 Sora 的技术报告中称「Video generation models as world simulators」,关于 Sora 是否是由数据驱动的物理引擎/世界模型,能否真正懂物理世界...等等引发了业内大佬们的热议。

Sora 的技术有哪些独特之处?

1、Open AI 受到大型语言模型通用训练的影响,将所有类型的视觉数据转化为统一表示 patches,采用时空 patches 充当 Transformer 的 tokens,这也是 Sora 的核心。研究者先将视频压缩到较低维的潜在空间,然后将表示分解为时空 patches,从而将视频转换为 patches。[3]

① patches 是训练生成各种类型视频和图像的模型的可扩展且有效的表示。带有时间和空间信息,还可以自由排列,灵活度极高,可以用于训练不同类型的视频和图像的生成模型。

② patches 的概念最早出自于论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》,研究者提出将图像编码成一个个序列单元 patches。[1]

2、研究者通过降低视觉数据维度的网络将原始视频作为输入,输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练,而后生成视频。

3、同时,研究者将扩散 Transformer 用于视频生成,Sora 是个扩散模型,研究者通过给定输入噪声 patches(以及文本提示等调节信息),训练出的模型来预测原始的「干净」patches。

① Diffusion Transformers的技术被认为来源于 Sora 作者之一 William Peebles 的论文《Scalable diffusion models with transformers》。[2]

② 在该论文中,研究者提出了一种基于 transformer 架构的新型扩散模型即 DiT。研究者训练了潜在扩散模型,用对潜在 patch 进行操作的 Transformer 替换常用的 U-Net 主干网络。然后通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。

与以往文生视频模型相比,Sora 有哪些突破?

1、先前 Runway、Pika 等机构发布的文生视频产品及相关工作通常只关注一小类视觉数据、较短的视频或固定大小的视频。而 Sora 是视觉数据的通用模型,可以生成不同时长、长宽比和分辨率的视频和图像,而且最多可以输出长达一分钟的高清视频。

2、OpenAI 在技术报告中阐述了 Sora 的几项能力[4] ,包括:

① 3D 一致性。Sora 可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中保持一致移动。

② 长程一致性和物体永久性。对于视频生成系统来说,一个重要的挑战是在采样长视频时保持时间上的一致性。研究者发现,Sora 通常能够有效地建模短程和长程的依赖关系,但并非总是如此。

③ 与世界互动。Sora 有时可以模拟对世界产生简单影响的动作。例如,画家可以在画布上留下持续存在的新笔触,或者一个人可以吃掉一个汉堡并留下咬痕。

④ 模拟数字世界。Sora 能够模拟人工过程,例如在视频游戏中,Sora 可以同时使用基本策略控制 Minecraft 中的玩家,同时以高保真度渲染世界及其动态。

3、最为重要的是,Sora 不仅仅只是被看作为简单的视频生成模型,Open AI 认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。在技术报告中,Open AI 表示,「Sora 是能够理解和模拟现实世界的模型的基础,我们相信这种能力将是实现 AGI 的重要里程碑。」

Sora 是不是世界模型?重温「世界模型」的概念及演进

1、Sora 的发布,引起了关于「世界模型」的新一波热议。事实上,「世界模型」并非新的概念。2018 年,David Ha 和 Jürgen Schmidhuber 发表论文《World Models》,但并未论文中给出「世界模型」的定义,而是将心智模型的概念引入到了机器学习模型的构建中。

① 系统动力学之父杰伊-赖特-福雷斯特(Jay Wright Forrester)将心智模式描述为「我们头脑中关于周围世界的印象,只是一个模型。」没有人会在头脑中想象出所有的世界、政府或国家。他只有选定的概念以及它们之间的关系,并用这些概念来代表真实的系统。

② 同时,论文中指出,我们大脑中的预测模型预测的可能不是一般性的未来,而是基于我们的动作的未来的感官数据。这样,我们就能基于这个预测模型采取直觉行动,并在面临危险时执行快速反射行为。这个过程并不需要进行有意识的规划。

2、作为坚持「世界模型」的代表 Yann LeCun,其在发表的论文《A Path Towards Autonomous Machine Intelligence》[5] 中,将世界模型的描述为:

① 世界模型可能预测自然世界的演化,或者预测由行为主体模块提出的一系列动作所导致的未来世界状态。世界模型可以预测多个合理的世界状态,这些状态由潜在变量参数化,这些潜在变量代表对世界状态的不确定性。

② 世界模型是一种模拟世界相关方面的‘模拟器’。世界状态的哪些方面是相关的取决于手头的任务。配置器配置世界模型以处理当前的情况。预测是在包含与任务相关信息的抽象表示空间内进行的。

③ 理想情况下,世界模型会在多个抽象层次上操纵世界状态的表示,使其能够预测多个时间尺度。一个关键问题是,世界模型必须能够表示世界状态的多种可能预测。自然世界并不是完全可预测的。这一点尤为重要。(内容来自 Week 01 通讯内容)

3、南京大学人工智能学院俞扬认为,「世界模型」的核心是反事实推理(Counterfactual reasoning),即对于在数据中没有见过的决策,在 world model 中都能推理出决策的结果。[6]

① Sora 生成的视频,仅能通过模糊的提示词引导,而难以进行准确的操控。因此它更多的是视频工具,而难以作为反事实推理的工具去准确的回答 what if 问题。

② 当前 AI 研究者对于「世界模型」的追求,是试图超越数据,进行反事实推理,回答 what if 问题能力的追求。

4、未来实验室的首席专家胡延平认为,Sora 只是二维视觉的压缩扩散和时空表达,不是物理引擎,也不是世界模型。[7]

① Sora 主要是基于二维视觉的压缩扩散和时空表达,而不是一个物理引擎。Sora 的技术并不是基于物理世界规律的多维表征,而是通过视频生成模型的规模扩大,尝试构建能够模拟物理世界的通用模拟器。这意味着 Sora 更多地关注于二维视觉的生成和表达,而不是深层次的物理世界模拟。

② 尽管 Sora 展现出了生成逼真视频的能力,但其背后并不是基于物理规则或内在形状的数字构建。Sora 的工作原理更多是基于像素、位置、时空信息的变化和表征,而非直接模拟物理世界的规律。这表明 Sora 的技术实现和物理引擎之间存在本质的差异。

世界模型和生成视频的关系是什么?

1、在 Sora 的技术报告中,OpenAI 认为,继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。[4]

相关内容

热门资讯

投入百万、爆款网文IP改编,掌... 财联社6月22日讯(记者 崔铭)近日,一部改编自起点网现象级作品的AI短剧在抖音上线,引发行业关注。...
德耐尔取得一种无油移动式空压机... 金融界2025年6月21日消息,国家知识产权局信息显示,德耐尔节能科技(上海)股份有限公司、德耐尔能...
成都矽联讯取得高压电流发生器专... 金融界2025年6月21日消息,国家知识产权局信息显示,成都矽联讯半导体科技有限公司取得一项名为“高...
我国介入式脑机接口成功实现人体... 6 月 21 日消息,据新华社报道,全球首例介入式脑机接口辅助人体患肢运动功能修复试验在我国完成,成...
“科技协同 融合创新研讨会”暨... 6月21日上午,由中国科学学与科技政策研究会、西北工业大学联合主办的“科技协同 融合创新研讨会”暨西...
河南中科智能装备取得复合材料液... 金融界2025年6月21日消息,国家知识产权局信息显示,河南中科智能装备有限公司取得一项名为“一种复...
原创 中... 好的,我帮你改写这篇文章,保持原意不变,同时增加一些细节描写,让内容更丰富些: --- 2025...
腾讯三角洲正式服务推送全统电话... 三角洲开启新能源行业数字游戏化解决方焦于用大数据、云计算、、人工智能(AI)等先进技术,数字化随着人...
夏已至 万物美 ——灞桥区洪庆... 阳光讯(记者 刘杰 通讯员 张丹)夏至是二十四节气中的第十个节气,通常出现在每年的6月21日或22日...
AI创作、无人机……虹口残疾人... “虹扬风采·技展赛场”2025年虹口区残疾人职业技能竞赛昨天举行,通过政校企三方联动, 融入科技助残...
深莞打造200平方公里“环巍峨... 深莞连接处,99平方公里的深圳光明科学城与90.5平方公里的东莞松山湖科学城,围绕一座巍峨山背靠背相...
两台先进望远镜在青海冷湖启动建... 中新社西宁6月21日电 (记者 孙睿)中国科学院紫金山天文台21日在青海冷湖海拔4312米的赛什腾山...
解读《云终端产业发展报告》,华... 从DeepSeek引发的云端算力需求,到具身智能、自动驾驶带来的云终端形态思考,云终端正迎来一次产业...
智慧社区系统革新社区管理 内容概要 建议物业团队优先评估基础需求,逐步集成功能模块,避免一次性负担过重。 智慧社区系统...
落地30+行业,华为云全栈AI... 盘古大模型已落地30多个行业、500多个场景。 文|赵艳秋 编|牛慧 你很难想象,这是一家水泥厂。芜...
青岛力科取得自动粘贴泡棉胶设备... 金融界2025年6月21日消息,国家知识产权局信息显示,青岛力科工业设备有限公司取得一项名为“一种自...
深度揭秘:物体能被无限分割吗?... 朋友们,咱们生活里经常会遇到各种东西,像苹果、纸张,咱随手就能把它们分成小块。这时候啊,我就忍不住琢...
人造太阳等“科普游”持续升温 ... 安徽合肥是全国大科学装置最集中的城市之一。随着暑期即将来临,合肥的载人航天、人造太阳等“科普游”持续...
机器人头发是咋做出来的 顶端新闻·河南日报记者 王平 杨伟 6月19日,走进河南瑞贝卡发制品股份有限公司展厅,时尚假发、职业...
原创 国... 前言 最近我国国防科大又完成了一项历史性的突破,他们研制出了一款最新型的仿生机器人,重量甚至不足0...