DeepMind发布Genie 3,实现实时交互式模拟环境
创始人
2025-08-07 01:41:41
0

来源:至顶网

尽管目前还没有人找到通过生成式人工智能赚钱的可靠方法,但这并没有阻止Google DeepMind继续推进AI技术的可能性边界。这些模型的能力(和成本)一直呈现令人印象深刻的上升趋势,Genie 3的发布便是这一趋势的典型例证。距离展示Genie 2"基础世界模型"仅仅七个月后,Google现在推出了Genie 3。

使用Genie 3,只需一个提示词或图像就能创建一个交互式世界。由于环境是持续生成的,因此可以实时进行修改。你可以添加或更改对象、改变天气条件,或插入新角色——DeepMind将这些称为"可提示事件"。创建可变3D环境的能力可以让游戏对玩家来说更加动态,并为开发者提供验证概念和关卡设计的新方法。然而,游戏行业的许多人对此类工具是否真的有帮助表示怀疑。

很容易将Genie 3简单地视为创建游戏的工具,但DeepMind也将其视为研究工具。游戏在人工智能发展中发挥着重要作用,因为它们提供了具有挑战性的交互环境和可衡量的进展。这就是为什么DeepMind之前转向围棋和星际争霸等游戏来扩展AI的界限。

世界模型将此提升到了新的层次,逐帧生成交互式世界。这为改进AI模型(包括所谓的"具身智能体")在遇到现实世界情况时的行为提供了机会。随着公司朝着通用人工智能(AGI)目标努力,主要限制之一是可靠训练数据的稀缺性。在将地球上基本所有的网页和视频都输入AI模型之后,研究人员正在转向合成数据应用。DeepMind认为世界模型可能是这一努力的关键部分,因为它们可以用于训练AI智能体,提供本质上无限的交互式世界。

DeepMind表示,Genie 3是一个重要进步,因为它比Genie 2提供了更高的视觉保真度,并且是真正的实时处理。使用键盘输入,可以以每秒24帧的720p分辨率浏览模拟世界。或许更重要的是,Genie 3能够记住它创建的世界。

Genie 2最明显的限制之一是其有限的记忆能力,在大多数模拟中最多只能保持约10秒。类似于超出上下文窗口的聊天机器人,该模型会在世界的某些部分短暂离开视野后忘记它们的样子。Google在发布该模型时称Genie 2微薄的保留能力为"长视野记忆"。事情变化得如此之快。Genie 3的视野要长得多,通过多分钟的视觉一致性推动了世界模型的界限。

然而,Genie 3还不是完美的世界构建者。能够保留多分钟细节的能力可以解锁更多用途,但团队承认,理想情况下你希望模型至少保持数小时的一致性。该模型也无法模拟现实世界的位置——它生成的一切都是独特且非确定性的。这意味着它也容易出现典型的AI幻觉。团队表示Genie 3在准确性方面取得了巨大进步,但确实仍会产生不正确的视频元素。例如,人类运动的细微差别有时会在生成过程中丢失,产生看起来向后走的人。这些AI世界中的文本也是杂乱无章的,除非提示词包含模型要包含的特定字符串。

AI智能体集成到世界模型中的方式也有限。虽然你可以创建具有现实条件的世界和可提示事件,但智能体在其中没有作用。它们与模拟世界的交互仅限于在其中移动,因为当前的智能体缺乏改变模拟所需的高级推理能力。DeepMind还在实验允许多个AI智能体在共享环境中相互交互的方法。也许我们会在几个月后的Genie 4中看到这一点?

即使那些愿意每月为高级AI订阅支付数百美元的人也了解到,最大和最昂贵的模型在使用上是有限制的。Genie 3本质上是如此快速地渲染一个很长的视频,以至于它看起来是交互式的,这肯定会使用大量的处理能力。Google DeepMind没有提供具体信息,但你无法使用它这一事实说明了一切。

Genie 3仍然是一个研究工具,但DeepMind显然想展示其能力。团队计划向一组专家和研究人员授予访问权限,他们将帮助完善模型。不过,他们表示计划是向更多人开放Genie世界模型的访问权限。

Q&A

Q1:Genie 3相比前代产品有什么重要改进?

A:Genie 3相比Genie 2有两个重要提升:首先是视觉保真度大幅提高,能以720p分辨率、每秒24帧实现真正实时处理;其次是记忆能力显著增强,从Genie 2的10秒记忆扩展到多分钟的视觉一致性,解决了之前模型容易"遗忘"场景细节的问题。

Q2:Genie 3世界模型能用来做什么?

A:Genie 3可以通过提示词或图像创建交互式世界,支持实时修改环境,如添加物体、改变天气或插入新角色。除了游戏开发应用外,DeepMind主要将其作为AI研究工具,用于训练具身智能体,提供无限的交互式环境来克服训练数据稀缺问题,推进通用人工智能发展。

Q3:Genie 3目前还存在哪些限制?

A:Genie 3仍有几个限制:记忆时长虽然提升到多分钟,但理想状态需要数小时一致性;无法模拟真实世界位置,生成内容具有非确定性;容易出现AI幻觉,如人物倒退行走、文本显示混乱;AI智能体交互能力有限,只能在环境中移动而无法修改模拟;目前仅作研究工具,普通用户无法使用。

相关内容

热门资讯

百镜出道,C位依旧:WAIC顶... 来源:雷科技 如果说 WAIC 2025 是今年 AI 硬件的「集体高考」,那 Rokid Glas...
韩媒:韩国扶持五大联合体开发“... 综合韩联社、《朝鲜日报》和《京乡新闻》等韩媒报道,韩国政府4日正式选定NAVER Cloud、Ups...
录取通知书的“飞驰”之路 7月盛夏,安徽省近50万封承载着无数学子青春梦想与家庭期盼的高考录取通知书,正从四面八方“飞驰”向它...
凡知智造取得恒温核酸扩增分析仪... 金融界2025年8月6日消息,国家知识产权局信息显示,山东凡知智造医药科技有限公司取得一项名为“一种...
原创 离... [撒花] 随着科技的不断发展,“仿人形机器人”也变的越来越成熟了,AI的加持也让这些机器人变的更加智...
当AI化身“全能助手”,人类的... 正在屏幕前玩手机的你 有没有过这样的体验? 遇到不懂的问题 第一反应不是翻书思考 而是脱口而出“嘿 ...
珠海创信电子取得电路板用锡膏检... 金融界2025年8月6日消息,国家知识产权局信息显示,珠海创信电子有限公司取得一项名为“一种电路板用...
NBN Co转投亚马逊柯伊伯计... 来源:C114通信网 C114讯 北京时间8月6日晚间消息(蒋均牧)NBN Co与亚马逊达成协议,通...
石景山这家医院药品有了“电子身... “窗口不用一盒盒扫码吗?取药几乎不用排队,这速度真给力!”在北京大学首钢医院门诊药房,刚取到药的患者...
电力数据“会说话” 点亮智慧新... 本文转自【新华社】 新华社北京8月6日电 《经济参考报》8月6日刊发记者邓林如采写的文章《电力数据“...
国能新疆红沙泉二号矿实现纯电无... 近日,在国家能源集团新疆红沙泉二号露天煤矿(以下简称“红二矿”),58台无人驾驶矿卡正高效运转,其中...
普天科技:致力数据治理领域打造... 金融界8月6日消息,有投资者在互动平台向普天科技提问:公司相关产品或技术有哪些能为人工智能赋能?谢谢...
DeepMind发布Genie... 来源:至顶网 尽管目前还没有人找到通过生成式人工智能赚钱的可靠方法,但这并没有阻止Google D...
【喜讯】骨三科陈美玲在全国竞赛... 8月2日,在全国首届护理AI创新应用技能挑战赛决赛中,我院骨三科陈美玲的作品《创新聚力赋能发展——A...
微信内存一下就少了10G上热搜... 站长之家(ChinaZ.com)8月6日 消息:今日,微博热搜榜上#微信内存一下子就少了10G#的话...
我是宁波技能冠军④丨这些技能高... 前言 从工业设备控制(PLC)、工业机器人系统操作等“硬核”制造能力,到人工智能训练、网络安全等高科...
聚焦人工智能产业链 山东蓄力打... 中新网济南8月6日电 (记者 沙见龙)“这项体系如同人工智能产业的‘中央厨房’,能根据不同行业的差异...
2025未来科学大奖揭晓,他们... 科学之光照亮人类未来。6日,备受关注的2025未来科学大奖揭晓。这个夏天,“高冷”的基础研究再次变得...
为什么CA需要有《电子认证服务... 来源:SSL_SecureSocketLayer 1. CA是什么?—— 数字世界的「信任基石」 C...
2025 年 2 款华为会议记... 现在远程会议越来越多,不管是企业还是个人,都需要能快速整理会议记录的工具。我作为科技产品体验师,选了...