视频效果不输Pika！华裔“AI女神”联手谷歌打造又一利器_资讯_威视资讯网

视频效果不输Pika！华裔“AI女神”联手谷歌打造又一利器

创始人

2024-01-08 22:57:52

0次

AI视频生成领域又迎来一个重磅工具。

日前，AI科学家李飞飞团队与谷歌合作，推出了视频生成模型W.A.L.T（Window Attention Latent Transformer）——一个在共享潜在空间中训练图像和视频生成的、基于Transformer架构的扩散模型。

李飞飞是华裔女科学家、世界顶尖的AI专家，现为美国斯坦福大学终身教授、斯坦福大学人工智能实验室主任，曾任谷歌副总裁和谷歌云首席科学家。前OpenAI研究员、曾担任特斯拉人工智能和自动驾驶视觉总监的Andrej Karpathy便是其得意弟子。

从展示的案例来看，W.A.L.T的效果媲美Gen-2比肩Pika，其可以根据自然语言/图片提示生成逼真的2D/3D视频或动画。

A Teddy bear skating carefully in Times Square，Slow Motion/一只泰迪熊在时代广场上优雅的滑冰，慢动作

A giant dragon sitting in a snow covered landscape， breathing fire/一条巨大的龙盘踞在冰雪覆盖的大地上，喷吐着火焰

Cameraturns around a cute bunny， studio lighting， 360 rotation/相机围绕一只可爱的兔子旋转，工作室灯光，360度旋转

评论区有不少人惊叹，“好莱坞的末日！”“跨域式的发展！”还有人提问，“能嵌入消费电子产品上吗？代码会开源吗？”

相关论文已经发布。

▌怎么做到的？

核心研究人员阿格里姆•古普塔（Agrim Gupta）代表李飞飞团队对W.A.L.T的两个关键决策作了详细介绍：

首先，研究者使用因果编码器（causal encoder）在统一的潜在空间内联合压缩图像和视频，从而实现跨模态的训练和生成。

其次，为了提高记忆和训练效率，研究者使用了为空间和时空联合生成建模量身定制的窗口注意力机制（window attention），注：该机制基于transformer架构。

通过这两个关键决策，团队在已建立的视频（UCF-101和Kinetics-600）和图像（ImageNet）生成基准测试上实现了SOTA，而无需使用无分类器指导。

最后，团队还训练了三个模型的级联，用于文本到视频的生成任务，包括一个基本的潜在视频扩散模型和两个视频超分辨率扩散模型，以每秒8帧的速度，生成512x896分辨率的视频。

▌W.A.L.T的出现说明了什么？

在视频生成领域，Runway Gen-2、Zero Scope等应用珠玉在前，一大波“后浪”汹涌而至。

加上W.A.L.T，近期已有多个视频生成应用惊艳亮相，包括爆火出圈的Pika，以及三大图片转视频神器——阿里的Animate Anyone、字节跳动的Magic Animate、微软的GAIA。

Pika的投资人名单几乎集齐了硅谷的半壁江山，其他应用背后均站着科技巨头。

W.A.L.T在内的工具的密集出现，再次说明一个问题：各方势力竞相加码，但相关应用的优化迭代速度和商业化进程均较慢，大公司与初创团队势均力敌，终局之战远未到来，文生视频应用的潜力还没有彻底被开发。

主要原因在于，视频生成应用的底层模型及技术仍在优化，未筛选出最优模型。

在图像和视频生成应用上，当下的主流技术路线为Diffusion Model（扩散模型），但各家采用的模型均有自己的创新点。比如W.A.L.T的窗口注意力机制。Pika联合创始人孟晨琳此前也透露：“Pika也不能完全算Diffusion Model，我们开发了很多新东西，是一种新的模型。”

由于底层技术不同，各产品存在各自的优劣势，比如，基于Transformer的代表Phenaki突破了视频生成时长限制，但效果相对粗糙缺少细节；基于扩散模型的代表Make-AVideo重在提升视频质量，但其视频时长均在4秒以内。

如何找到视频生成时长、效果、成本之间的平衡点？该领域的研究者依然在寻求最优解。

▌视频生成背后暗藏机器人机遇？

值得注意的是，李飞飞研究领域涉及计算机视觉、机器学习、深度学习、认知神经科学等，而近年来其关注的重点聚焦在AI智能体，即具身智能。负责介绍W.A.L.T的研究人员Agrim Gupta是论文《通过学习和进化实现具身智能》的第一作者。

在李飞飞看来，计算机视觉未来的重点方向就是具身智能，她认为，具身AI可能会给我们带来一次重大的转变，从识别图像等机器学习的简单能力，转变到学习如何通过多个步骤执行复杂的类人任务。

具身智能，可以理解为具备自主决策和行动能力的机器人/仿真人，是通用AI的高级形态。W.A.L.T模型的另一研究方谷歌已经在研究，如何将其原生多模态大模型Gemini与机器人技术结合起来。

作为多模态应用的重要分支，视频生成与机器人的视觉感知力有着密切的关系。基于此，李飞飞团队投身视频生成模型，并没有偏离其具身智能研究。未来如何？我们静观其变。

来源：科创板日报

上一篇：vivo S18 系列新品发布会直播（视频）

下一篇：6G发展路径日渐清晰　运营商开启新征途

相关内容

热门资讯

原创雷... 5月19日早间，小米董事长兼CEO雷军通过微博宣布，小米将于5月22日晚7点召开主题为“新起点”的“...

算力互联网试验网来了！是什么？... 5月17日，在2025年世界电信和信息社会日暨国际电信联盟成立160周年纪念活动上，中国电信、中国移...

别再让手机整夜充电！牢记这几点... 为方便给手机充电很多人会把充电器插在插头上“随时待命” 充电器长期不拔会爆炸吗？给手机充电时要...

SP导电炭黑从原理到应用的全面... SP导电炭黑，全名为Super P Conductive Carbon Black，是一种具有优异导...

在IDC机房托管有哪些好处？为什么推荐大家在IDC托管机房呢？今天就带大家了解一下在IDC托管机房的优点。成本效益降低...

原创神... 我国的载人航天工程在不断取得重大成就的同时，已经向全球展示了中国的航天技术，甚至在载人登月计划中，其...

怕再次翻车？苹果以后宣布新功能... 据彭博社的马克·古尔曼 (Mark Gurman) 和德雷克·贝内特 (Drake Bennett)...

最新研究：洗衣机里的细菌进化出... 【CNMO科技消息】许多人认为高温洗涤可以确保衣物彻底清洁，但新的研究表明，实际情况可能并非如此。即...

黄奇帆：以产业互联网为核心的金... 5月18日金融一线消息，以“共享未来：构建开放包容的经济与金融体系”为主题的2025清华五道口全球金...

小米自研芯片来了，这款机型首发... 温馨提示：最近来了很多新同学，蓝字」，右上角「···」，将奇果酱「」，以免错过重要消息哦~...

雷军官宣新品发布时间，将推出手... 5月19日，雷军通过个人社交帐号官宣小米新品发布会时间：小米战略新品发布会，定在5月22日晚7点。...

昱能科技全资子公司成立，聚焦A... 近期，一家专注于人工智能领域的新企业——上海昱能数智能源科技有限公司，正式宣布成立。这家公司的注册资...

巢湖元控飞轮储能基地：领航新能... 近期，元电公司斥资打造的巢湖元控飞轮储能智能制造基地项目，在业界引起了广泛关注。这一基地的建设，不仅...

宁波芯丰取得加工设备专利，保证... 金融界2025年5月19日消息，国家知识产权局信息显示，宁波芯丰精密科技有限公司取得一项名为“加工设...

青州：数智’赋能，青州教育驶入... “这节美术课，我以中国传统文化版画拓印为例，创造了一个非常有趣的人工智能形象，大家快来看一下……”5...

积极挖掘应用场景深市公司加速... 中证报中证网讯（记者黄灵灵）日前，深交所以“机巧灵动・赋能新制造”为主题组织举行上市公司集体业绩说...

成都晓舞玥网络科技有限公司怎么... 在信息技术日新月异的今天，选择一家可靠的网络科技公司成为了众多企业和个人的共同需求。成都晓舞玥网络科...

机器人利好！王兴兴喊话 “订单... 当下科技浪潮中，机器人板块热点频出。5月以来，二级市场的机器人概念股震荡走强，不少相关股票涨幅超过 ...

原创一... 17名美国国会议员直接把文件送上商务部桌前，点名要求封杀TP-Link。这不是试探，这是亮牌。理由呢...

中国铁塔2025年云资源服务：... C114讯 5月19日消息（颜翊）日前，中国铁塔发布2025年云资源服务采购项目直接采购事前公示。 ...