AI视频神仙打架,BAT跟不跟?
创始人
2024-01-08 06:03:02
0

原标题:AI视频神仙打架,BAT跟不跟?

继发布最新AI大模型“Genmini”仅一星期后,谷歌又公布了自己的最新AI研究成果。

12月12日,谷歌宣布,其与全球顶级计算机视觉专家、华裔AI教母李飞飞及其学生团队合作,推出了AI视频生成模型“W.A.L.T(全称为Window Attention Latent Transformer)”。

与前段时间刷屏全网、A股信雅达董事长女儿创业研发的PIKA 1.0类似,W.A.L.T也是一款AI视频生成模型。

此前在12月6日晚间,谷歌曾发布其最新一代的多模态AI大模型Gemini,并同步发布了演示视频。

但Gemini发布后不久,即被爆出其演示视频存在通过剪辑等手法、刻意美化模型效果的情形。正因如此,谷歌也一度陷入“造假”指控中。

仅仅6天过去,谷歌又通过发布W.A.L.T瞄准了AI视频生成,这也是如今AI应用落地最为火热的领域之一。

携手华裔AI女神,谷歌抢滩AI文生视频

与此前走红的Pika 1.0类似,W.A.L.T同样支持文生视频、图片生成视频、3D视频生成等功能。

而视频效果方面,根据演示视频及论文,W.A.L.T可以通过自然语言提示,生成3秒长的每秒8帧、分辨率为512x896的视频。

(图源/W.A.L.T)

产业人士“歸藏”公开评价称,W.A.L.T的效果“比Pika 1.0还要好得多,清晰度和动作都非常好”。

有趣的是,Pika的创始人、信雅达董事长的女儿郭文景,其实与李飞飞颇有渊源。

在退学创业之前,郭文景曾在斯坦福大学AI实验室(NLP&图形学方向)攻读博士学位,而李飞飞则是斯坦福大学首位红杉讲席教授,亦曾在斯坦福大学AI实验室中任职。

与后起之秀郭文景相比,李飞飞堪称全球计算机视觉领域的奠基人与技术泰斗,也是包括谷歌在内、全球科技大厂争夺的人才资源。

根据公开信息,1976年,李飞飞出生于北京,并在成都长大。1992年,16岁的李飞飞随父母远赴美国定居,并在三年后进入普林斯顿大学攻读物理学。

在之后的求学生涯之中,李飞飞一步步确立了对于AI的研究兴趣,并将研究重点转移至彼时十分冷门的计算机视觉领域。2007年,李飞飞在经费短缺的情况下,开始了自己的首个项目ImageNet(教机器识别图像的数据集)。

当时,AI图像识别模型仅能认出四种物体:汽车、飞机、豹子、人脸,因为以往研究者一般只会针对这四类物体进行模型训练。想让AI认识一种物体,需要人工先在图片中标记出目标物,再将大量这样的图片“喂”给AI进行训练。

而李飞飞的设想是,如果有一个足够大的、经过标注的数据集,就能训练出理论上“无所不知”的计算机视觉模型。

2009年,ImageNet正式发布,很快成为了几乎所有视觉模型的训练和测试素材库。李飞飞也由此“一战成名”,拥有了“华人AI教母”等头衔。至今,ImageNet仍是全球AI产学界最知名的大型视觉数据库之一。

无论是一周内连发两大模型,还是与李飞飞团队的合作,都说明谷歌在多模态AI模型研发方面正铆足了劲。

AI视频“神仙打架”,国内玩家怎么看?

在刚刚过去的一段时间内,AI视频生成赛道十分热闹。除了Pika 1.0、W.A.L.T,有不少AI视频生成工具密集涌现出来或进行了功能更新。

举例而言,11月初,美国生成式AI独角兽企业Runway对其自研视频生成模型Gen-2进行了功能更新,着力提升生成结果的保真度和一致性。

11月中旬,以社交产品起家的科技大厂Meta发布了Emu Video模型。

11月末,美国文生图片创企Stability AI推出了名为Stable Video Diffusion的视频生成模型,提供SVD和SVD-XT两个模型。

(图源/W.A.L.T)

而国内方面,字节跳动、阿里、百度等科技大厂均已跑步入场。

其中字节跳动于11月18日推出了文生视频模型PixelDance,提出了基于文本指导+首尾帧图片指导的视频生成方法,使得视频生成的动态性更强。

紧随其后,阿里上线了Animate Anyone模型。用户只需向该模型提供一个静态的角色图像和一些预设的动作(或姿势序列),就能得到该角色的动画视频。

根据此前的公开信息,百度文心大模型的类似功能则在内测中,不久后会以插件形式开放。

国内外玩家的积极下场,在某种程度上说明AI视频生成赛道将成为这一轮AI技术升级过程中的下一个受益方向。不少产业人士已经感知到了市场的风向,英伟达高级研究科学家、曾在OpenAI工作过的Jim Fan就在社交媒体上写道:“2022年是图像之年,2023是声波之年,2024(将是)视频之年!”

中信证券研报则指出:“参考文生图在广告领域的应用,文生视频同样有望推动生产力革命,降低生产成本、创作门槛,促使AIGC技术产业化进程加速。我们认为从能力的角度出发,文生视频有望率先在短视频和动漫两个领域落地。”

不过,技术革新的另一面,则是对现有业态的冲击。

在国内一家视频创作工具企业工作的Leo告诉「市界」:“今年早些时候我们一直认为AIGC主要还是作用在图文创作领域,但距离满足商业视频要求还要经过一两年的时间。”他补充道,这里提到的商业视频要求包括分镜脚本制作时保持对象的一致性、连续性等。

而现在看来,视频生成工具正以数倍于预期的速度进行迭代。在技术进步的倒逼下,现有的市场参与者们也不得不对自动化生成功能主动出击和布局。否则面临的,可能是被时代抛弃的结局。

作者 | 董温淑

编辑 | 董雨晴

运营 | 刘 珊

相关内容

热门资讯

大模型备案是什么意思?怎么办理... 大模型备案是近年来随着人工智能技术的发展而逐渐引起关注的一个话题。尤其是在大模型的应用越来越广泛的背...
有精致外观还有极致配置,一加A... 随着新一批性价比机型上线,相信不少朋友也开始考虑换机了。当然,在这种关头,我们也依旧推荐一些发布了有...
数字时代,让古典文学成为“活的... 蔡丹君 互联网以及AI技术的发展,带来了知识传播形式的变迁,也为学科带来了挑战。面对技术革命,古典文...
原创 为... 第一次听到“美国不让中国登陆月球”这一说法时,我的心中不禁泛起了惊讶的波澜。月球,这颗伴随地球旋转的...
英维克申请一种水泵专利,可有效... 金融界2025年5月3日消息,国家知识产权局信息显示,深圳市英维克科技股份有限公司申请一项名为“一种...
小米申请防误触方法专利,能提升... 金融界2025年5月5日消息,国家知识产权局信息显示,北京小米移动软件有限公司申请一项名为“防误触方...
原创 探... #科考登山队员登顶珠峰#近年来,中国科学考察队通过一次次挑战珠穆朗玛峰(珠峰)的历史,不断拓展人类对...
上海桢铭取得集尘机粉尘收集装置... 金融界 2025 年 5 月 3 日消息,国家知识产权局信息显示,上海桢铭自动化工程有限公司取得一项...
新乡市胜源电气取得防雾配电箱生... 金融界2025年5月3日消息,国家知识产权局信息显示,新乡市胜源电气有限公司取得一项名为“一种具有防...
当Z时代遇上了AI——AI世界... 大象新闻记者 冉晓晖 崔传深 一个刚刚诞生的AI系统就像一张白纸,对世界一无所知。这时,人工智能训练...
工信部开始严抓智驾,为啥从业者... 高阶智驾团灭,以后就只剩辅助驾驶了? 在前几天的上海车展上,以前狂吹高阶智驾、智能驾驶的车企们,这次...
原创 从... 是孤独的巨人,还是碰撞的产物?超级木星有着混沌的过去 两颗巨行星碰撞时,一个更大的世界将会就此诞生。...
“五一”出游安全感拉满!北川 ... “五一”期间,北川羌族自治县公安创新运用“无人机+智慧警务”模式,通过高空巡查、实时喊话、智能调度的...
80余所高校设立储能本科专业 新型储能就像“超级充电宝”,可以在电力运行中调峰、调频、调压,对促进新能源开发消纳、保障电力系统安全...
工信部:加强通用大模型和行业大... 新华社北京5月4日电(记者张辛欣、周圆)记者近日从工业和信息化部获悉,下一步将加强通用大模型和行业大...
传承“五四”精神,谱写藏蓝青春... 青春因磨砺而出彩,人生因奋斗而升华。在莱西公安队伍中,有这样一群新时代青年民警,他们的梦想青春,以梦...
推动人工智能产业迈向更高水平 人工智能是引领新一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应,是培育和发展新...
【奋斗者 正青春】全国新时代青... 凌晨的中北大学实验室里,一盏孤灯常明。仪器与电子学院测控系主任刘文耀伏案整理实验数据,手边是厚厚一沓...
全市三百青年突击队挺立科技创新... 本报记者 王琪鹏 “青年是祖国的前途、民族的希望、创新的未来。”在科技强国建设的征程中,北京共青团以...
Mac上快速搭建宽带连接指南 为Mac配置宽带连接的完整指南 在数字化时代,稳定高效的网络连接对Mac用户至关重要。无论是通过有线...