追不上Sora的同行有难了
创始人
2024-02-26 19:24:07
0

原标题:追不上Sora的同行有难了

本文来自微信公众号:字母榜(ID:wujicaijing),作者:毕安娣,编辑:王靖,题图:由Sora生成

Sora公布第10天,同行已经坐不住了。

2月16日,中国大年初七,OpenAI公布了全新的生成式人工智能模型Sora:输入自然语言指令,输出至多60秒的视频。

从文本到视频的生成式AI模型并不新鲜,但Sora——就像ChatGPT——一样,因其断崖式的质量提升,登时点燃了互联网。高清的画质,流畅的画面,乍看之下颇为自然的物理轨迹,和一年前近乎鬼畜的“威尔·史密斯吃意大利面”视频看起来像隔了一个世纪,同行去年才发布的AI产品与之相比也黯然失色。

10天很短,但在AI领域却足以生变。

至少有两家AI界“当红炸子鸡”站了出来:2月22日,StabilityAI正式开放Stable Video的公测,该产品背后的模型Stable Video Diffusion去年11月就已经发布。几乎同时,另一家在文生图领域颇有建树的Midjourney也透露,可能会在下一次迭代时包含视频功能。

昔日“炸子鸡”站在阴影中,追不上Sora的同行有难了。

在接受了Sora演示视频的直接冲击之外,人们立刻开始做纵向和横向的比较。

纵向比较,人们拿出了一年前“威尔·史密斯吃意大利面”的AI视频。这位好莱坞明星脸部变形严重、面的形态千变万化,分分钟触发恐怖谷效应,越看越诡异。

来源:由AI生成

一年之后,Sora已经可以做出一个女人在东京街头漫步的视频,不管是画面质量、连续性和稳定性,还是女人的步态与神情,都已经几乎可以以假乱真,让人连连称赞:文本到视频的进步也太大了。

来源:由Sora生成

可惜的是,尽管无数网友在OpenAI CEO山姆·奥特曼(Sam Altman)的社交媒体账号下求Sora版本的“威尔·史密斯吃意大利面”,并没能得偿所愿。倒是史密斯本人跑出来整了个活儿,真人拍摄,“伪造”了一个新版本。你别说,还真差点给人骗过去——真人都能拍视频假装是AI生成的了,倒也足见Sora视频的高质量。

横向对比,同行就有点尴尬了。OpenAI把每一个Sora演示视频的文本指令都公布了,虽然人们不能直接用Sora,但是可以拿着指令去市面上已有的产品里试,看看有什么差别。

不试不要紧,一试吓一跳:看到Sora视频的时候就觉得厉害,看了同行的表现更对Sora的威力有了新的认知。

同样是女人在东京街头漫步的指令,Runway生成的视频暂停看还都像那么回事,连起来就只能用“千变万化”形容,女人的形象并不能随着时间的推移保持稳定。要知道Sora的演示视频中还有机位的变化,从远景到脸部特写,女人的形态始终如一。Runway生成的视频更像是很多张图片的动态融合。

由Runway生成

StabilityAI——就是那个开源了文生图Stable Diffusion的公司——的Stable Video生成的画面清晰度和美观度都很不错,但是女人的脸变形严重,看起来很像一个骷髅头,诡异感拉满。

由Stable Video生成

Pika则有些取巧,其画面相对流畅,但比较模糊,且并非写实风格。

由Pika生成

此外,打闹的猛犸象、行驶中的汽车、俯瞰的景观、看蜡烛的小怪物等指令都被网友做了横向对比,Sora并非和同行打得有来有回,而是碾压了同行。

一朝之间,文生视频当红“炸子鸡”发现自己站在了OpenAI投下的阴影中。

从文本到视频的AI工具并不是新鲜事物。在2023年,多个文本到视频AI工具问世,Runway、PikaLabs(下称Pika)、StabilityAI等初创公司在这个赛道都备受瞩目,热钱不断,估值暴涨。

其中Runway成立于2018年,3月开放Gen-2内测,6月正式对外发布。此前有Gen-1图像到视频AI工具。Runway同时还技术支持了多部电影。其中最大名鼎鼎的是奥斯卡获奖影片《瞬息全宇宙》。

Runway的CEO兼联合创始人克里斯托瓦尔·巴仑苏埃拉(Cristóbal Valenzuela)说:“我们已经看到了图像生成模型的爆发。我相信,2023 年将会是视频之年。”

在5月时,Runway已经完成了1.41亿美元的D轮融资,投资方包括谷歌、英伟达等,估值暴涨三倍,达到15亿美元,

Pika去年4月刚刚成立,A轮融资达5500万美元,估值登时超过2亿美元,11月就发布了第一个文本到视频产品Pika1.0。到了12月时,其用户已有超过50万,每周生成近百万视频内容。

而StabilityAI则因其文本到图像工具Stable Diffusion名声在外,早在2022年获得1亿美元融资后,估值就已经超过了10亿美元,成为独角兽企业。去年11月,Stable Video Diffusion发布,注意后面还有一个“Diffusion”后缀,这是一个基于Stable Diffusion的生成式视频基础模型,需要用户自己部署使用,还不算面向大众发布的产品。

三家初创公司,2023年三个重要生成式视频产品/模型,突然就被Sora会心一击。

在OpenAI兴冲冲向世界展示Sora之后,Runway的CEO巴仑苏埃拉在社交平台X上发帖:“游戏开始(Game On)。”而StabilityAI的CEO兼创始人莫斯塔克(Emad Mostaque)则将奥特曼称作“巫师大人”。

从演示视频来看,Sora的确有改变游戏格局的威力,跟不上Sora的同行有难了。

参照ChatGPT发布之后,虽然AI浪潮让投资人热情高涨,AI初创公司如雨后春笋般冒出来,新晋独角兽一个接着一个。但这是一个冰火两重天的故事,不少AI创业公司走上下坡路,或寻求收购,或大幅裁员,甚至就此寿终正寝。据智东西梳理,仅2023年11月到2024年1月,全球就有AI新闻初创企业Artifact、AI医疗公司Olive等4家AI初创企业宣布关停。

The Infoemation称,至少有7家开发生成式视频的AI公司,共筹集了至少5.5亿美元的资金。有投资人私下对The Information表示,之前刚刚错过某热门AI视频初创企业的融资,看到Sora的视频后“感到庆幸”。

人工智能赛道热度高,但门槛也高,厮杀之中刀光剑影,掉队就可能掉入坟墓。

知名AI初创企业Huggine Face在一篇博文中,提到了文本到视频的三大挑战:算力挑战,确保跨帧空间与实践的一致性伴随着高计算成本,使得大多数研究人员无法负担这类模型的训练费用;缺乏高质量数据集,用于文本到视频生成的多模态数据集非常稀少,而且经常缺乏注释;指令模糊性,如何以一种让模型更容易学习的方式描述视频不是一件容易的事。

即便是看似站稳了脚跟的StabilityAI都麻烦不断。去年6月,福布斯发布一则长新闻,超过30位StabilityAI前员工和投资人细数创始人兼CEO莫斯塔克的9大罪证,包括:窃取StableDiffusion成果融资10亿;隐瞒融资困难;夸大公司收入;拖欠员工工资;学历和工作经历造假。

抛开其他不谈,硅谷“当红炸子鸡”却又融资困难、公司收入被夸大的问题,着实令人意外。知情人士称,StabilityAI每个月的开销大概是800万美元,而莫斯塔克却曾自爆公司8月的营收大概在120万美元,有机会超过300万美元。莫斯塔克很快就删除了该帖,但从这个数字不难闻到烧钱的味道。

11月,也就是其发布Stable Video Diffusion模型的同月、公司完成1亿美元融资的一年后,StabilitAI传出多位高级管理人员辞职、公司财务状况脆弱的消息,并一度传闻考虑出售,这一消息随后被莫斯塔克否认。

入不敷出、人才流失,StabilityAI的危机暴露了光鲜的热门创企的软肋。

巨头的加入也会让战事更加激烈。在AI视频的赛道,巨头早有布局。2022年10月,Meta和谷歌相继发力。Meta先发布了Make-A-Video模型,仅一周后,谷歌CEO桑德尔·皮查伊(Sundar Pichai)亲自安利他们在这一领域的两个最新成果,Imagen Video和Phenaki,分别强调视频品质和长度。

来源:Meta AI

但不管是Meta还是谷歌,目前都尚未向公众开放其文本到视频AI工具。谷歌官方认为用于训练AI视频模型的数据仍包含有问题的内容,可能会导致Imagen Video产生图形暴力或色情剪辑,造成不良影响。巨头的保守操作大家也都熟悉了,在自然语言聊天机器人的赛道,谷歌也是早早就手握模型但未向C端推出产品,原因也是安全问题。但ChatGPT与微软的联手让巨头走出保守,Sora未尝不能做同样的事。

已经有巨头有新动作。在Sora公布的一周前,字节宣布人事变动,原抖音集团CEO张楠宣布辞去集团CEO一职,未来把精力聚焦在剪映的发展上。据时代周报援引接近剪映的人士,张楠亲自带队寻求在AI辅助创作上突破,并即将推出一个AI生成视频的产品。

面对新开的“游戏”,Sora的同行只能全力向前。

就在Sora公布的几天之后,2月22日,StabilityAI正式开放了Stable Video的公测,从模型走向人人可以方便上手的产品。虽然视频长度还是比较短,只有7秒,但视频质量比较高。莫斯塔克在社交平台上宣传新产品时显得很谦虚,表示开放的原因是:“我们想要创造类似Sora的大型开放的Stable Video2,但需要更多的数据和计算。”

此外,在文生图领域有超高口碑的Midjourney也跑步入场,创始人大卫·霍尔兹(David Holz)在Office Hours中透露,下一个版本,也就是Midjourney V7“可能包含视频功能”。

OpenAI现阶段还在对Sora进行评估,距离Sora正式对外公开可能还有几个月的时间。好消息是,同行还有时间应变。坏消息是,留给同行的时间不多了。

参考资料:

1. 智东西:《AI创业冰火两重天:Sora降世资本狂欢,数家创企倒闭关门》

2. 连线Insight:《Sora来了,字节发力:张楠的重任和挑战》

3. 新火种:《被迫卖身、CEO下台、高管出走,又一家AI独角兽出事》

4. 机器之心:《图像生成卷腻了,谷歌全面转向文字→视频生成,两大利器同时挑战分辨率和长度》

5. 财联社:《AI圈子不太平 知名开源模型开发商Stability AI被曝 “寻求卖身”》

本文来自微信公众号:字母榜(ID:wujicaijing),作者:毕安娣

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

正在改变与想要改变世界的人,都在虎嗅APP

相关内容

热门资讯

HDC.2025华为开发者大会... 在东莞松山湖,华为开发者大会HDC.2025拉开了帷幕,这是一场面向全球开发者的技术盛宴。大会期间,...
方程豹 豹8将全球首发华为Hi... 【CNMO科技消息】6月21日,比亚迪旗下个性化品牌方程豹汽车正式官宣,豹8将全球首发华为HiCar...
祥茂机械取得转台抛丸机专利,有... 金融界2025年6月21日消息,国家知识产权局信息显示,青岛祥茂机械制造有限公司取得一项名为“一种转...
群核信息申请模型构建方法相关专... 金融界2025年6月21日消息,国家知识产权局信息显示,杭州群核信息技术有限公司申请一项名为“模型构...
蔡磊:三年前绝望的患者,现在有... 昨天(6月21日)是世界渐冻人日。 当晚,渐冻症“斗士”蔡磊发微博称,“单基因渐冻症药物已经实现突破...
估值30亿,中国版OpenAI... AI赛道又一次"中国震撼"。 2025年的AI世界很热,海外市场OpenAI的GPT‑4o和谷歌的G...
原创 华... 在炎炎夏日里,智能手机的实用性显得尤为重要。华为nova13Pro凭借其出色的硬件配置和软件优化,成...
华为云申请智能合约生成相关专利... 金融界2025年6月21日消息,国家知识产权局信息显示,华为云计算技术有限公司;南京大学申请一项名为...
我国科学家在强磁场技术领域取得... 新华社武汉6月22日电(记者侯文坤)华中科技大学22日发布消息称,该校国家脉冲强磁场科学中心李亮教授...
投入百万、爆款网文IP改编,掌... 财联社6月22日讯(记者 崔铭)近日,一部改编自起点网现象级作品的AI短剧在抖音上线,引发行业关注。...
德耐尔取得一种无油移动式空压机... 金融界2025年6月21日消息,国家知识产权局信息显示,德耐尔节能科技(上海)股份有限公司、德耐尔能...
成都矽联讯取得高压电流发生器专... 金融界2025年6月21日消息,国家知识产权局信息显示,成都矽联讯半导体科技有限公司取得一项名为“高...
我国介入式脑机接口成功实现人体... 6 月 21 日消息,据新华社报道,全球首例介入式脑机接口辅助人体患肢运动功能修复试验在我国完成,成...
“科技协同 融合创新研讨会”暨... 6月21日上午,由中国科学学与科技政策研究会、西北工业大学联合主办的“科技协同 融合创新研讨会”暨西...
河南中科智能装备取得复合材料液... 金融界2025年6月21日消息,国家知识产权局信息显示,河南中科智能装备有限公司取得一项名为“一种复...
原创 中... 好的,我帮你改写这篇文章,保持原意不变,同时增加一些细节描写,让内容更丰富些: --- 2025...
腾讯三角洲正式服务推送全统电话... 三角洲开启新能源行业数字游戏化解决方焦于用大数据、云计算、、人工智能(AI)等先进技术,数字化随着人...
夏已至 万物美 ——灞桥区洪庆... 阳光讯(记者 刘杰 通讯员 张丹)夏至是二十四节气中的第十个节气,通常出现在每年的6月21日或22日...
AI创作、无人机……虹口残疾人... “虹扬风采·技展赛场”2025年虹口区残疾人职业技能竞赛昨天举行,通过政校企三方联动, 融入科技助残...
深莞打造200平方公里“环巍峨... 深莞连接处,99平方公里的深圳光明科学城与90.5平方公里的东莞松山湖科学城,围绕一座巍峨山背靠背相...