中文版Sora,难倒互联网大厂
创始人
2024-02-24 19:25:33
0

原标题:中文版Sora,难倒互联网大厂

图片来源@视觉中国

文|智能Pro

科技圈当下最火话题,非Sora莫属。Sora的影响力也早已冲出硅谷、辐射全球,在大洋彼岸的中国掀起滔天巨浪。

在二级市场,Sora概念股连日走高,势头比起当初的ChatGPT概念股有过之而无不及,比如2月20日,A股、港股Sora概念股板块就有超过60只个股飘红,其中5家企业股价暴涨40%以上。

在科技互联网圈,争夺中文版Sora首发权,成为巨头的新目标。不过和当初的中文版ChatGPT首发争夺战相比,中文版Sora的研发难度也更大,大厂们大多面露难色。此前被盛传将推出首个中文版Sora的字节跳动,就在20日辟谣,称相关产品的效果距离Sora还有很大差距。

在Sora横空出世前,国内“千模大战”早已陷入胶着状态,未曾想,风口突变,从图文生成转向视频生成,“千模大战”也将进入全新阶段。

在上一阶段稍稍落后的字节跳动在视频业务上有先天优势,自然不会错过这个弯道超车的机会,这不仅事关大厂的面子,更是为了捍卫其核心业务——抖音CEO张楠突然辞职专攻剪映,也被视作是字节重视AIGC的动作。

虽然没有中文版Sora,但字节一直在死磕AI

在文本生成式大模型领域,字节的起步时间无疑是比百度、阿里巴巴等大厂要晚,这也让字节的高层十分懊恼。CEO梁汝波就在内部讲话中直言,很难相信技术团队直到2023年才讨论GPT,要知道业内做得比较好的大模型企业都是在2018-2021年起步的。

好在,知耻而后勇,还有亡羊补牢的机会。

一开始,字节希望以量取胜,在去年下半年扎堆上线了十多款AI产品。

这当中,既有大厂标配的基础大模型“云雀”,也有在C端最流行的AI对话类应用,如“豆包”、“话炉”和“抖音小晴”,还有辅助创作的AI工具,如剧情创作平台“BagelBell”、电商内容创作应用“即创”等。由字节技术副总裁洪定坤率领的新部门Flow,则在背后为这一系列AI产品保驾护航。

(图片来自豆包官网)

据悉,字节还在内部开放了大量活水岗位,希望调集全公司最优秀的技术、产品人才集中精力搞AI。除了前面提到的洪定坤外,原飞书产品副总裁齐俊元、抖音社交负责人陆游、字节跳动产品与战略副总裁朱骏等高管也先后驰援。甚至在国外,字节跳动也组织了50多人的研发团队,负责推进“Cici”项目。

然而,字节在文本生成大模型这条赛道确实是落后了,即便后期不断加大投入,恐怕也很难抹平差距。明白这个道理后,再结合自身的业务状况,字节开始发力图像、视频生成领域,试图确立差异化优势。而在春节前后,内部的一系列人事变动、团队重组,则是其为视频生成大模型奋力一搏的最佳证明。

2月9日,张楠宣布辞去抖音集团CEO一职,原因是要把精力集中到剪映的发展上。众所周知,张楠是字节内部最有权势的高管之一,很多人将其视为仅次于集团CEO梁汝波的二把手。其掌管的抖音集团,则是字节最重要的业务,此次自降身份掌管剪映,在内部、外界都引发了不少争议。

如今再看,作为一款视频剪辑及辅助创作工具,剪映是字节业务版图里和视频生成大模型契合度最高的一环,是承载AI视频创作业务的最佳抓手。像张楠这种级别的核心高管主动接管剪映,恰好说明字节对该项目的重视。

有消息指出,张楠去年已经把大部分精力花在剪映身上,抖音的各项业务分别交给韩尚佑(抖音集团新任CEO)、魏雯雯(抖音电商总裁)、蒲燕子(抖音本地生活负责人)等高管接手。

去年11月,剪映就悄悄内测了一项名为“Dreamina”的AI辅助工具,用户只需要输入文字,即可生成创意图像。算上研发周期,该项目的立项至少在去年二季度前。如果上述消息属实,张楠带领的团队应该在更早的时候就接手了字节的AI产品研发工作。

张楠正式官宣辞任集团CEO之后,也有消息称其带领的团队将推出一个全新的AI视频生成软件。如今,这款备受期待的产品——“Boximator”,终于浮出水面,这也是字节冲击中文版Sora的王牌。

Sora搅动一池春水,大模型改造短视频行业

据悉,字节内部对“Boximator”的定位为创新性视频生成大模型,将通过控制对象运动的方式,精确控制视频人物、物体的运动。该模型采集的训练数据来自webVid-10M数据集,并在PixelDance和ModelScope两个视频生成模型中进行训练。

然而,正如字节日前的回应那般,视频生成大模型的研发难度比想象中更大。根据字节方面的说法,“Boximator” 保真率、画面质量、视频时长等方面距离Sora还有很大差距,暂时不具备落地的条件,预计还要2-3个月才能开放测试。

但2-3个月,可以发生很多事情——Sora可能已经迭代到更先进的版本,和尚未落地的竞品拉开更大差距;其他竞争对手也可能迎头赶上,抢在字节之前推出同类产品。

对于这些可能性,字节跳动心里肯定有数,而且比谁都着急。原因很简单:比起文本生成大模型,视频生成大模型和字节跳动的短视频、直播等核心业务关联更紧密,影响也更大。

如果说搜索是第一个被ChatGPT颠覆的行业,那么长/短视频肯定是最有可能被Sora颠覆的行业。正如当初谷歌、百度、360等巨头倾力投入文本生成大模型研发那样,字节在视频生成大模型这一战中也不容有失。因为随着视频生成大模型在日后逐渐普及,短视频内容生产、营销、变现等一系列逻辑都可能发生变化。

以内容生产为例,制作方对真人演员、编剧、剪辑人员的需求很有可能会减少,传统的制作流程也会被大幅简化、制作时长将被压缩。这带来的直接后果,不止是生产内容数量呈几何级增长、成本明显减少,也必将导致更残酷的竞争,加速优胜劣汰。

在Sora走红之后,有关剪映会不会被取代的问题已经迅速成为焦点话题。留给剪映的路只要一条,那就是主动拥抱AI,向Sora看齐。要是能成功抱上AI这条大腿,剪映的用户体量可以再上一个台阶,商业化潜力也将大大提升。

举个最简单的例子,现在的剪映只提供基础服务,收费模式很难推广。但如果能像Sora那样,提高内容创作者的效率、降低成本,收费也就更有底气。Stability AI、Runway等独角兽的估值大幅飙升,就证明了这条路线的可行性。

当然,因Sora而焦虑的大厂绝不止字节跳动一家。短视频行业的另一个巨头快手,还有爱奇艺、腾讯视频、优酷、哔哩哔哩为首的流媒体平台,也必须啃下视频生成大模型这块硬骨头。

可能是Sora的冲击太大,还需要时间消化,也可能是吸取之前的教训,先埋头干实事不着急到台前造势,上述大厂大多尚未表态是否及何时推出类Sora应用。截止发稿时,只有芒果超媒表态将探索文生视频等AI技术在传媒领域的落地。但明眼人都看得出,这些大厂没有一个会缺席这场全新的“千模大战”。

有危机感,就会有动力。大厂们集体冲刺,到底谁能率先撞线?

冲刺中文版Sora,哪家中国大厂先撞线?

要猜测谁能率先研发出中文版Sora,或者说类Sora视频生成大模型,得先看一下这类产品的研发难点。

从openAI公布的报告来看,Sora并没有应用什么全新研发成果,核心技术都是早已公开的。这当中,视频压缩网络、扩散模型、视觉补丁(类似于本文生成大模型的文本标记)、图像及视频编辑是最关键的几个环节。本质上讲,Sora仍是一个基于Transformer架构的扩散模型,和ChatGPT有很多相似之处。

当中的技术原理和繁琐的训练流程,这里不再一一展开。可以确定的是,大厂们都具备开发中文版Sora的基础,起跑线不会有太大差距。除了考验财力之外,和之前的中文版ChatGPT之争一样,数据样本、算力、测试条件,将很大程度上左右最终赛果。

这当中,数据样本关系着大模型的效果,训练数据越丰富、越完整,视频大模型就能越接近物理世界的真实情况。算力则是训练效率的决定性因素,是跑赢竞争对手的关键。测试环节更多是决定了产品落地效果,以及稳定性。

硅谷巨头的选择出奇一致,都在拼算力。openAI CEO阿尔特曼表示,计划筹集8万亿美元投资AI芯片,彻底解决AI大模型训练的算力问题。微软、Meta、谷歌等大厂在疯狂囤积英伟达H100的同时,还在抓紧时间自研芯片。这些原本为文本生成大模型准备的杀招,现在能完美应用到视频大模型身上。

国信证券在最新一份研报中指出,相较于ChatGPT等文本生成类大模型,Sora训练数据量明显高出一个级别,对算力的要求自然也更苛刻了。根据该研报援引的数据,以全球最大视频分享网站YouTube为数据源,一年的增量视频大约为157.68亿秒,即便是采用英伟达最先进的H100,单次训练也需要一个月,GPU消耗量为156.98万张。

众所周知,H100长期处于供不应求状态。加上不可抗力影响,国内的大厂们在算力这一块大概率会落后于硅谷巨头,唯有在其他环节努力缩短差距。相较之下,字节在训练数据源这一块就比其他大厂更有优势。

要知道,Sora对比其早前的PixelDance、Stable Video Diffusion等未成形视频大模型有显著提升,数据量是很关键的一点。抖音和TikTok是国内和海外市场用户、创作者规模最大的短视频应用,拥有最多的短视频内容,可用于训练大模型。更不用说,字节旗下还有今日头条、西瓜视频等内容库,完全不愁数据源。不过其他大厂也不会落后太多,而且肯定会想方设法抹平差距。

这几天的观察下来,和当初同样出道即红遍全球的ChatGPT不同,业界人士对Sora的态度除了赞叹、敬佩,还带着更深的恐惧。这不仅是因为Sora的视觉冲击力比ChatGPT更强,还因为前者对相应产业的改变路径是相当清晰的——这也决定了大厂会倾注更多的资源,务求尽快打赢这场硬仗。

总而言之,“千模大战”已经进入新的阶段。假以时日,我们肯定能看到很多中文版Sora。只不过对大厂来说,既然不可能成为“唯一”,就只有争下“第一”才有意义。

相关内容

热门资讯

腾讯三角洲正式服务推送全统电话... 三角洲开启新能源行业数字游戏化解决方焦于用大数据、云计算、、人工智能(AI)等先进技术,数字化随着人...
夏已至 万物美 ——灞桥区洪庆... 阳光讯(记者 刘杰 通讯员 张丹)夏至是二十四节气中的第十个节气,通常出现在每年的6月21日或22日...
AI创作、无人机……虹口残疾人... “虹扬风采·技展赛场”2025年虹口区残疾人职业技能竞赛昨天举行,通过政校企三方联动, 融入科技助残...
深莞打造200平方公里“环巍峨... 深莞连接处,99平方公里的深圳光明科学城与90.5平方公里的东莞松山湖科学城,围绕一座巍峨山背靠背相...
两台先进望远镜在青海冷湖启动建... 中新社西宁6月21日电 (记者 孙睿)中国科学院紫金山天文台21日在青海冷湖海拔4312米的赛什腾山...
解读《云终端产业发展报告》,华... 从DeepSeek引发的云端算力需求,到具身智能、自动驾驶带来的云终端形态思考,云终端正迎来一次产业...
智慧社区系统革新社区管理 内容概要 建议物业团队优先评估基础需求,逐步集成功能模块,避免一次性负担过重。 智慧社区系统...
落地30+行业,华为云全栈AI... 盘古大模型已落地30多个行业、500多个场景。 文|赵艳秋 编|牛慧 你很难想象,这是一家水泥厂。芜...
青岛力科取得自动粘贴泡棉胶设备... 金融界2025年6月21日消息,国家知识产权局信息显示,青岛力科工业设备有限公司取得一项名为“一种自...
深度揭秘:物体能被无限分割吗?... 朋友们,咱们生活里经常会遇到各种东西,像苹果、纸张,咱随手就能把它们分成小块。这时候啊,我就忍不住琢...
人造太阳等“科普游”持续升温 ... 安徽合肥是全国大科学装置最集中的城市之一。随着暑期即将来临,合肥的载人航天、人造太阳等“科普游”持续...
机器人头发是咋做出来的 顶端新闻·河南日报记者 王平 杨伟 6月19日,走进河南瑞贝卡发制品股份有限公司展厅,时尚假发、职业...
原创 国... 前言 最近我国国防科大又完成了一项历史性的突破,他们研制出了一款最新型的仿生机器人,重量甚至不足0...
固态电池真正的龙头,全市场只看... 随着新能源汽车对续航里程的极致追求,传统锂电池正极材料(如三元、磷酸铁锂)已逼近能量密度天花板。而富...
数码产品控必看!2024年度性... 随着科技的飞速发展,数码产品已经成为我们生活中不可或缺的一部分。作为一名数码爱好者,我特别关注每年性...
杭州国际机器人展:“杭州六小龙... 【2025杭州国际人形机器人与机器人技术展览会开幕,众多产业链企业齐聚】2025年6月20日,202...
英临床试验:白血病靶向药新疗法... 钛媒体App 6月21日消息,英国利兹大学日前宣布,该校等机构的研究人员在全英开展的临床试验显示,靶...
微软7月大裁员,却豪掷800亿... 近期,科技巨头微软的一则消息引起了广泛关注。据彭博社报道,微软计划在7月实施一次大规模的裁员行动,预...
上海博之美遮阳科技取得蜂巢天蓬... 金融界2025年6月21日消息,国家知识产权局信息显示,上海博之美遮阳科技有限公司取得一项名为“一种...
埃癸斯取得精密压力调节阀专利,... 金融界2025年6月21日消息,国家知识产权局信息显示,埃癸斯(漳州)智能设备制造有限公司取得一项名...