进击中Sora
创始人
2024-05-31 12:20:49
0

出品 | 虎嗅科技组

作者 | 杜钰君

编辑 | 苗正卿

头图 | 视觉中国

2月16日,OpenAI发布了首个文生视频模型Sora。用户可以通过输入自然语言提示词,生成长达1分钟的视频。Sora也因文生视频的强大功能而被称为“史诗级大模型”。

然而,出于公司发展战略、商业化等的多方考量,OpenAI选择了闭源Sora,甚至遮蔽了模型训练的技术性细节。当OpenAI变成了ClosedAI,一众大模型技术和创业团队开启了复原Sora的计划。

“世界模拟器”的激励之下,佼佼者众。继2024年3月18日的OpenSora1.0之后,ColossalAI再次推出了开源Sora中的尖子生——OpenSora1.1,在开源模型的艰难复现之路上迈了一大步。

OpenSora1.1是开源视频生成模型OpenSora1.0的第二代,该模型支持文本到视频、图像到视频、视频到视频等多模态的功能实现,且能够进行自主视频拼接的同时保证视频内容的3D一致性。此外,OpenSora1.1的动态分辨率也同样出彩,无需预处理便可以直接处理任意分辨率的视频。

与初代相比,该版本在功能、训练效率和整体灵活性方面均有了显著提升。最显著的改进之一是能够生成长达21秒的视频,与Open-Sora1.0的2秒限制相比提升了十倍多,时间范围的大幅扩张为更广泛的创意短视频的落地打开了方便之门。

此外,新版本还大幅增加了模型大小和数据集。与Open-Sora1.0版本的40万个训练视频相比,Open-Sora1.1的训练数据集直接提升了25倍,此外,该模型本身还拥有7亿个参数,再搭配训练过程中对原有的STDiT架构进行了关键性改进,包括将时序注意力中的正弦波位置编码替换为更高效的旋转位置编码,以及QK归一化技术等的引入,保障了OpenSora1.1半精度训练的稳定性。

OpenSora1.1对CausalVideoVAE架构进行了优化,采用高效多分辨率训练的Bucket系统,该系统将视频根据分辨率、帧数和宽高比分组到Bucket中,确保具有相似属性的视频能够在同一批次内进行训练。这不仅极大地提升了在有限GPU资源上的处理效率,还通过keep_prob和batch_size等功能的引入,有效控制了计算成本,并在训练期间实现了GPU负载的平衡。

模型架构和训练之外,Open-Sora1.1在很大程度上得益于精细的数据预处理流程。利用场景检测算法首先对原始视频片段进行采样切割,从美学、光流和文本存在等方面对切割后的原始视频进行评分,在基于视觉吸引力、运动模式、语义一致性等指标对原始视频进行综合评估后,为入围的片段生成字幕,通过视频内容的文本描述进一步丰富模型的训练数据。在此基础上进行新一轮的字幕和匹配分数计算,筛选出字幕和视觉效果之间相关性强的训练视频,最终根据匹配分数过滤视频片段,舍弃字幕与视频匹配度较弱的片段。

诸多buff加持下的Open-Sora1.1成为视频处理与生成的“斜杠青年”,能够同时处理分辨率、帧长度和宽高比等各种视频属性。

但复现终究不是取代。在高仿真度还原Sora大量功能的同时,Open-Sora1.1也存在处理复杂内容或大量token时场景还原度不高、视频可能会出现噪声、缺乏流畅度和时间一致性等问题。

正在改变与想要改变世界的人,都在虎嗅APP

相关内容

热门资讯

“太空健身房”里都有啥?来中国... 由陈冬、陈中瑞、王杰三名航天员组成的神二十乘组,进驻中国空间站已经有三个多月了。除按计划开展各项空间...
康众医疗涨6.84%,成交额1... 来源:新浪证券-红岸工作室 8月4日,康众医疗涨6.84%,成交额1.99亿元,换手率7.36%,总...
M87黑洞吸积盘顺时针旋转之谜... 在浩瀚无垠的宇宙中,存在着一种令人着迷的天体——黑洞。提到黑洞,你的脑海中是否会浮现出一个深邃、吞噬...
训练时“强迫”大模型学坏,竟能... Anthropic 的一项新研究指出,谄媚或邪恶等特质与大型语言模型(Large Language ...
土星与海王星6日上演“星星相吸... 8月6日,土星与海王星相合,上演“星星相吸”。届时如果天气晴好,我国感兴趣的公众可在当晚朝东南方天空...
牵住应用“牛鼻子” 推动人工智... 证券时报记者 周春媚 近日,国务院常务会议审议通过《关于深入实施“人工智能+”行动的意见》,明确提出...
消息称苹果计划首度进入 AI ... 来源:市场资讯 (来源:IT之家) IT之家 8 月 3 日消息,彭博社的马克・古尔曼(Mark G...
深圳二类医疗器械备案代办流程是... 在深圳,二类医疗器械备案代办流程主要包括准备材料、网上申报、审核与发证三个阶段,以下是详细说明: ...
三地创新释放“裂变效应” 在环山抱水的北京怀柔科学城,高能同步辐射光源发出世界最亮的光;在安徽合肥的汽车生产线上,机械臂上下翻...
皖南小城的“智”造新图景 在芜湖某现代化物流中心内,一辆辆身形灵巧的智能AGV在园区内穿梭不息,高效完成货物转运;数条高速分拣...
为什么被挠痒痒那么难受,我还是... 老公经常会挠我的痒痒,挠到我生气了,他还一脸无辜。 他挠第一下的时候,我缩成一团,哈哈大笑。于是他继...
原创 混... 想象这样一个未来:建筑物不仅能经受时间的考验 —— 更能主动对抗气候变化。 南加州大学(USC)的研...
华为科技有温度,小小便签藏温情 7月正直盛夏,一位倪女士来到了华为授权服务中心(伊春邮政路),她把新买的华为手机放在桌上,轻轻叹了口...
冥王星“降级”内幕:轨道未清空... 冥王星,这颗曾经稳居太阳系行星家族末尾的蓝灰色天体,承载了无数人对浩瀚宇宙的最初幻想。然而,在200...
省肿瘤医院完成南京首例 达芬奇... 医院供图 近日,江苏省肿瘤医院乳腺外科主任、乳腺疾病中心常务副主任谢晖教授带领团队为一患者成功完成了...
小米16 Ultra影像配置曝... 【CNMO科技消息】8月4日,有博主爆料称小米下一代超大杯旗舰手机小米16 Ultra将搭载连续光变...
三星9100 PRO固态硬盘8... 【ZOL中关村在线原创技术】2025年8月1日--4日,Chinajoy2025如约与大家见面,全球...
高德地图2025正式发布,全球... 近日,阿里巴巴集团旗下的高德地图宣布全面AI化,基于超二十年的数据、技术和场景研发经验积累,推出了全...
首台农业数智方舱落地沣西 近日,西安农链互联网科技有限公司研发的天麻数智方舱建成运营,作为前沿的智能农业装备技术体系,将有望成...
低空经济下的通感解决方案:卫星... 卫星互联网作为能提供广覆盖、低延时等服务的新型网络,与低空经济在技术上高度互补,是其重要技术支撑,且...