一张图加一段音频生成电影级视频,阿里开源视频生成模型Wan2.2-S2V
创始人
2025-08-27 12:22:15
0

潮新闻客户端 记者 张云山

8月26日晚,阿里开源全新多模态视频生成模型通义万相Wan2.2-S2V,仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频,该模型单次生成的视频时长可达业界领先的分钟级,大幅提升数字人直播、影视制作、AI教育等行业的视频创作效率。用户可在Hugging Face和魔搭社区下载模型,或在通义万相官网直接体验。

阿里开源全新多模态视频生成模型通义万相Wan2.2-S2V(受访者供图)

目前,Wan2.2-S2V可驱动真人、卡通、动物、数字人等类型图片,并支持肖像、半身以及全身等任意画幅,上传一段音频后,模型就能让图片中的主体形象完成说话、唱歌和表演等动作。Wan2.2-S2V还支持文本控制,输入Prompt后还可对视频画面进行控制,让视频主体的运动和背景的变化更丰富。例如,上传一张人物弹钢琴的照片、一段歌曲和一段文字,Wan2.2-S2V即可生成一段完整、声情并茂的钢琴演奏视频,不仅能保证人物形象和原图一致,其面部表情和嘴部动作还能与音频对齐,视频人物的手指手型、力度、速度也能完美匹配音频节奏。

输入一张图片、一段音频以及一段文字,可让图片人物和背景画面动起来(受访者供图)

据介绍,Wan2.2-S2V采用了多项创新技术:基于通义万相视频生成基础模型能力,融合了文本引导的全局运动控制和音频驱动的细粒度局部运动,实现了复杂场景的音频驱动视频生成;同时引入AdaIN和CrossAttention两种控制机制,实现了更准确更动态的音频控制效果;为保障长视频生成效果,Wan2.2-S2V通过层次化帧压缩技术,大幅降低了历史帧的Token数量,通过该方式将motion frames(历史参考帧)的长度从数帧拓展到73帧, 从而实现了稳定的长视频生成效果。

在模型训练上,团队构建了超60万个片段的音视频数据集,通过混合并行训练进行全参数化训练,充分挖掘了模型的性能。同时通过多分辨率训练、支持模型多分辨率的推理,可支持不同分辨率场景的视频生成需求, 如竖屏短视频、横屏影视剧。

实测数据显示,Wan2.2-S2V在FID(视频质量,越低越好)、EFID(表情真实度,越低越好)、CSIM(身份一致性,越高越好)等核心指标上取得了同类模型最好的成绩。

输入一张图片、一段音频以及一段文字,可让图片人物和背景画面动起来(受访者供图)

自今年2月以来,通义万相已连续开源文生视频、图生视频、首尾帧生视频、全能编辑、音频生视频等多款模型,在开源社区和三方平台的下载量已超2000万,是开源社区最受欢迎的视频生成模型之一。

开源地址:

相关内容

热门资讯

北电数智以“星火·底座”破局 ... 2025-08-27 10:44:45 作者:狼叫兽 从自动化仓储物流中高效穿梭的搬运机器人,到精...
“国内独一份”的产品引来订单不... (来源:辽宁日报) 转自:辽宁日报 本报记者 崔治 通过5G网络接收指令的定尺带锯精准落下,切割得毫...
“星舰”完成第十次试飞:预定目... “星舰”点火升空。资料图 据新华社27日报道,美国太空探索技术公司(SpaceX)新一代重型运载火箭...
达 意 隆获得发明专利授权:“... 证券之星消息,根据天眼查APP数据显示达 意 隆(002209)新获得一项发明专利授权,专利名为“一...
iPhone 17系列售价曝光... 备受期待的科技圈春晚即将到来,苹果公司已宣布将于北京时间9月10日举行新品发布会,而主角则是备受瞩目...
热搜!苹果或将停售7款产品 来源:新浪科技 苹果 宣布iPhone 17 发布会将于在北京时间 9 月 10 日凌晨 1:00 ...
新型生物传感器问世:使用手机即... 来源:市场资讯 (来源:IT之家) IT之家 8 月 27 日消息,一种基于蛋白质的生物传感器可实现...
手机外观设计新风向?苹果viv... 【CNMO科技消息】近期,CNMO注意到,手机行业镜头模组设计似乎出现了新的风向。据多方爆料,苹果计...
美国第一夫人发布声明:启动“总... 中新网8月27日电 据美国白宫官网消息,当地时间8月26日,美国第一夫人梅拉尼娅·特朗普在一份声明中...
寒武纪市值站上6000亿,“人... 沪深两市成交额连续第65个交易日突破1万亿元。随着A股市场活跃氛围延续,两融余额进一步增长。截至20...
深入实施“人工智能+”行动 新华社北京8月26日电 国务院日前印发《关于深入实施“人工智能+”行动的意见》(以下简称《意见》)。...
要求更节电节水,“洗碗机新版国... IT之家 8 月 26 日消息,据央视新闻今日报道,市场监管总局(国家标准委)正式发布新版 GB 3...
区县动态 | 历下区科技局:育... 盛夏七月,万物并秀。在历下区这片涌动着创新活力的热土上,科技事业正像一棵茁壮成长的参天大树,向下深扎...
苹果手机充电宝推荐哪款?闭眼入... 苹果手机充电宝推荐哪款?想给苹果手机配一款合适的充电宝,很多人第一反应就是“买大牌一定没错”,但真到...
“人工智能+”行动意见发布 专... 8月26日,《关于深入实施“人工智能+”行动的意见》发布。为何要出台这份文件?这份文件重点说了些什么...
江门中微子实验装置正式运行 图片说明: 图片说明:2024年12月18日,江门中微子实验开始液体闪烁体灌注。 本报记者 李迅典...
全球首个 AI 勒索软件现身:... IT之家 8 月 27 日消息,网络安全公司 ESET 昨日(8 月 26 日)发布博文,报告发现“...
早报|苹果秋季发布会正式官宣/... 苹果秋季发布会定档 9 月 10 日 国务院:2027 年,新一代智能终端、智能体等应用普及率超 7...
一张图加一段音频生成电影级视频... 潮新闻客户端 记者 张云山 8月26日晚,阿里开源全新多模态视频生成模型通义万相Wan2.2-S2V...
穿越时光长廊 感受沧桑巨变 【深圳商报讯】(深圳报业集团记者 李丽)深圳经济特区建立45周年主题图片展昨日在市民中心B区西展厅拉...