AI音频“扛把子”刚上谷歌V2A,第一个视频+音频全自动AI工具,完全开源免费
创始人
2024-06-20 18:00:38
0

文 | 乌鸦智能说

这几天的视频生成AI一经推出就好评不断。无论是Runaway新模型Gen-3 Alpha,还是Luma AI推出的Dream Machine,都有着逼真的画面、多样的电影叙事手法,艺术气息拉满。

目前最顶尖的工具如Sora生成的视频都是没有声音的,而声音是让AI视频变得更为真实的重要一步。如果AI能完成从脚本/图片-视频-配音的工作流,那才是真的完美。

昨日凌晨,谷歌DeepMind悄悄发布了V2A(Video-to-Audio)系统。这个系统能根据画面内容或者手动输入的提示词直接为视频配音。

没过几小时,另一个AI音频克隆“扛把子”ElevenLabs就发布了文字到音频模型的API,并基于这一API做了一个Demo应用。这是当前唯一一个全自动将视频与音频相结合的AI工具,且完全开源、免费在线使用。

花开两朵,各表一枝。由于谷歌并不打算向公众开放V2A系统,那我们就先试用一下ElevenLabs的这个版本~

看懂+对齐,生成全自动,但不能理解复杂画面

AI视频告别无声,ElevenLabs为“徒手”制作大片的AI工作流补上最后一笔,我已经迫不及待,马上就要为前几天做出来的AI生产视频加上配音了。(工具体验:https://www.videotosoundeffects.com/)

▲ElevenLabs生成配音视频step1→step2

我将luma生成的着火meme视频、OpenAI成员暴走视频、电影《闪灵》视频等,以及Gen-3的示例视频都投喂给了ElevenLabs,看看它会为这些画面配上什么声音。

效果还不错呀!其中,“某个歌手在独唱”、“一个女人奔向正在发射的火箭”、“白头发女人大笑”等等配音跟场景很契合,“水下呼吸的女人”、“一个男人身后燃起大火”的视频配音逼真细腻,非常有大片感。

经过约20个视频的试炼,ElevenLabs能自动生成与视频内容同步的音轨,而且生成配音基本已覆盖影视配音的全部类型:

- 环境声,例如水下呼吸声、燃烧声、滚轮声、爆竹声、乐器演奏、白噪音、嘈杂人声等;

- 人声,哭声/笑声、对白/独白和歌声等,但不能生成旁白;

- 音乐,比如马戏团插画的欢乐音乐、闪灵双胞胎镜头的恐怖音乐等;

- 音效,例如枪声、喜剧效果的搓碟声、“OpneAI成员打架”时的机械崩坏声等。

对比其他AI配音工具,ElevenLabs是第一个做到全自动为视频结合生成式配音的工具,无需人工输入提示词也可以为视频配音,且使用AI创建4个音轨供选择,无需人工对齐音频与视频。

ElevenLabs能理解视频的画面,读懂里面的元素,知道画面里正在发生什么,应该出现什么声音,自动匹配上环境音、人声、音乐和音效,在口型同步上表现也不错。

再从声音本身来说,乌鸦君发现ElevenLabs在声音保真度方面表现不错,水下呼吸声、燃烧声、滚轮声、爆竹声,甚至白噪音、嘈杂人声等声音都非常逼真,且音源丰富、音质尚可

令人最想吐槽的一点是,ElevenLabs的音轨选择较少(只有4条),我用同一个视频多次投喂给ElevenLabs,始终只能得到相同的4个音轨。

音轨选择少意味着使用者的控制范围小、创作灵活度低,这使得ElevenLabs在一致性和运动性方面不稳定的缺陷被暴露无疑。理解简单的画面对ElevenLabs来说不是难题,但一旦画面元素有了动态,配音时常出现节奏韵律不对、不能贴合画面内容的情况,例如脚步声不能符合人物走动的节奏等。

不过,这还只是ElevenLabs做视频配音的一个Demo程序,期待它后续增加可选择的音轨条数,提高理解复杂画面的能力。

完全开源,理解画面能力弱于V2A

不到一天,ElevenLabs研究人员说这是他们的视频到声音应用的开发用时。这个敢直接硬刚谷歌的AI语音公司由前Google机器学习工程师Piotr Dabkowski和前Palantir策略分析师Staniszewski于2022年1月共同创立,自2022年以来一直从事生成AI语音。

对比谷歌V2A示例视频和ElevenLabs的生成视频,我们发现后者要逊色前者不少,这可能是由于二者的工作原理存在的本质的差别。Demo是基于公司在5月底发布的文字到音频模型打造的,工作原理如下:

- 以1秒钟的间隔从视频中提取4帧图像(全部在客户端提取)

- 将帧和提示发送到 GPT-4o,以创建自定义的文本音效提示

- 使用 ElevenLabs 文本转声音特效API创建提示音效

- 在客户端使用 ffmpeg.wasm 将视频和音频合并为一个文件供下载

- 托管于vercel

ElevenLabs并不能直接实现画面到音频的转换,而是利用了GPT-4o将视频截图转换为文字提示词,之后再输入文字转在几秒内生成多条与画面内容匹配的音频。而DeepMind在博客中称V2A能依靠自己的视觉能力理解视频中的像素,这意味着ElevenLabs理解视频的能力可能会弱于V2A

另外,在API使用过程中,Elevenlabs按每次生成100个字符收费,在设置持续时间时按每秒生成25个字符收费。

结语:视频生成带飞音频生成,深度伪造技术带来自检挑战

一方面,OpenAI不断推出高品质AI视频生成模型Sora的新演示,另一方面目前这项技术对公众仍然不可见,包括谷歌V2A。然而为了解决视频配音这个问题,竞争对手Pika研究名叫“Lip Sync”的对口型功能。

AI视频赛道在“百团大战”的同时,AI音频生成企业也正在扶摇直上。

ElevenLabs今年2月获得了8000万美元的B轮融资,估值超过10亿美元,跻身独角兽行列,估值在半年多的时间暴增10倍,包括像网易等游戏开发商、《华盛顿邮报》等传统媒体,都已经在大量使用ElevenLabs的文生语音技术。

声音是影视作品给人以身临其境之感的元素,未来,AI音频生成可能会细化到人声模拟、对口型、方言等各个部分,无限逼近真实世界。

与此同时,企业需要研究更多类似生物指纹嵌入应用的技术,来防范Deepfake(深度伪造)技术被用作不法用途。ElevenLabs曾表示将会推出新的措施,克隆声音仅供付费用户使用,禁止多次违反平台协议的用户使用这种功能,将会推出一种新的AI检测工具。

相关内容

热门资讯

AI推理工厂利润惊人!英伟达华... 在人工智能领域的激烈竞争中,AI推理业务正展现出惊人的盈利能力。摩根士丹利近期发布的一份深度报告,通...
原创 中... 前言 随着我国航空产业的快速发展,退役大飞机的拆解问题逐渐浮出水面。 很多人可能不知道,许多退役的...
果蔬行业新变革:橙购优选探索互... 在当今全球化的时代,一张由现代物流网络编织而成的隐形巨网,已将世界各地的美味紧密相连。从智利的鲜甜车...
公元股份“一种带开关功能的管道... 天眼查APP显示,近日,公元股份有限公司申请的“一种带开关功能的管道开孔工具”专利获授权。摘要显示,...
15年深耕+4大硬核工具!EX... 作者:EXERA ENERGÍA S.L. 运维总监 Raúl Mendoza(劳尔•门多萨) ...
充电宝新规实施首日,部分商家紧... 在售充电宝绝大多数已获3C认证 时代周报记者/摄 8月15日,是《强制性产品认证实施规则 移动电源...
【产业链上的山东好品牌】菏泽市... 菏泽同华环保有限公司是山东省菏泽市牡丹区引进的科技型企业之一,主要从事餐厨废弃物的收运处理。公司通过...
2025最建议买的手机!新学期... 2025最建议买的手机!新学期开学季性价比最好的三款手机推荐! 暑假来临,到了很多学生换手机的最佳...
探秘大国重器!“津彩假日”红领... 近日,2025年滨海新区“津彩假日”红领巾夏令营——航天探秘营暨走进大国重器“青春泰达”行动在天津航...
人形机器人运动会场景赛首枚奖牌... 央广网北京8月16日消息(记者 樊瑞)8月16日上午,2025世界人形机器人运动会场景赛首枚金牌出炉...
潍柴雷沃取得带报警功能的继电器... 金融界2025年8月16日消息,国家知识产权局信息显示,潍柴雷沃智慧农业科技股份有限公司取得一项名为...
持续培养科创少年 2025星火... 深圳商报·读创客户端记者 陈姝 8月7日至14日,第六届星火计划挑战营在深圳成功举办。该计划由腾讯青...
2025世界人形机器人运动会的... 中新网北京8月16日电(记者 吴涛)当10台机器人同时急停转向、当万人观众同时刷起视频直播,随着机器...
金固股份与鹿明机器人达成战略合... 8月15日,记者从浙江金固股份有限公司获悉,公司与鹿明机器人科技(深圳)有限公司于近日共同签署了战略...
“机器人妈妈” 明年上市?智商... (文/陈济深 编辑/张广凯) 近期,某自媒体发布了其和新加坡南洋理工博士张其峰的访谈视频,张其峰表...
体验软着陆 鸿蒙生态为什么要&... 【环球网科技综合报道】7月30日,华为常务董事、终端BG董事长余承东对外宣布,历经6年时间,鸿蒙5终...
海尔生物获得发明专利授权:“开... 证券之星消息,根据天眼查APP数据显示海尔生物(688139)新获得一项发明专利授权,专利名为“开盖...
“移动超级电视”产品正式发布 ... 8月15日,“移动爱家・智享生活——2025贵州移动超级电视・超级 AI 家发布会” 在贵阳举行。此...
古田菌种科技园运营成效显著 科... 自6月19日正式启动运营以来,古田菌种科技园凭借先进设施与创新机制,已在短短两个月内展现出强劲的产业...
抖音在上海成立方舟引擎科技公司 每经AI快讯,天眼查工商信息显示,近日,上海方舟引擎科技有限公司成立,法定代表人为王峥,注册资本10...