谷歌推出多模态 VLOGGER AI：让静态肖像图动起来“说话”_资讯

创始人

2024-03-19 11:22:05

0次

IT之家 3 月 19 日消息，谷歌近日在 GitHub 页面发布博文，介绍了 VLOGGER AI 模型，用户只需要输入一张肖像照片和一段音频内容，该模型可以让这些人物“动起来”，富有面部表情地朗读音频内容。

VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型，使用 MENTOR 数据库进行训练，该数据库中包含超过 80 万名人物肖像，以及累计超过 2200 小时的影片，从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。

研究人员表示：“和此前的多模态相比，VLOGGER 的优势在于不需要对每个人进行训练，不依赖于人脸检测和裁剪，可以生成完整的图像（而不仅仅是人脸或嘴唇），并且考虑了广泛的场景（例如可见躯干或不同的主体身份），这些对于正确合成交流的人类至关重要”。

Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步，之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。

VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等，也可剪辑既有的影片，如果对影片中的表情不满意就能加以调整。

IT之家附上论文参考

原创帮... 最近科技圈最热闹的事儿，莫过于苹果突然杀进好莱坞拍电影了。本周末苹果推出自制大片《F1：狂飙飞车》，...

南方电网：2060年火电装机降... 【南方电网总工：储能是新型电力系统压舱石，发展好坏影响成败】近期，南方电网总工程师汪际峰在第13届储...

上海通领取得卡扣夹紧装置专利，... 金融界2025年6月28日消息，国家知识产权局信息显示，上海通领汽车科技股份有限公司取得一项名为“卡...

原创比... 阅读此文之前，请您点击一下“关注”，既方便您讨论和分享，又能给您带来不一样的参与感，感谢您的支持 ...

香港“维园庆回归”活动开幕 “... 中新社香港6月29日电 (记者戴梦岚)由香港各界庆典委员会主办的“维园庆回归”活动29日在香港维多...

一等奖！恭喜驻区企业近日，天津市科学技术奖励大会召开。中铁十五局集团第五工程有限公司牵头研发的《高能软岩特长隧道新建利旧...

“创新力”变“生产力” （上接1版）量子前沿技术走出实验室 6月16日，安徽省量子信息工程技术研究中心发布消息，我国首款面...

脑机接口，最新成果曝光据外媒报道，近期，马斯克旗下脑机接口公司Neuralink展示了他们最新的研究成果及产品发展方向。 ...

全球市占率超一半这家潮州粤企... 南方财经记者吴佳楠潮州报道 “企业现在多款产品产销量均居全球前列，包括光通信用陶瓷插芯在全球市场...

PPE个人防护用品培训ppt免... 一、培训目的本次培训旨在让员工充分认识个人防护用品（PPE）的重要性，掌握 PPE 的正确选择、使...

浙江沃工机械取得瓷砖表面抛磨加... 金融界2025年6月28日消息，国家知识产权局信息显示，浙江沃工机械有限公司取得一项名为“一种瓷砖表...

同济教授获计算机视觉“学术奥林... 日前，在美国召开的2025年IEEE国际计算机视觉与模式识别会议（Conference on Com...

南通成立人工智能产业创新联盟，... 6月28日下午，由南通市人民政府与中国移动江苏公司共同主办的南通人工智能产业创新联盟成立暨产业创新发...

业界热议钒钛产业发展：加大资源... 人民网北京6月28日电 (记者杜燕飞)在日前举行的2025钒钛资源创新开发暨钒钛钢高质量发展大会上，...

“情绪价值”拉满，瑞金医院发布... 转自：中国科学报情绪X光机、TI神经调控技术、沉浸式VR治疗系统……6 月27 日，上海交通大学医...

AI防诈，鸿蒙筑底：华为Pur... 在数字化浪潮席卷全球的当下，个人信息泄露与电信诈骗已成为困扰社会的顽疾。而在生成式AI技术被滥用的当...

哪里有租手机的在现代社会，手机已经成为人们日常生活中不可或缺的工具。从通讯、娱乐到工作，手机的作用无可替代。然而，...

中国广电5G应急通信技术系列试... 本报讯（记者李乔宇）近日，中国广播电视网络集团有限公司（以下简称“中国广电”）组织中广电移动网络有...

《新媒体传播研究》创刊号发行仪... 央广网太原6月29日消息（记者张洁）盛夏时节，学术新声绽放龙城。28日，《新媒体传播研究》创刊发布会...

从大国重器到非标零件制造业插... 经济动脉，畅通为要。信息互联，是供应链“提质升级”的关键引擎。目前，我国已建成全球技术领先、规模最大...