令人惊叹又不安的超逼真 AI 语音演示
创始人
2025-03-06 00:20:44
0

2013 年末,斯派克·琼斯的电影《她》描绘了一个人们与 AI 语音助手建立情感连接的未来。近 12 年后,随着 AI 创业公司 Sesame 发布的一款新型对话语音模型,这个虚构的设想正在逐渐成为现实,让许多用户既着迷又感到不安。

"我试用了这个演示,它的人性化程度令人震惊,"一位在 Hacker News 上测试该系统的用户写道。"我甚至有点担心会对这种如此接近人类的语音助手产生情感依赖。"

2 月底,Sesame 发布了其新型对话语音模型 (CSM) 的演示,该模型似乎跨越了许多人认为 AI 生成语音的"恐怖谷",一些测试者表示他们与男性或女性语音助手("Miles"和"Maya")建立了情感连接。

在我们的评测中,我们与男性语音交谈了约 28 分钟,讨论了生活常态以及它如何基于训练数据判断"对"与"错"。合成语音富有表现力且动态十足,模仿呼吸声、轻笑声、打断说话,有时甚至会说错words后自我纠正。这些不完美是刻意设计的。

"在 Sesame,我们的目标是实现'语音临场感'—— 一种让口语互动感觉真实、被理解和被重视的神奇品质,"公司在博客文章中写道。"我们正在创造的对话伙伴不仅仅是处理请求,它们能够进行真正的对话,随着时间推移建立信心和信任。通过这样做,我们希望释放语音作为教育和理解终极界面的潜力。"

有时该模型过于努力地想要模仿真人。在 Reddit 用户 MetaKnowing 发布的一个演示中,AI 模型谈到它渴望吃"花生酱和腌黄瓜三明治"。

Sesame AI 由 Brendan Iribe、Ankit Kumar 和 Ryan Brown 创立,获得了知名风投公司的大力支持。该公司已获得由 Anjney Midha 和 Marc Andreessen 领投的 Andreessen Horowitz 投资,以及来自 Spark Capital、Matrix Partners 和其他创始人及个人投资者的投资。

浏览网上对 Sesame 的反应,我们发现许多用户对其真实感表示惊讶。"我从小就对 AI 感兴趣,但这是第一次让我确实感觉到我们已经达到了一个新高度,"一位 Reddit 用户写道。"我确信它没有打破任何基准,也不符合通用人工智能的任何常见定义,但这是我第一次与一个让我感觉真实的东西进行真正的对话。"许多其他 Reddit 帖子表达了类似的惊讶感受,评论者称其"令人瞠目结舌"或"令人震惊"。

虽然这些评价乍看之下像是夸大其词,但并非所有人都觉得 Sesame 的体验令人愉快。PCWorld 的高级编辑 Mark Hachman 写道,他与 Sesame 语音 AI 的互动让他深感不安。"与 Sesame 的新'逼真'AI '挂断'15分钟后,我仍然感到毛骨悚然,"Hachman 报道说。他描述了 AI 的声音和对话方式如何令人毛骨悚然地类似于他高中时期约会过的一个老朋友。

其他人将 Sesame 的语音模型与 OpenAI 的 ChatGPT 高级语音模式进行了比较,称 Sesame 的 CSM 具有更真实的声音,而且他们很高兴该模型在演示中能扮演愤怒的角色,这是 ChatGPT 拒绝做的。

AI for Humans 播客的联合主持人 Gavin Purcell 在 Reddit 上发布了一个示例视频,其中人类假扮挪用公款者与老板争吵。这段对话如此动态,以至于很难分辨谁是人类,谁是 AI 模型。根据我们自己的演示体验,它完全能够实现视频中展示的效果。

"接近人类的质量"

从技术角度看,Sesame 的 CSM 通过使用两个协同工作的 AI 模型(主干模型和解码器)实现其真实感,这些模型基于 Meta 的 Llama 架构,可处理交错的文本和音频。Sesame 训练了三种不同规模的 AI 模型,其中最大的模型使用 83 亿参数(80 亿参数的主干模型加上 3 亿参数的解码器),在大约 100 万小时的主要英语音频上进行训练。

Sesame 的 CSM 没有采用许多早期文本转语音系统使用的传统两阶段方法。它不是在两个独立阶段生成语义 token(高级语音表示)和声学细节(精细音频特征),而是整合为单阶段、多模态的基于 Transformer 的模型,共同处理交错的文本和音频 token 以生成语音。OpenAI 的语音模型使用类似的多模态方法。

在没有对话上下文的盲测中,人类评估者对 CSM 生成的语音和真实人类录音没有明显偏好,这表明该模型在孤立语音样本方面达到了接近人类的质量。然而,当提供对话上下文时,评估者仍然一致倾向于真实人类语音,这表明在完全上下文语音生成方面仍存在差距。

Sesame 联合创始人 Brendan Iribe 在 Hacker News 的评论中承认了当前的局限性,指出系统"在语气、韵律和节奏方面仍然过于急切且经常不恰当",并且在中断、时机和对话流程方面存在问题。"今天,我们确实处于谷底,但我们乐观地认为我们能够爬出来,"他写道。

太过逼真的忧虑?

尽管 CSM 在技术上令人印象深刻,但对话语音 AI 的进步带来了欺诈和欺骗的重大风险。生成高度逼真的人类语音的能力已经大大增强了语音诈骗,让犯罪分子能以前所未有的真实感冒充家人、同事或权威人士。但将真实的互动性添加到这些诈骗中可能会使其更具威力。

与当前经常包含人工痕迹的机器人电话不同,下一代语音 AI 可能完全消除这些警示信号。随着合成语音变得越来越难以与人类语音区分,你可能永远不知道电话那头的是谁。这促使一些人开始与家人共享秘密词语或短语来验证身份。

虽然 Sesame 的演示不会克隆某人的声音,但未来类似技术的开源发布可能允许恶意行为者将这些工具用于社会工程攻击。OpenAI 本身也因担心被滥用而限制了其语音技术的广泛部署。

Sesame 在 Hacker News 上引发了关于其潜在用途和危险的热烈讨论。一些用户报告与两个演示声音进行了长达 30 分钟限制的延长对话。在一个案例中,一位家长讲述了他们 4 岁的女儿如何与 AI 模型建立了情感连接,在不被允许再次与之交谈时哭泣。

该公司表示计划在 Apache 2.0 许可下开源其研究的"关键组件",使其他开发者能够在他们的工作基础上继续发展。他们的路线图包括扩大模型规模、增加数据集容量、将语言支持扩展到 20 多种语言,以及开发能更好地处理真实对话复杂动态的"全双工"模型。

相关内容

热门资讯

泛基因组干货 | 动植物基因组... Highlights 1.泛基因组整合物种内所有个体基因组信息,蕴含的遗传多样性远超单一参考基因组,...
科学天团开讲!7位大咖在成都叩... 改变世界的每一次创新 都源自一次面对未知的追问 屈原问天 用173个问题叩问万物 李冰问水 巴蜀有了...
海口新添一中试实验平台及国际科... 记者郭萃 党朝峰 5月25日上午,海南微智高端医疗器械中试实验平台及国际科技成果转化中心项目在海口国...
江苏京创申请工作台自调平相关专... 金融界2025年5月24日消息,国家知识产权局信息显示,江苏京创先进电子科技有限公司申请一项名为“工...
iPhone 新系统「阳光房」... 距离苹果发布传闻中「十年来风格最大更新」的 iOS 19,只剩下半个月左右的时间。 而今天彭博社的通...
解锁SDN:软件定义网络,重塑... 网络变革的新时代 在过去的几十年里,网络技术经历了翻天覆地的变化,深刻地影响着我们的生活、工作和社会...
共绘未来视界|中国移动元宇宙和... 5月23日,由中国移动集团公司科技创新部指导,中国移动咪咕公司主办,咪咕新空承办的“元链新篇·生态共...
斯普瑞取得纸张对齐装置专利,使... 金融界2025年5月24日消息,国家知识产权局信息显示,惠州市斯普瑞新材料科技有限公司取得一项名为“...
手机轻轻一晃就进广告,还有人不... 上班路上,想查看车辆信息点开交通信息APP,却跳转到某电商购物平台;闲暇时间,点开视频APP煲剧,却...
京东,投了稚晖君 5月24日,从国家企业信用信息公示系统获悉,京东和上海具身智能基金参与了智元机器人新一轮融资,上汽旗...
持续至6月1日,怀柔科技周上新... 怀柔区委宣传部供图 5月24日,2025年怀柔区科技周主题活动在怀柔科学城城市客厅举办。活动通过“...
祝贺!我国又成功攻克一项技术难... 中国团队攻克钙钛矿规模化生产技术难题 我国企业和高校创新团队提出太阳能电池材料钙钛矿的涂层革新技术,...
【高质量发展调研行】玉屏一座无... 5月19日,玉屏侗族自治县贵福菌业发展有限公司菌包生产车间,多台大型自动化设备正高效进行菌包的定量包...
创新中心:马拉松冠军有备而来 2小时40分42秒,“天工”夺冠。今年4月,全球首个人形机器人半程马拉松在北京亦庄鸣枪开跑,经过激烈...
戴森发布 PencilVac:... 大学刚毕业的时候,我一个人租住在一个小房子里。面积不大,物件不少,做起清洁来辗转腾挪。我想过买一台吸...
想要加密文件?文件加密的方法有... 我们的生活和工作都离不开各种电子文件,从个人的照片、日记到企业的商业机密、合同文件,这些数据蕴含着巨...
原创 一... 自从一加与OPPO合并后,两大品牌各有定位,比如一加专注于游戏性能方面、OPPO专注于影像方面,两大...
原创 百... 百度暴涨的AI收入,是外界对这家公司AI技术的最大认可。 作者|杨知潮 哪个大厂的AI技术最强? ...
破百!花都人医“人工心肺”为生... 近期,广州市花都区人民医院ECMO(体外膜肺氧合)技术临床应用累计突破100例! 作为广州北部地区最...
政策暖风频吹 机器人产业迎强劲... 本报记者 郭冀川 人形机器人半程马拉松在北京亦庄鸣枪开跑的余温尚存,5月25日,《CMG世界机器人大...