a16z发布一个新的独立投资主题:语音AI
创始人
2024-06-02 10:01:41
0

“首席投资官”旗下新媒体平台,原“中国私募股权投资”

每日分享PE/VC行业最权威新闻资讯

来源:投资实习所

(ID:startupboy)

摄影:Bob君

语音AI,2B和2C的机会在哪里?

AI 在语音(声音)这块的进步,有 3 个产品给了我非常深刻的印象(Wow moment),第一个是ElevenLabs,让我第一次感觉到不再是机器人的感觉,也因此一直喜欢这个产品到现在。

第二个是Hume AI,我之前称它为对话式 AI 的天花板,让我感受到了 AI 在情感和情绪方面的表达,也是体验过后就一直喜欢到现在,包括它们最近推出的实时交互式 AI 播客

第三个就是GPT-4o,也包括 Google 的 Project Astra,它们让更自然的人机交互体验又往前走了一步。我觉得基于语音来构建新型交互式产品的底层技术已经越来越成熟了,未来这块应该有很大机会。

事实上,a16z 在今年年初的 2024 Big ideas 播客里也探讨了 Voice-First Apps 的机会。a16z 认为,自通信诞生之日起,语音就是人类相互沟通的方式,但语音从未真正作为技术的接口。而从今年开始,语音正在成为一种新的与技术互动的方式,并成为新生产力应用的核心。

新的投资主题:AI Voice Agents

近日,a16z Apps 基金 GP Anish Acharya 和 AI 领域合伙人 Olivia Moore 发布了一个新的投资主题:AI Voice Agents,也就是基于语音构建的 AI Agents,并发布了这个领域的行业图谱,探讨了在 2B 和 2C 领域的机会。这里做一下分享。

a16z 认为,现在是重新发明电话的时候了。多亏了通用人工智能,再也不需要人类打电话了。人类只会在电话对他们有价值时才会花时间打电话。

对于 B 端企业来说,这可能意味着:

  1. 节省人工呼叫的时间和劳动成本;
  2. 有潜力将资源重新配置到增加收入;
  3. 通过更合规和一致的客户体验降低风险。

对于 C 端消费者来说,语音 Agents 可以提供人类级别的服务,而无需付费或“匹配”真人。目前,这包括心理治疗师、教练和陪伴者,将来很可能会涵盖围绕语音构建的更广泛的体验。像大多数其他消费类软件一样,“赢家”将是难以预测的。

电话是通往世界的 API,而人工智能将其提升到了一个新的水平。而基于语音构建 AI Agents 在各个层面都有机会,但都需要满足下面 3 个假设:

1.为大规模扩展而设计。延迟和对话体验目前尚未得到解决,因此速度、精准度、语调/情感非常重要;

2.聚焦于垂直领域。这意味着高性能 Agent 应该是垂直化的,它依赖于针对特定应用场景的独特调整模型和紧密的集成,这更容易构建并成功推向市场/增长。3.范围现实可行(Realistic in scope)。这是一个很大的要求,完全将重要电话委托给 AI,我们期望语音 Agent 公司在短期内“做那些不能规模化的事情”(Do things that don’t scale)。这可能涉及根据客户进行调整,或者将电话转接给人类进行最后的处理。

【注:Realistic in scope 指一个计划、项目或目标的范围是现实可行的,既不过于宏大,也不过于狭隘,能够在给定的时间、资源和条件下实现】

技术堆栈:如何构建基于语音的 Agent

像 GPT-4o 这样的新型多模态模型可能会通过一个模型同时“运行”其中多个层来改变堆栈的结构。这可能会减少延迟和成本,并为更自然的对话界面提供支持——因为许多 Agents无法通过下面的组合堆栈达到真正的类似人类的质量。

若要运行,语音 Agent 需要引入人类语音 (ASR),使用 LLM 处理输入并返回输出,然后与人类 (TTS) 对话。

对于某些公司/方法,用 LLM 或一系列 LLMs 来处理对话流程和情感。在其他情况下,可能会有独特的引擎来添加情感、管理中断等,“全栈”语音提供商在一个地方提供这一切。

2C 和 2B 应用位于这个堆栈之上。即使使用第三方提供商,应用程序(通常)也会插入自定义 LLM——它通常也用作对话引擎。

全栈与自行组装(Full Stack vs. Self-Assembled)

语音 Agent 创始人可以选择在全栈平台(比方说Retell、Vapi、Bland)上启动 agent 或自己组装堆栈。在做出此决定时,有几个关键因素要考虑:

1.复杂性。全栈供应商提供了一种更简单的方法来启动语音 Agent,它们抽象化了基础设施方面的复杂性,同时仍然允许自定义和调整,包括添加提示或知识文档 (RAG) 到插入 LLM。

2.灵活性。为特定垂直领域和应用场景构建的创始人可能希望在堆栈的每个级别如何操作/运行方面具有最大的灵活性,并尽可能降低延迟。在自组装堆栈时,这可能更容易做到。

3.成本。全栈提供商可能会引入额外的每次通话成本,因为他们也需要赚钱。但是,他们也可以为那些数量较大的客户协商更好的价格。对于大规模的语音 Agent,每分钟几美分的差异可能很大。

4.控制。当出现问题时,语音 Agent 创始人需要能够立即跟踪和解决问题,尤其是对于一些敏感应用场景。他们可能还需要最大限度地了解每一层的运行方式。使用自行组装堆栈可能更容易做到这一点。

下面这个行业图谱是现在每个堆栈里的一些玩家,它还不太全面,但已经代表了语音 Agent 创始人最常提到的产品。随着多模态模型的出现,这些堆栈将发生重大变化。

2B 领域的 Agents

我们正在从 1.0 的 AI 语音(Phone tree)过渡到 2.0 的 AI 语音浪潮(基于 LLM)。在过去 6 个月左右的时间里,已经出现了 2.0 时代的公司。1.0 时代的公司目前在准确性方面有优势,但从长远来看,基于 2.0 构建的应该更具可扩展性和准确性。

不太可能存在一种横向模型或平台能够适用于所有类型的企业语音 Agent。各垂直领域之间存在一些关键差异:

(1) 呼叫类型、语气和结构;

(2) 集成和流程;

(3) 市场进入策略和“杀手级功能”。

这可能意味着垂直 Agent 的激增,这些 Agent 在用户界面方面有很强的主观性。这需要具有深厚的行业专业知识或兴趣的创始团队。对于许多企业来说,劳动力是头号成本中心 —— 对于那些“做对了”的公司来说,TAM 是巨大的。

最近期的机会可能存在于那些电话预约至关重要、劳动力短缺严重、且呼叫复杂度低的行业。随着 Agent 变得更加复杂,它们将能够处理更加复杂的呼叫。

2B 领域 Agent 的 3 个演变浪潮

1.IVR(交互式语音应答),这是一种传统的按键式模型,Agent 给予消费者一组选项(按1转接至销售部,按2转接至客户支持),然后消费者根据需求进行选择。2.AI 1.0(电话树),这是 IVR 的一个稍微更灵活和直观的版本,其中消费者使用自然语言进行交流,而 Agent 则试图通过一系列对话流程引导他们。3.AI 2.0(LLMs),这是一种自由形式的对话,人工智能不会试图将人类说的每个单词与特定的预定义选项相匹配。

许多语音 Agent 公司正在针对特定行业(例如汽车服务)或特定类型的任务(例如约会安排)采用垂直特定的方法。这主要有几个原因:

  1. 执行难度。将电话委托给 AI 需要高质量的执行水平,对话流程(以及客户端的后端工作流程)可能会迅速变得复杂/具体。针对这些垂直领域中的“边缘案例”构建的公司有更好的成功机会,比方说,通用模型会误解的独特词汇。
  2. 法规和许可证。一些语音 Agent 公司面临着特殊的限制和需要的认证等。一个典型的例子是医疗保健(例如,HIPAA 合规性),尽管这种情况也出现在销售等领域,这些领域在国家层面上有 AI 陌生(cold)电话法规。
  3. 集成。在某些类别中,实现用户体验的成功(无论是对于企业还是消费者)可能需要一系列的集成,或者是专门的集成,除非你试图服务于特定的使用案例,否则不值得去构建。
  4. 进入其他软件。语音是进入核心客户行为(如预订、续订、报价等)的自然方式。在某些情况下,这将成为为这些企业构建更广泛的垂直 SaaS 平台的一个入口,尤其是如果客户群体仍然主要是线下运营的。 2B Agents 的机会在哪

1.基于 LLM,但不一定要从一开始就是 100% 自动化。AI 语音 Agent 的“强形式”将是完全由 LLM 驱动的对话,而不是交互式语音应答(IVR)或电话树方法。

然而,由于 LLM 在整个过程中并非百分之百可靠,因此在更敏感/更大的交易中可能会有一些(暂时的)“人工参与”。这也使得垂直特定的工作流程尤其重要,因为它们可以在尽可能减少人为干预的同时,最大程度地提高成功的概率,减少边缘案例。

2.调整自定义模型与提示 LLM 方法。2B 语音 Agent 将需要应对专业化(或垂直特定)的对话,而通用 LLM 可能不够用。

许多公司正在调整每个客户的模型(使用几百或几千个数据点),并可能将其推广到公司范围的基本模型。对于企业客户端,自定义调整甚至可以继续进行。注意:一些公司可能会为其特定用例调整一个“通用”模型(用于跨客户使用),然后基于每个客户进行提示。

3.具有专业知识的技术团队。考虑到语音 Agent 的复杂性,一些先前的背景知识将有助于(如果不是必要的话)启动和扩展高质量的 B2B 语音 Agent。然而,了解如何将产品打包并嵌入垂直领域可能同样重要,这需要所在领域的专业知识或浓厚的兴趣。你不需要拥有人工智能博士学位来构建和推出企业语音 Agent。

4.对于集成和生态系统的清晰观点。与上文类似,每个垂直行业的买家都有一些特定的功能或集成,他们通常希望在购买之前看到这些功能或集成。事实上,这可能是在他们的评估中将产品从“有用”提升到“神奇”的核心点。这也是为什么从非常垂直领域开始有意义的另一个原因。

5.要么是“企业级”的,要么是 PLG 的。对于收入主要集中在头部公司/供应商的行业,语音 Agent 公司可能从企业开始,最终通过自助服务产品逐步下沉到中小企业。中小企业客户迫切需要解决方案,并愿意尝试各种选择,但可能无法提供让初创公司将模型调整到企业级别所需的数据规模/质量。

2C Agent

在 2B 领域,语音 Agent 主要取代现有的电话呼叫来完成特定任务。对于 C 端 Agent,用户必须选择继续参与,这是具有挑战性的,因为语音并不总是方便交互,这意味着产品门槛更高。

2C 语音 Agent 的第一个和最明显的应用场景,是将昂贵或难以获得的人工服务替换为 AI。这包括心理治疗、辅导、家教等,任何可以在虚拟环境中完成的基于对话的任务。【注:我之前介绍的AI 伴侣AI Tutor基本上都属于这类】

然而我们相信,在 2C 语音 Agent 中真正的魔力可能还没有出现,我们正在寻找利用语音的力量来实现以前不存在的新型“对话”的产品。这可能重新定义现有服务的形式,或者创造全新的服务。

对于掌握了用户体验的产品,语音 Agent 提供了一个前所未有的机会,让消费者的参与程度达到前所未有的水平,即真正模仿人与人之间的联系。这可能表现为 Agent 即产品,或语音作为更广泛产品的一种模式。

2C Agent 的演化

到目前为止,主要的 C 端 AI 语音 Agent 都来自大公司,比如 ChatGPT Voice 和 Inflection 的 Pi。这块出现较慢的原因有几个:

  • 大公司拥有分发渠道和最优质的模型,准确度、延迟等方面都是一流的。语音在大规模交付上并不容易,尤其是考虑到最近推出的 GPT-4o。
  • 2B 语音 Agent 是将 AI“接入”到现有流程中,而 2C 语音 Agent 则要改变用户的行为。这可能会更慢/需要一个更有魔力的产品。
  • 由于使用 Siri 等产品的经历,消费者对语音 AI 产生了负面反应,因此不一定会尝试新应用。
  • 通用产品通常能够实现语音 AI 的一些基本使用场景,比方说辅导和陪伴等。2C 语音初创公司才刚刚开始解决 ChatGPT、Pi 等不会处理的使用场景或者创造体验。

2C Agent 的机会在哪

1.对于为什么需要语音具有强烈的信念,我们对那些对语音如何为产品带来独特价值有独到见解的产品和创始人感到兴奋,而不仅仅是"为了语音而语音"。在许多情况下,与文本界面相比,语音界面实际上更冷淡,因为它更不方便消费和提取信息。

2.对于为什么需要实时语音具有强烈的信念,虽然语音不方便消费,但实时语音更加困难(与异步语音消息相比)。我们对那些对为什么他们的产品需要围绕实时对话构建有独特见解的创始人感到兴奋,也许是为了类似人类的陪伴、练习环境等。

3.不同于 AI 之前的产品,我们怀疑强形式的产品不会是以前人与人对话的直接翻译,其中 AI 语音 Agent 只是简单地取代了人工服务提供者。首先,达到那个标准很困难,但更重要的是,利用 AI 可以更好地提供相同的价值(更高效、更愉悦)。

4.垂直到通用大模型无法胜出的程度,领先的通用 AI 产品(如 ChatGPT、Pi、Claude)具有高质量的语音模式。它们可以有意义地参与许多类型的对话和互动。在短期内,它们可能会在延迟和对话流畅度方面胜出,因为它们拥有自己的模型和技术堆栈。

我们希望看到初创公司无论是通过为特定类型的对话定制或调整,还是通过构建提供更多上下文和价值的 UI 来实现都感到兴奋,比方说随着时间的推移跟踪进度,或以独特的方式引导对话/体验。

操作,版主是按照手机号码的开头数字模式排版的,有你的手机号码前三位吗?非常有趣哦(~0~)

【189】《想做金融?干投行?豆瓣高评分的13本金融书籍,你读了吗?》

【188】《徐小平:若只剩1美元做marketing 我会花在PR上》

【187】《专业LP评价GP公司的18个能力层级》

【186】《让VC们血本无归,朱元璋是个极其失败的CEO》

【185】《如何与混金融圈的人做朋友:如果有投行的 请介绍给表妹》

【158】《是中国VC和创业者太笨吗,为什么硅谷和纽约的VC创业者不怎么需要FA?》

【156】《某女VC暴强经历:被骗2.3亿一声没吭默默承受,最后平和的赚回来20亿》

【155】《中国GP最喜欢“机构型LP”:富有个人遭嫌弃,母基金称王》

【153】《王岑:消费投资不是研究出来的,要大胆的去泡吧或唱K消费》

【152】《50后阎焱、60后沈南鹏、70后张磊…15位顶级投资人背后的学历大揭秘》

【139】《多彩人生!26岁中国前投行女孩,走56国,最爱印度,朝鲜》

【137】《投行系统的三类人:闲杂人等、逗逼们、螺丝钉》

【136】《用泡妞术解读私募、并购、上市、风投、天使》

【133】《沈南鹏:如果投资人只有3%的意愿投你,也要用100%的努力去说服对方》

关于我们

关键词:PE、VC、GP、LP、天使投资、投行

行业覆盖:互联网、TMT、文化娱乐传媒

健康医疗、节能环保、消费连锁

休闲、教育、物流、农业…

PE星球

长摁二维码关注我的视频号

合作、投稿

请加微信/QQ邮箱:2050009482

WeMedia自媒体联盟签约成员

今日头条、新浪财经头条

一点资讯、网易号、百家号、搜狐号

通过以上平台搜索“豆虫财经”同步收听

更多精彩内容,尽在“首席投资官”官网

▼ 点击“阅读原文”,登陆官网:http://nicepe.com

相关内容

热门资讯

克莱特获得发明专利授权:“带有... 证券之星消息,根据天眼查APP数据显示克莱特(831689)新获得一项发明专利授权,专利名为“带有掠...
安徽:未来产业已来 青年“加速... 柔性玻璃被弯折百万次而不损坏、输入文字后大模型即可生成图像、在手机中装入“量子SIM卡”即可进行量子...
森麒麟获得实用新型专利授权:“... 证券之星消息,根据天眼查APP数据显示森麒麟(002984)新获得一项实用新型专利授权,专利名为“一...
长广溪智造携手理想汽车,发布全... 在近期理想i8全球发布会上,长广溪智造与理想汽车携手推出的全球首款一对多滑轨式充电机器人,成为全场焦...
天玑9500 GPU被曝提升4... 2025-08-04 17:09:09 作者:狼叫兽 业内消息显示,今年的旗舰手机发布时间线被提前...
从相关案例看我国发展新型工业网... 通信世界网消息(CWW)工业网络作为各类工业应用和设备间的信息通道,通过构建工业现场“人、机、物”全...
浙江纽创取得具有自适应限位纸张... 金融界2025年8月4日消息,国家知识产权局信息显示,浙江纽创科技股份有限公司取得一项名为“一种具有...
成本降低9成!孝感“高科技”上... 在湖北省孝感市高新区 长江3D科学计算中心 凭借自主可控的百倍级超强算力 正在颠覆传统药物研发范式 ...
苏州创鑫激光取得一种激光喷嘴专... 金融界2025年8月4日消息,国家知识产权局信息显示,苏州创鑫激光科技有限公司取得一项名为“一种激光...
【蒹葭之恋】李念峰:奋进的成新... “我们汇聚美丽的鄱阳湖畔,蓝色的波涛荡漾着理想……”2017年7月,当我从赣州带领抗洪支援突击队员,...
聚焦AI时代企业管理创新 泉州... 中新网福建新闻8月4日电 一场以“AI+管理成就不凡”为主题的业财管理交流活动日前在泉州举办,来自各...
上市后的影石创新内忧外患 文|江湖老刘 近日,影石创新(Insta360)计划发布全球首款“全景无人机”引发业内关注。根据“...
从“智能硬件”到“泛健康生态”... 本报讯 (记者刘晓一)8月1日晚间,深圳市倍轻松科技股份有限公司(以下简称“倍轻松”)发布公告,将“...
荣县瑞鸿陶业取得用于吨罐生产的... 金融界2025年8月2日消息,国家知识产权局信息显示,荣县瑞鸿陶业有限公司取得一项名为“一种用于吨罐...
OVH公司申请智能冷却管理控制... 金融界2025年8月4日消息,国家知识产权局信息显示,OVH公司申请一项名为“智能冷却管理控制器”的...
移动手机卡大流量永久套餐真的划... 办卡关注微信公众号:【可可找卡】——该公众号每日更新性价比突出的运营商官方套餐,致力于为您提供最合适...
厨壹堂取得一种灯板、机头组件及... 金融界2025年8月2日消息,国家知识产权局信息显示,浙江厨壹堂厨房电器股份有限公司取得一项名为“一...
2025 年 10 款热门小米... "现在远程办公、在线学习越来越普遍,大家处理语音内容的需求越来越大。以前只要能把录音转成文字就行,现...
聚焦高质量发展丨“氢”启未来 ... 新华网西安8月4日电(史梦)能源是工业的粮食、国民经济的命脉。而氢能则被誉为“21世纪的终极能源”,...
中国成功发射卫星互联网低轨卫星 8月4日18时21分,中国在海南商业航天发射场使用长征十二号运载火箭,成功将卫星互联网低轨07组卫星...