AI 洞察 | CB Insights:语音人工智能最佳应用:用它点一份薯条

快餐店正在成为对话式人工智能(Conversational AI)下一步演变的试验场。我们(CB Insights Research)分析了语音人工智能(Voice AI)市场的快速增长,以及采用过程中的仍然存在和有待克服的障碍。

看起来语音人工智能可能找到了它的最佳应用:用来点一份薯条。

Yum! Brands——拥有塔可钟(Taco Bell)、肯德基(KFC)和比萨饼店(Pizza Hut)的公司,且在全球范围内拥有更大的餐厅网络——最近宣布与英伟达(Nvidia)建立合作伙伴关系,从四月份开始在数百家餐厅推出人工智能(包括人工智能语音订餐)。

类似地,Jersey Mike’s Subs与SoundHound合作,在50家门店进行人工智能语音订餐的试点,而Wendy’s如今则使用谷歌云大语言模型(LLM)来处理英语和西班牙语的订单。

语音人工智能有助于降低高流动性岗位的劳动成本,同时提高订单处理速度和准确性。这也意味着员工可以重新部署到食品准备或客户服务岗位,从而提高客户满意度。

然而,快餐只不过是语音人工智能的冰山一角。

以下是我们将要讨论的内容:

  • 语音人工智能的重要性

  • 市场成熟度

  • 采用面临的挑战

为什么语音人工智能重要?

对于客户互动而言,语音对话比基于文本的渠道提供了更具表现力的沟通方式。

然而,行业仍然停留在电话机器人决策树和无休止等待的炼狱中。62%的中小企业(SMB)客户电话无人接听,而超过70%接通的商业电话仍然会让客户等待,大多数客户在几分钟内就会挂断。

人工智能语音模型的进步可能打破这一循环。语音人工智能模型正逐渐朝着直接处理音频的方向发展——而不是需要将其转换为文本,再用大型语言模型处理,然后再转换回语音——并且正在接近人类对话的节奏(延迟小于300毫秒)。

这一进展刺激了对语音人工智能解决方案的投资热潮,根据CB Insights的融资数据,这些解决方案在2024年获得了21亿美元的融资。到目前为止,2025年的势头依然强劲,各家公司在2025年第一季度筹集了近5亿美元。

ElevenLabs获得的1.8亿美元融资,投资者包括a16z、Salesforce Ventures和红杉资本(Sequoia Capital),这成为今年强劲开局的重要组成部分。ElevenLabs在成立仅三年后就已实现1亿美元的年经常性收入(ARR)。

总体而言,语音人工智能市场仍处于早期阶段,并面临着成长的烦恼。

市场仍然处于初期阶段

大多数语音人工智能市场仍处于商业成熟度的早期阶段,根据CB Insights的商业成熟度衡量标准,85%的企业位于等级1、2或3。超过一半的企业仍在开发或验证其产品,而39%的企业则开始进行商业分销并逐渐获取客户。

这里的大多数初创公司仅在过去三年内成立,下面的图表显示了这一点。2023年是一个突破性的一年,成立公司的数量同比增长了2倍,从35家增加到70家。

这一增长得益于语音人工智能模型的进步——包括OpenAI在2024年底推出的实时API,用于语音到语音的应用,这为各种用例的应用提供了推动力。

另一个表明语音领域火热的信号是:正在构建语音人工智能应用的公司在Y Combinator最近的创业团队中所占比例越来越大。

( CB Insights Research提供客户可以深入了解270家开发语音人工智能能力的公司的数据,重点关注语音生成。)

成长的烦恼

这一增长得益于语音人工智能模型的进步——包括OpenAI在2024年底推出的实时API,用于语音到语音的应用,这为各种用例的应用提供了推动力。

另一个表明语音领域火热的信号是:正在构建语音人工智能应用的公司在Y Combinator最近的创业团队中所占比例越来越大。

尽管前景令人兴奋,但在可靠性和信任方面仍然存在挑战。

语音人工智能代理在复杂对话和不可预测输入方面仍面临困难,这导致大多数企业开始时在低风险场景中部署它们。

理论上,快餐点餐应该是一个自然的应用场景——交互简短且高度可预测。人工智能只需理解有限的词汇,包括菜单项和修饰词。

但即使偶尔发生失误也可能带来较高的声誉风险。例如,麦当劳在2021年开始与IBM合作进行语音人工智能试点,但在2024年因不准确订单的视频在TikTok上走红而终止了该项目。

客户对语音人工智能交互的接受程度在不同地区也有很大差异。正如一位Cognigy客户告诉我们的:

“请注意,我们是在欧洲,这里客户对这些语音机器人并不是很喜欢。这是一个非常敏感的话题。我们需要稍微放慢脚步。聊天机器人通常不是问题,但语音机器人在客户中总是一个非常有争议的话题。”

——一家上市电信公司的创新负责人

与此同时,语音人工智能市场正在出现一个战略分歧:云端处理与边缘处理。

来自科技巨头的云端解决方案提供了先进的功能,但引发了隐私方面的担忧,而基于边缘的平台在数据处理上则在隐私保护方面表现更佳,但功能却更为有限。

一位医疗科技高管强调了这一权衡,他告诉我们,他们选择了Sensory而不是Microsoft或Amazon,尽管失去了更强大的功能:

“我确实希望Sensory能够拥有更多与Microsoft或Amazon的语音识别开发工作流程相匹配的接口和风格。此外,更强大的自然语言处理和识别能力将是有益的。权衡之处在于,Sensory可以在边缘处理的同时保持隐私,而不依赖大型云服务器集群。”

——一家上市医疗技术公司总监

这种分歧将决定哪些参与者在不同领域获胜,边缘解决方案可能在医疗和金融服务等敏感行业占主导地位,而云平台则在消费和零售应用中占优。

文章来源和易米编译自:https://www.cbinsights.com/research/voice-ai-market-opportunities/这项研究文章来自CB Insights通讯的4月1日版。

END

信公众号 | 易米云通

新浪微博 | 易米云通

联系我们 | 400-6025-502

官网 | www.emicnet.com

关于易米云通

易米云通成立于2012年,是人工智能驱动的客户联络中心和企业云通信解决方案提供商,专注于打造专业、安全、合规、可靠的智能语音交互产品技术,通过提供智能高效、人机融合的客户沟通一体化解决方案,帮助企业实现从营销获客、客户服务、到客户运营的客户全生命周期管理的数字化、智能化转型升级,提升客户满意度,改善客户体验,赋能企业降本增效,持续增长。

易米云通是国家高新技术企业、江苏省重点软件企业、南京市培育独角兽企业。公司在南京和北京设有双总部,同时在上海、广州、天津、郑州、西安、武汉等近20个省、市设有分支机构,公司技术创新驱动的智能语音平台承载语音话务量已达每月数亿分钟,智能语音服务已覆盖全国31个省级行政区、300多个城市。

公司成立以来,通过为客户提供智能、高效的客户联络中心和企业云通信解决方案和专业、优质的运营服务,成为众多客户信赖的长期合作伙伴,累计服务付费企业、机构客户上万家,包括全球500强、中国500强大型行业标杆在内的大、中型企业,涉及银行、保险、运营商、互联网、零售连锁,酒店、物流、医疗等行业,同时为政府机构、公用事业单位提供智能语音支撑服务。

往期推荐