过去一段时间我们见证了AI 硬件的加速进化——从智能眼镜到智能体耳机，各大科技公司都在探索AI 与硬件融合的新形态。智能眼镜承载了无感信息获取与记录的愿景，智能耳机则主打智能助手随时在线的概念

然而，在 AI 语音交互领域，还存在一个关键痛点：如何提供价格低廉、稳定、持续在线的 AI 体验？智能眼镜和耳机的 AI 交互仍受限于功耗、计算性能和使用环境等约束，很难提供长时间、独立手机外的深入对话。因此给智能语音聊天盒子留出空间

相比智能耳机、智能眼镜，智能聊天盒子不受续航和硬件形态的限制，可以更稳定地运行本地 TTS（文本转语音）、ASR（语音识别），并结合大模型进行深度 AI 交互。它不仅可以充当私人 AI 助理，还能拓展到家庭、办公场景，成为你的“AI 桌面伴侣”

那么，这类智能聊天盒子是如何制作的？我将从硬件选型和软件核心体验两方面来展开解析

硬件

去年 OpenAI 发布一个支持 ESP32 的 Realtime API SDK 后彻底带火了乐鑫的 ESP32 的芯片，导致现在语音聊天盒子的方案绝大部分都是用 ESP32-S3 的

ESP32-S3 支持了 Wi-Fi 和 BLE，内置 AI 指令集，且价格低廉，淘宝上卖 39 元，但算力有限，本地难以运行 LLM，需要走云端推理。麦克风和扬声器需要外接，当然也可以根据产品的定位考虑加屏幕，加视觉摄像头了，需要具体看想解决什么问题

但加的越多，交互模态越丰富，对于产品的定位，及用户的预期等都会做出更高的要求，且工程的挑战也会越大，这里需要不断地问，加屏幕是用来解决什么问题？加摄像头是用来解决什么问题？......而且加越多会发现和手机的形态越像，这也是之前分析其它智能硬件时一个逃不开的话题

ESP32-S3面包板方案外接了扬声器、麦克风和显示屏

目前网上有用 ESP32-S3 做的各种硬件形态，外壳很多是 3D 打印的，最新的形态有加上躯体的、有做成儿童陪伴机器的，又或者是做成手表形态的

当然，除了 ESP32-S3 外，也有其他的芯片方案，像 ASR8601C 等都可供选择，有些直接带了 4G 通信，可以打随身陪伴的概念

软件

目前，智能聊天盒子的软件方案主要分为两类：有屏幕版（带触控屏 GUI 的 AI 设备）和无屏幕版（纯语音交互的智能音箱形态）。有屏幕的设备可以提供更丰富的 UI 交互。无屏幕设备则更强调“无感交互”的理念，但在复杂任务处理上存在一定局限

在语音处理方案上，当前主流架构仍采用三段级联方案：

这种方式的优点是技术成熟，模块化设计，便于优化单个环节。现在有些通过自己部署大模型的方案可以把语音链路的延迟缩到非常短，对体验提升帮助很大

这里要特别感谢虾哥对 ESP32-S3 语音对话开源社区的贡献，算是加速推进了一把

虾哥在 Github 上开源的小智 AI 的软件方案

相比之下，实时语音大模型方案（直接从语音输入到语音输出，无需文字中间层）正在成为新趋势。优点是交互更加流畅，减少 ASR、TTS 的损耗，情感表达也更到位；缺点是对算力和模型优化要求高，token 费用贵，且时延也会更高，目前仍处于探索阶段

这个是我年前手搓的简易聊天对话盒子的方案，ASR、TTS、LLM 全部用成熟公司的开放平台接口，跟着开源方案实现的

另外，加屏幕的话需要重新设计一套 GUI ，目前市场上带屏幕方案的 GUI 设计都是不合格的，更多只是用来玩玩。如果是设计一些带卡通或机器人外形的智能设备，屏幕往往还要充当眼镜及情感的表达，又会涉及表情 AIGC、情感引擎等技术，如蔚来汽车的 NOMI

NOMI 的部分表情，可结合摄像头、语音等对表情交互

另外，语音聊天盒子加摄像头的话就增加了视觉模态，可以结合语音去做多模态，比如：“帮我看下这个是什么？”、“翻译下当前的文字”、“朗读下当前的内容”等等，这又会拓展出很多使用场景

可以预见智能聊天盒子后面会结合 Agent ，充分发挥 LLM+ Agent 的能力，有更强的任务执行能力，真正成为“随时待命的 AI 伙伴”，而不仅仅是一个高级语音助手

最后

这一波大模型的高速发展，我们即将迎来智能硬件的寒武纪大爆发，这是一个新时代。如果你对这些感兴趣，有些想法想交流，欢迎后台联系我～

往期内容

AI 硬件产品怎么做？——智能体耳机

AI 硬件产品怎么做？——Meta Ray-ban 智能眼镜

AI 硬件产品怎么做？——AI Pin

AI 硬件产品怎么做？——Rabbit R1