前言
当下,各类AI机器人火爆异常。其中,“小智AI聊天机器人”凭借特色语音功能,在业内广受赞誉。
尽管已有人把相关设备接入Home Assistant进行操控,可我关注的重点,是其背后的语音转文本技术。
在Home Assistant生态里,免费、易用且支持中文识别的语音转文本服务少之又少。
巧的是,我近期在逛小智开源项目时,发现了一项语音转文本技术。
令人惊喜的是,我在GitHub上发现有人提供了针对HassOS的开箱即用的解决方案 。
两种方案
在中文语音识别领域,就我目前所知,有两个项目尤为适配中文语音识别任务。
其一,是阿里巴巴开源的FunASR;其二,则是我们今日即将介绍的Sherpa-onnx
项目地址
-
•https://github.com/modelscope/FunASR -
•https://github.com/k2-fsa/sherpa-onnx
关联Home Assistant
在国内,热衷于Home Assistant且愿意开发相关功能的人员数量较少。
因而当我最初知悉FunASR的功能时,在开源社区中并没有找到将其与Home Assistant相关联的解决方案。
然而,经过一段时间后,我惊喜地发现,确实有HA玩家开发者成功将这一实用功能接入到Home Assistant中。
独立部署
该方案采用独立部署模式,其显著优势在于,即便使用Home Assistant的Core版本也能够正常运用。
用户只需完成服务部署,再安装相应插件即可使用。
虽说这对于HassOS用户而言,操作过程可能稍显不便,但总体而言,不失为一个相当出色的解决方案。
深度集成
鉴于当前我所使用的系统是HassOS,因此我更青睐于通过“加载项”的方式来进行安装。
如此一来,便能如同使用国外开源的语音识别加载项那样,在直接安装之后无需进行任何配置,即刻就能投入使用,这种方式既简便又高效。
我之所以推荐Sherpa-onnx,正是出于这方面的考量。因为它真的简单又方便,让我忍不住持续夸赞。
离线语音识别服务
在安装这个加载项之前,首先要确保我们的网络能够正常连接到相关服务。
由于这个镜像的体积较大,因此可能会花费较长时间来完成拉取操作。
添加存储库
https://github.com/ptbsare/home-assistant-addons
一般而言,我们可以在加载项商店右上角菜单里的“仓库”选项中,添加该项目的地址,完成添加后,便能在商店内对其进行安装与启动操作。
当然,除了这种方式之外,我们还可以借助项目文档中的添加按钮,依照相应指引步骤来进行安装。

安装
这个项目的操作使用十分简便,我认为唯一可能存在难度的环节,大概就是把镜像拉取到本地了。
在点击安装按钮后,想必会有不少朋友频繁遭遇超时失败的情况。
倘若大家碰到了这类问题,不妨像我一样,进入HassOS的内部终端,手动输入并执行拉取命令。
如此一来,不仅能够实时查看拉取进度,还能有效避免因经常超时带来的困扰。

启动
由于这是一项离线服务,因而只要我们成功地将镜像完整拉取至本地,启动操作便会变得轻而易举。
在启动该服务后,无需进行任何额外配置,即可在Home Assistant的集成页面中自动发现与之相关的配置项。
这是因为它完美适配了Home Assistant内部的语音转换协议,真正实现了开箱即用的便捷体验。
使用
当点击添加按钮后,在集成界面中会呈现出两个实体。
其中一个是STT语音转文本服务,另一个则是TTS文本转语音服务,这两项服务均属于离线模式。
随后,我们便可在Home Assistant的语音助手界面里,将这两个实体服务进行关联操作。
最后
当所有准备工作都妥善完成后,我们便能在HTTPS的安全环境下,借助麦克风来开启对Home Assistant的语音控制。
当然,除了这种方式外,我们还能通过Home Assistant的APP实现对语音功能的操控。
值得一提的是,这所有的语音控制操作都是完全免费的,并且在使用次数上没有任何限制,能够充分满足我们的使用需求。