AI语音识别技术前沿:最新开源模型案例分享

图片来源于网络

最近整理了新接触的几个关于AI语音识别的方案。几个发展趋势值得大家关注,一是深度学习技术的广泛应用,提升识别准确性,二是对端到端系统简化,提升低延迟及高效率,而多语言和方言支持及应用将会逐渐成为标配。

1.Moonshine:

https://github.com/usefulsensors/moonshine

颠覆性实时语音识别,低延迟高准确,在10秒音频剪辑上,速度比Whisper快5倍,同时能保持与Whisper相同的准确性,可以说完胜!

支持可变长度的输入,它可以根据实际语音内容动态调整处理的数据量,不是像Whisper那样固定处理30秒的音频块,处理短音频速度显著提升。

同时在多个标准数据集上,Moonshine 展现出比Whisper模型更低的词错误率。

这种效率性非常适合在资源受限的设备上进行实时语音识别任务。

2. MaskGCT

国产最强语音大模型MaskGCT最近宣布开源,声音效果媲美人类,它不需要文本和语音之间的显式对齐信息,也不需要音素级别的持续时间预测,采用了掩码和预测的学习方式,在声音克隆、跨语种合成、语音控制等方面表现优秀

图片来源于网络

1、支持控制生成语音的总长度,可调节语速、停顿等韵律特征、支持情感控制和语气调整,比如开心的、悲伤的、生气的、平静的等情绪,完全克隆人类。

2、支持零样本语音合成,可以修改已生成的语音,支持声音转换和克隆

github:

https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct…

项目:https://maskgct.github.io

3.基于 AI 的语音输入工具 Whispo

https://github.com/egoist/whispo

深度学习驱动下的超智能语音处理神器,Whisper是 OpenAI 的一项语音处理项目,旨在实现语音的识别、翻译和生成任务。作为基于深度学习的语音识别模型,Whisper 具有高度的智能化和准确性,能够有效地转换语音输入为文本,并在多种语言之间进行翻译。按Ctrl键就可以开始录音,松开即可将语音转文字 转录内容可以自动插入到任何支持文本输入的应用中,数据存于本地

4.VAD (Voice Activity Detection) from ricky0123/vad-react

一个基于JavaScript的开源项目,旨在提供一个准确、用户友好的声音活动检测器(VAD),可在浏览器中运行。该项目通过使用VAD技术,能够实时检测音频流中的语音信号,从而进行后续的语音处理或资源释放。

安装项目‌:通过npm安装vad-react包,具体命令如下:

‌运行示例‌:克隆项目并运行示例脚本,命令如下:

高赞科技基于AI语音识别技术的智能识音工牌产品,已为运营商,银行,车企,生活服务等行业提供:多形态识音硬件+行业垂类模型+营销数字化解决方案。如您想进一步了解,可以拨打咨询电话400-6138198,或者扫描/识别下方二维码添加业务专家微信,与我们联系。

添加业务专家了解更多

咨询电话|400-6138198