《语音识别：原理与应用》第3版出版

2025年4月，《语音识别：原理与应用》第3版出版，在京东、当当等平台均有销售。本书由洪青阳与李琳编著，第1版和第2版先后于2020年6月和2023年2月出版，内容涵盖声学特征提取、隐马尔科夫模型（HMM）、语言模型、加权有限状态转换器（WFST）、端到端语音识别、Kaldi、WeNet等基础原理和开源工具，图文并茂，深入浅出，受到读者的普遍欢迎，被国内多家高校和企业选用，已累计发行超1万册。

随着大模型和新的开源工具发布，本书与时俱进更新内容。相对第2版，第3版原理部分新增Transformer结构、Conformer流识别、语音大模型、Zipformer等内容，特别是卷积下采样、注意力机制、相对位置编码、Transducer等细节，并对原有传统技术介绍做了一些删减合并；应用部分新增Whisper、Paraformer、FunASR和sherpa-onnx等开源模型/工具介绍，均来自项目经验总结，紧扣工业应用，极具指导性和实用性。

第3版包含以下章节：

第1章语音识别概论，介绍人类语音的产生和感知过程，语音识别的关键技术、发展历史等。
第2章语音信号基础，介绍声音的采集和量化过程，以及编码和存储格式。
第3章语音特征提取，介绍语音信号的频域分析、倒谱分析、声学特征提取过程等。
第4章 HMM，介绍双重随机过程，以及HMM的三大问题。
第5章 GMM-HMM，介绍高斯混合模型的定义和重估计公式，并结合例子讲解GMM如何与HMM结合，以及对应的具体参数形式。
第6章基于HMM的语音识别，介绍单音子声学模型和Viterbi解码过程，以及音素的上下文建模，包括双音子和三音子模型。
第7章 DNN-HMM，介绍深度学习在语音识别中的应用，包括CNN、LSTM、TDNN等网络。
第8章语言模型，介绍语言模型的训练过程及其在语音识别中的作用。
第9章 WFST 解码器，介绍动态和静态的解码网络，以及WFST、HCLG等关键技术。
第10章 Kaldi训练实例，首先介绍Kaldi的下载与安装步骤，然后以aishell-1中文数据库为例，介绍如何训练和测试模型。
第11章端到端语音识别，介绍CTC、RNN-T、Attention等端到端语音识别系统。
第12章 Transformer结构，详细介绍Transformer的模型结构，包括卷积下采样、位置编码、自注意力等关键模块。
第13章 Conformer流识别，介绍Conformer的模型细节，包括卷积模块、相对位置编码等，以及基于Conformer的流识别过程。
第14章语音大模型，介绍大语言模型（LLM）、音频离散化、语音文本对齐、流式打断、对话大模型等内容。
第15章 WeNet实践，介绍使用WeNet进行CTC/Attention模型的训练和解码过程。
第16章工业应用实践，介绍如何封装语音识别动态库，如何调用和调优，以及嵌入式移植和端侧部署过程。

本书还配套PPT教学课件，读者可访问获取：http://speech.xmu.edu.cn/course

京东链接：https://u.jd.com/1DiF1QS

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

声界

智能语音技术速报

《语音识别：原理与应用》第3版出版