TTS(Text-to-Speech)是将文本转换为语音的技术。它通过自然语言处理和语音生成算法,将文字输入转化为听起来像真人说话的声音,广泛应用于语音助手、导航系统和无障碍技术中。
ASR(Automatic Speech Recognition)是将语音转换为文字的技术。它通过识别语音信号的特征,结合语言模型,输出对应的文本结果。广泛应用于语音助手、语音输入法和智能设备控制中。
Note. Speech to Text (STT
VC(Voice Conversion)是将一种语音转换为另一种语音的技术,保持内容不变但改变说话者的音色或语音特征。常用于语音伪装、个性化语音生成和语音娱乐等领域。
Note. Speech to Speech (STS
Tacotron 2是一种基于序列到序列模型的TTS算法,首先将输入的文本转换为梅尔频谱图,然后使用WaveNet等神经声码器将频谱图转换为语音波形。它通过引入注意力机制,能够有效捕捉文本与语音之间的对应关系,生成自然流畅的语音。
梅尔频谱图是一种将音频信号转换为频率表示的方式,使用梅尔尺度(模拟人耳感知的频率响应)来表示频率。与常规的线性频谱相比,梅尔频谱图更符合人耳对音高的感知,常用于语音处理、音频分析等领域,帮助提高语音识别和合成的效果。
WaveNet是一种深度神经网络模型,用于生成高质量的语音波形。它通过直接生成原始音频波形,而不是依赖传统的语音合成方法(如梅尔频谱图),能够产生非常自然、细腻的声音。WaveNet 利用了卷积神经网络(CNN)和自回归模型,逐样本地生成音频,广泛应用于语音合成和语音增强。
《WaveNet: A Generative Model for Raw Audio》[1]是由DeepMind提出的一种生成模型,用于直接从原始音频波形生成高质量的语音。它基于深度卷积神经网络(CNN),通过自回归方法逐个生成音频样本,能够捕捉到复杂的音频细节。WaveNet显著提升了语音合成的自然度,超越了传统的语音合成方法,如基于频谱图的模型。
《Tacotron: Towards End-to-End Speech Synthesis》[2][3]提出了一种端到端的语音合成模型,它将文本直接映射到语音特征(如梅尔频谱图)。Tacotron利用循环神经网络(RNN)和注意力机制,学习文本与语音之间的关系,生成高质量的梅尔频谱图,再通过声码器(如WaveNet)合成音频。该模型简化了传统语音合成的复杂流程,并提高了语音的自然度和流畅性。
《Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions》[4]提出了一种结合WaveNet和梅尔频谱图预测的语音合成方法。该模型首先使用Tacotron生成梅尔频谱图,然后将这些频谱图作为条件输入到WaveNet中,直接生成高质量的语音波形。通过这种方式,能够实现端到端的自然语音合成,同时保留WaveNet的高质量语音生成能力。
Note. WaveNet、Tacotron、Tacotron 2分别发布于2016、2017、2018,我甚至还没上大学,目前应该有更新的方法。
Tacotron和Tacotron 2都是端到端的语音合成模型,旨在将文本直接转换为语音。
- Tacotron 使用循环神经网络(RNN)和注意力机制生成梅尔频谱图,并依赖传统的声码器(如Griffin-Lim)生成语音波形。
- Tacotron 2 改进了这一过程,引入了更强大的神经声码器(如WaveNet),直接从梅尔频谱图生成高质量的语音波形,提升了语音合成的自然度和流畅性。
因此,Tacotron 2 相比 Tacotron 在语音质量和生成效果上有所提升。
Griffin-Lim是一种常用的语音重建算法,用于从频谱图恢复音频波形。它通过迭代优化过程,不断更新频谱的相位信息,直到重建出的波形尽可能接近期望的音频信号。Griffin-Lim算法在没有完整相位信息的情况下,能够生成听起来相对自然的音频波形,常用于传统的语音合成和语音增强中。
FastSpeech 2是一种非自回归的语音合成模型,旨在提高语音生成的速度和质量。与传统的自回归模型不同,FastSpeech 2 通过直接预测音频特征(如梅尔频谱图)来避免逐步生成,从而加速合成过程。它还改进了音高、时长和能量等语音特征的建模,生成的语音更加自然流畅,适合实时应用。
自回归模型是一类通过依赖前一步的输出结果来生成当前步骤的模型。在语音合成中,自回归模型通常逐帧生成音频信号,每次生成一个新的数据点时,都会基于前面的数据进行预测。这种模型虽然能生成高质量的结果,但生成过程较慢,因为它需要一步步地进行预测。典型的自回归模型包括WaveNet和Tacotron等。
《FastSpeech: Fast, Robust and Controllable Text to Speech》[5]提出了一种非自回归的语音合成模型,通过去除自回归依赖,实现了快速的语音生成。FastSpeech使用长度调节器对文本与梅尔频谱图的对齐进行建模,显著提高了生成效率和鲁棒性。此外,模型支持对语音特征(如音高、时长)的控制,提供了更高的可控性。相比传统方法,FastSpeech在速度和质量上都有显著提升,适合实时应用场景。
《FastSpeech 2: Fast and High-Quality End-to-End Text to Speech》[6]改进了FastSpeech,通过直接从数据中学习音高、时长和能量等特征,无需外部预测器。该模型保留了非自回归架构的高速生成特点,同时提高了语音的自然度和表达能力。相比FastSpeech,FastSpeech 2在语音质量和稳定性上都有显著提升,更适合高质量语音合成任务。
VITS(Variational Inference Text-to-Speech)是一种端到端的语音合成模型,将文本到语音与声码器融合在一个框架中。它结合了变分自编码器(VAE)和流模型,通过对音频特征和文本对齐进行联合建模,生成高质量的自然语音。VITS具备实时生成能力,且支持情感和风格的灵活控制,广泛应用于高质量TTS任务。
《Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech》[7]提出了一种将条件变分自编码器(CVAE)与对抗学习相结合的TTS模型。通过CVAE对音频特征建模,捕捉语音中的多样性,同时利用对抗学习提高语音生成的自然度和清晰度。该方法实现了端到端的文本到语音合成,生成的语音更加流畅且具有多样性。
-
Wav2Vec 2.0使用自监督学习从原始音频中提取特征,通过少量有标签数据即可实现高性能语音识别。
-
Conformer结合卷积和自注意力机制,既捕获局部声学特征,又建模全局上下文,提升识别准确率。
-
WhisperOpenAI提出的多语言语音识别模型,预训练于大规模数据集,兼具高性能和跨语言泛化能力。
Wav2Vec 2.0是一种自监督语音识别模型,通过在大量未标注的语音数据上预训练,从中学习音频特征。模型采用对比学习方法,将连续语音信号分为特征块并预测其隐藏表示,随后使用少量有标签数据进行微调。Wav2Vec 2.0 显著提高了语音识别性能,特别是在低资源场景中表现优异。
《wav2vec: Unsupervised Pre-training for Speech Recognition》[8]提出了一种自监督学习方法,通过在未标注的语音数据上预训练,从音频中提取有用的特征。模型首先对连续的语音信号进行卷积编码,然后学习预测未来音频帧的隐藏表示。预训练后的模型可以迁移到有监督的语音识别任务中,大幅减少对标注数据的需求,提高低资源场景下的识别性能。
《wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations》[9]提出了一种改进的自监督语音学习框架。模型在未标注语音上预训练,通过对比学习方法从原始音频中提取语音特征。它将连续的音频信号分块后进行编码,随机屏蔽部分输入,预测其隐藏表示。预训练后的模型在少量标注数据下微调即可实现高性能语音识别,在低资源和多语言场景中表现出色。
wav2vec 和 wav2vec 2.0 都是自监督语音表示学习模型,用于从未标注的语音中提取特征。
- 联系:两者都在未标注数据上进行预训练,学习音频的隐藏表示,随后迁移到语音识别任务中。
-改进:wav2vec 2.0 引入了对比学习,采用Transformer代替卷积网络,能够更好地建模全局上下文。同时,wav2vec 2.0 使用了遮盖输入的方法来增强训练效果,相较于wav2vec在性能和应用广度上有显著提升。
Wav2Vec 2.0 的处理流程分为三个主要阶段:
1.特征提取:输入一段语音(如 "Hello" 的音频波形),通过卷积编码器提取低级音频特征。
2.遮盖预测:对部分特征块(如 "e" 和 "o" 对应的部分)进行随机遮盖,然后用Transformer根据上下文预测这些被遮盖部分的隐藏表示。
3.对比学习:将正确的隐藏表示作为正样本,其他随机表示作为负样本,通过对比损失函数优化模型。
最终,经过预训练的模型可以用少量标注数据微调,实现高质量的语音识别。
Conformer是一种结合卷积(Convolution)和自注意力(Self-Attention)的深度学习模型架构,最早用于语音识别任务。它在Transformer的基础上改进,引入了卷积模块来增强局部特征建模能力,同时保持了Transformer捕捉全局依赖的优势。Conformer由多头自注意力模块、卷积模块、前馈网络和残差连接组成,具有更高的建模效率和性能,是语音和序列建模任务中的重要进展。
论文《Conformer: Convolution-augmented Transformer for Speech Recognition》[10]的贡献在于提出了一种将卷积和Transformer结合的模型——Conformer,用于语音识别任务。通过在Transformer的基础上加入卷积模块,Conformer能够有效地增强局部特征建模能力,同时保持Transformer处理长程依赖的优势。该方法在多个语音识别基准数据集上取得了显著的性能提升,证明了卷积和自注意力的结合在语音识别中的有效性。
Whisper是OpenAI发布的一种通用语音识别模型,支持多语言语音转文本、翻译等任务。它基于Transformer架构,经过大规模的多语言和多任务训练,具有强大的鲁棒性和通用性。Whisper可以处理噪声、重叠语言等复杂场景,被广泛用于语音转录和语言理解任务。
论文《Robust Speech Recognition via Large-scale Weak Supervision》[11]的贡献在于提出了一种通过大规模弱监督学习来提高语音识别鲁棒性的方法。该方法利用未标注数据和部分标注数据,采用弱监督策略来增强模型的泛化能力,尤其在面对噪声和口音变化时表现出更强的鲁棒性。通过引入多种弱监督信号,论文展示了在缺乏大量精确标注数据的情况下,如何有效提升语音识别系统的性能。
目前,以下三个语音转换(Voice Conversion,VC)算法被认为是比较先进且广泛使用的:
1.StarGAN-VCStarGAN-VC 是一种基于生成对抗网络(GAN)的语音转换方法,能够在多个说话人之间进行声学特征转换,而无需大量的平行语音数据。它采用了多任务学习和条件生成对抗网络的框架,可以有效地处理说话人身份转换和语音风格转换。
2.VQ-VAE-VCVQ-VAE-VC(Vector Quantized Variational Autoencoder for Voice Conversion)基于VQ-VAE(向量量化变分自编码器)模型,通过将语音信号映射到离散潜在空间进行建模。该方法能有效捕捉语音的离散特征,并在不同说话人之间进行语音转换,具有较好的音质和转换效果。
3.HiFi-GAN VCHiFi-GAN 是一种基于生成对抗网络的高质量语音生成模型,近年来在语音合成任务中表现出色。其应用于语音转换时,HiFi-GAN能够生成高保真度的语音,并且在说话人转换的过程中保留了原始语音的自然感和流畅度。它通过优化GAN的训练过程来生成更加清晰和自然的语音。
这些算法的核心特点是能在缺乏平行语音数据的情况下进行语音转换,且通过深度学习方法(如GAN和VAE)提升了语音转换的质量和鲁棒性。
封 面
www.pixiv.net/artworks/125585654
[1] Van Den Oord A, Dieleman S, Zen H, et al. Wavenet: A generative model for raw audio[J]. arXiv preprint arXiv:1609.03499, 2016, 12.
[2] Wang Y, Skerry-Ryan R J, Stanton D, et al. Tacotron: Towards end-to-end speech synthesis[J]. arXiv preprint arXiv:1703.10135, 2017.
[3] Wang, Yuxuan, et al. "Tacotron: A fully end-to-end text-to-speech synthesis model." arXiv preprint arXiv:1703.10135 164 (2017).
[4] Shen J, Pang R, Weiss R J, et al. Natural tts synthesis by conditioning wavenet on mel spectrogram predictions[C]//2018 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2018: 4779-4783.
[5] Ren Y, Ruan Y, Tan X, et al. Fastspeech: Fast, robust and controllable text to speech[J]. Advances in neural information processing systems, 2019, 32.
[6] Ren Y, Hu C, Tan X, et al. Fastspeech 2: Fast and high-quality end-to-end text to speech[J]. arXiv preprint arXiv:2006.04558, 2020.
[7] Kim J, Kong J, Son J. Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech[C]//International Conference on Machine Learning. PMLR, 2021: 5530-5540.
[8] Schneider S, Baevski A, Collobert R, et al. wav2vec: Unsupervised pre-training for speech recognition[J]. arXiv preprint arXiv:1904.05862, 2019.
[9] Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. Advances in neural information processing systems, 2020, 33: 12449-12460.
[10] Gulati A, Qin J, Chiu C C, et al. Conformer: Convolution-augmented transformer for speech recognition[J]. arXiv preprint arXiv:2005.08100, 2020.
[11] Radford A, Kim J W, Xu T, et al. Robust speech recognition via large-scale weak supervision[C]//International conference on machine learning. PMLR, 2023: 28492-28518.