DurIAN: Duration Informed Attention Network For Speech Synthesis

(66) 2024-08-10 14:01:01

相关阅读笔记:

DurIAN: Duration Informed Attention Network For Speech Synthesis
https://zhuanlan.zhihu.com/p/?utm_source=wechat_timeline

Abstract

在本文中,我们提出了一种强大而有效的语音合成系统,可以生成高度自然的语音。系统的关键组件是 Duration Informed Attention Network (DurIAN),这是一种自回归模型,其中,根据持续时间模型推断输入文本和输出声学特征之间的对齐方式。这与现有的端到端语音合成系统中使用的注意力机制不同,后者关注了各种不可避免的伪像(artifacts)。为了提高神经声码器的音频生成效率,我们还提出了一种利用神经网络的稀疏(sparseness )特性的多频带(multi-band)音频生成框架。通过提出的多频带处理框架,可以将WaveRNN模型的总计算复杂度从9.8 GFLOPS有效降低到3.6 GFLOPS,而不会造成任何性能损失。最后,我们表明,所提出的DurIAN系统可以生成与当前最新的端到端系统同等的高度自然语音,同时又具有鲁棒性和稳定性。

一、 Introduction

传统的语音合成方法,包括串联方法[1,2]和统计参数系统[3,4,5],都是基于声学特征分析和合成的。由于这些方法在鲁棒性和效率方面的优势,因此它们仍然主要应用于工业应用中。然而,这些方法与产生语言的低自然性差。端到端方法[6,7,8,9,10,11]由于其合成结果的自然性和简化的训练管道(simplified training pipelines),最近得到了广泛的关注。然而,现有的端到端系统缺乏鲁棒性,因为它们会产生不可预测的伪像: 源文本中的随机单词在生成的语音中重复或跳过的现象。由于端到端系统中缺乏鲁棒性,这极大地限制了它在实际生产环境中的应用程序。
为了结合传统参数系统和当前端到端模型的强度,我们提出了一种新的语音合成框架,持续时间通知注意网络(DurIAN),它同时产生高度自然和鲁棒的语音。 DurIAN是传统的参数系统和最近的端到端系统的混合,其中把端到端模型中的端到端注意机制替换为类似于参数合成系统中使用的对齐模型。
尽管端到端语音合成系统从各个角度改进了传统的参数化系统,但端到端注意力机制一直是语音稳定的根本原因。因此,所提出的DurIAN模型的动机是在现有的端到端系统中保持大多数进展,同时丢弃导致各种不稳定伪影的端到端注意机制。 我们表明,所提出的DurIAN模型可以产生与当前端到端系统相同的高度自然的语音,同时生成的语音更健壮和稳定。
端到端系统的另一个局限性是对域外文本的语音合成性能的泛化,特别是对于普通话这样的语言,其中单词和韵律边界起着更重要的作用。 虽然可以说在端到端系统中可以同时学习单词和韵律分段,但由于语音合成的训练数据相对有限,因此通常无法很好地概括域外文本的情况。因此,在普通话语音合成等任务中,从更大的数据集[13,14,15]中建立一个单独的学习单词和韵律边界的模型仍然是更可取的。 然而,如何将预测的韵律边界纳入混合模型,如提出的DurIAN或快速语音[12],尚未得到研究。在这项研究中,我们提出了一种跳跃编码器(Skip Encoder)结构,可以有效地利用预测的层次韵律边界来改进DurlAN模型在普通话语音合成任务中的泛化能力。
最后,当将最新的端到端模型应用于实时语音合成应用时,神经声码器[16,17,18,19]的计算复杂性是另一个挑战。 虽然神经声码器能够实现明显超过传统声码器的高度自然语音,但它们的计算复杂度也要高得多,导致推理速度慢、延迟更大、部署成本更高。由于大多数神经声码器被设计为逐个样本地预测音频信号,所以即使一秒钟的语音/音频也需要数以万计的推理步骤。 在这项工作中,我们提出了一种新颖的多频带音频生成框架,该框架可以有效利用神经网络的稀疏特性,将WaveRNN模型的总计算复杂度从9.8 GFLOPS降低到3.6 GFLOPS,并在单个CPU内核上将语音生成速度提高了两倍以上。

二、DurIAN

在本节中,我们描述了DurIAN语音合成系统中的主要组件。 由于DurIAN是一个文本驱动系统,它需要从文本转换的符号序列,并输出mel谱图。 图1中给出了DurIAN的体系结构DurIAN: Duration Informed Attention Network For Speech Synthesis (https://mushiming.com/)  第1张

1. Skip Encoder

跳跃编码器的主要目的是对音素序列的表示以及隐藏状态下的韵律层次边界进行编码。韵律边界是普通话语音合成任务中,提升在域外文本上语音合成系统的通用化的重要组成部分。
要生成跳跃编码器的输入,首先将源文本转换为音素序列。 为了编码不同层次的韵律结构,我们插入了特殊的符号,表示输入音素之间不同层次的韵律边界。 图2举例说明如何插入这些表示韵律边界的特殊符号。DurIAN: Duration Informed Attention Network For Speech Synthesis (https://mushiming.com/)  第2张
跳跃编码器中的主要网络组件是从Tacotron1[6]系统中的编码器继承的。 输入音素序列中的每个音素和插入的韵律符号,首先转换为嵌入空间中的连续向量,然后将音素序列的嵌入式表示形式通过包含两个完全连接的层的前置网络(pre-net)以及CBHG模块。

此处原本为: The embedded representation of the phoneme sequence is then passed through the pre-net [6] that contains two fully connected layers followed by the CBHG [6] module. 笔者认为根据图1所示,CBHG 应在 pre-net 之后而不是包含关系。

前置网络训练的 Dropout=0.5。CBHG模块的输出是一系列隐藏状态,其中包含输入文本的顺序表示。 由于韵律边界在物理上未与任何目标声学特征对齐,因此与韵律边界关联的隐藏状态会从CBHG模型的输出中排除。编码韵律边界的另一种方法是将音素序列转换为人工构造的语言特征(linguistic features),在其中编码韵律结构。但是,我们的早期实验表明,使用跳过编码器可以生成比使用语言特征更自然的语音。

2.Alignment Model

语音合成中的一项重要任务是揭示声素序列和目标特征/光谱序列之间的隐藏的对齐方式。端到端系统依赖于基于关注的机制来发现这种对齐方式。然而,现有的端到端注意机制经常会产生不可预测的伪影,其中某些单词在生成的语音中被跳过或重复。由于生产语音合成系统对这种不稳定性的容忍性非常差,端到端语音合成系统在实际应用中并没有得到广泛的应用。在DurIAN中,我们用对齐模型[20,21]代替注意机制,其中音素序列和目标声学序列之间的对齐是从音素持续时间预测模型中推断出来的,如图1所示。 每个音素的持续时间由对齐的声学帧数来决定。在训练过程中,可以通过广泛用于语音识别的强制对齐来获得声帧序列和输入音素序列之间的对齐。 然后将对齐方式用于隐藏状态扩展,该扩展仅根据音素持续时间复制隐藏状态。 在合成过程中,将使用单独的持续时间模型来预测每个音素的持续时间。 给定整个句子,训练该持续时间模型以最小化预测音素持续时间和通过强制对齐获得的持续时间之间的均方误差。状态扩展后,每个音素内每个帧的相对位置被编码为介于0和 1,并附加到编码器状态。 扩展的编码器状态类似于端到端系统中估计的注意力上下文,只是在DurIAN中是根据预测的电话持续时间推断出来的。
DurIAN中使用的持续时间模型类似于常规统计综合模型中使用的持续时间模型。 它由三个512单位的双向LSTM层组成。 与跳过编码器中的状态类似,与韵律边界相关的状态也将在最终的完全连接层之前被跳过。

3.Decoder

DurIAN中使用的解码器类似于Tacotron 1 [6]中使用的解码器。 唯一的区别是,与前置网络输出连接的注意力上下文被替换为Durian中对齐模型得出的编码器状态。 与Tacotron中一样,解码器网络可以在每个时间步长输出单个帧或多个不重叠的帧。当目标是多个不重叠的帧时,将有限的注意力放在与目标帧对齐的编码器状态上,然后在每个时间步长将其与前置网络的输出连接起来。 DurIAN中使用的注意力机制与端到端系统中使用的注意力机制不同。在DurIAN中,注意力上下文是从与目标帧对齐的少量编码器帧中计算出来的。 只要每个解码器时间步长的帧数不是特别大,就不会导致在端到端系统中观察到类似的伪像。在我们的系统中使用基于内容的 tanh 注意(content-based tanh attention )[22],并且在训练和推理过程中,解码器网络中前置网络的Dropout=0.5。

三、Multi-band WaveRNN

1、WaveRNN

我们使用的WaveRNN模型遵循[18]中的结构。 单层循环网络和双softmax层用于生成16位音频。 为了加快WaveRNN的推理速度,我们对门控循环单元(GRU)以及其后的其他四个完全连接层的隐藏层权重进行了8位量化(量化感知训练)。 量化显着减小了模型大小,这对于提高缓存命中率非常有帮助。 此外,量化参数有助于使用Intel CPU的avx2指令加快计算速度。 量化和avx2指令的组合可以实现比浮点计算快4倍的推理速度

2、 Multi-band Processing

为了进一步降低 WaveRNN 模型的计算复杂度,我们提出了用于神经声码器的通用多频带处理框架。 多频带处理的一个重要特征是,当信号分成 N 个子带时,每个子带中的信号可以下采样 N 次,而不会丢失信息。 换句话说,如果我们使用单独的神经声码器为每个子带建模,则每个子带中的推理步骤可以减少 N 倍。利用多频带处理的这种特征的现有方法[23、24]是用分离训练的神经声码器对每个子带建模,然后使用多个 CPU 或 GPU 并行地推论。 但是,这种基于并行化的方法在提高推理速度的同时,并没有降低神经声码器的基本计算复杂度。另一方面,我们提出的多频段 WaveRNN 算法利用了神经网络模型的稀疏性,并为所有子带信号预测使用了一个共享的 WaveRNN 模型。 更具体地说,共享 WaveRNN 模型将根据上一步预测的所有子带样本作为输入,并在一个推理步骤中预测所有子带中的下一个样本,如图3所示。
DurIAN: Duration Informed Attention Network For Speech Synthesis (https://mushiming.com/)  第3张
我们修改了原始的WaveRNN模型,以从多个子带中获取输入,并通过多个输出(和softmax)层同时预测所有子带的样本。 由于总的推理步骤减少了N倍(频带数),因此总的计算复杂度也可以大大降低。 对每个频带中的预测音频信号进行上采样,然后传递到合成滤波器。 经过合成滤波器后,来自每个频带的信号被求和成单个音频信号。

3、 Filter Design For Multiband WaveRNN

我们的多频带处理采用了一种稳定但效率更高的低成本滤波器组,即伪四边形镜像滤波器组(Pseudo-QMF)。 原型滤波器被设计为具有线性相位,从而导致无相位失真的分析/合成系统。 每个子带波形的采样频率为 fs/N Hz,其中N是滤波器通道/子带的数量,fs是全带信号的期望采样率。 由于具有伪QMF的混叠消除特性,在分析滤波器组将全带信号分解为子带之后,将应用临界下采样。

四、Experiments

1、Speech Synthesis

我们使用两个不同的数据集评估了所提出系统的自然性和鲁棒性。 第一个数据集基于18个小时的男性语音记录,另一个数据集基于7个小时的女性语音记录语音记录。 两者都是普通话语音数据集。 所有训练数据的采样率均为16KHz。所产生语音的自然性的平均意见分数(MOS)由参与听力测试的人类受试者进行评分。 我们使用40个集外的句子来评估由男性说话者训练的模型,并并使用20个相对较长的域外句子来评估由女性说话者训练的模型。 在所有实验中,有20位以普通话为母语的人参加了听力测试。 我们将模型与传统的基于BLSTM的参数系统[20]和Tacotron-2系统进行了比较。如表1所示,DurIAN和Tacotron 2的性能明显优于传统的参数系统。 在这两个测试中,DurIAN和Tacotron-2的性能差不多。 没有观察到统计学上的显着差异。 这些结果告诉我们,Tacotron-2中的卓越自然性可能是Tacotron中除端到端注意力机制之外的所有其他组件的结果。
DurIAN: Duration Informed Attention Network For Speech Synthesis (https://mushiming.com/)  第4张
由于DurIAN的设计目标是要获得与 Tacotron2 相当的自然度,同时避免在 Tacotron2 系统中观察到的伪像,因此我们进一步比较了两个系统在生成语音方面的鲁棒性。 在此评估中,我们主要关注 Tacotron2 系统中常见的单词跳过和重复错误。 DurIAN 和 Tacotron2 系统都用于生成 1000 条集外文本。 表2列出了单词跳过和重复错误的发生率。 这些结果清楚地表明,DurIAN 比 Tacotron2 强得多,并且在此类别中未产生任何错误。
DurIAN: Duration Informed Attention Network For Speech Synthesis (https://mushiming.com/)  第5张

2、 Multi-band WaveRNN

我们评估了 Multi-band WaveRNN 生成语音的自然性和的速度。

a、speed

WaveRNN的主要复杂性来自两个GRU和四个完全连接的层。 我们忽略了加法运算的开销,仅关注生成的每个样本的乘法运算的复杂度,即:DurIAN: Duration Informed Attention Network For Speech Synthesis (https://mushiming.com/)  第6张
NG 是两个 GRU 的大小,NF是连接到最终完全连接层的仿射层的宽度,NB 是频带数,SR 是采样率。 对于 SR = 16000,使用 NG = 192,NF = 192和 NB = 1(全波段 WaveRNN )时,我们获得了大约 9.8 GFLOPS 的总复杂度。 当我们将 NB 设置为 4 时,总复杂度为 3.6 GFLOPS。
我们还测量了表 3 中列出的多波段 WaveRNN系统的实时因子( RTF )。所有 RTF 值均在单个 Intel Xeon CPU E5-2680 v4 内核上测量。 结果表明,通过量化和 avx2 加速,基线 WaveRNN 模型的 RTF 可以从 1.337 降低到 0.387。 使用 4 波段模型,RTF 可以进一步降低至 0.171,这是量化 WaveRNN 模型的 2 倍。
DurIAN: Duration Informed Attention Network For Speech Synthesis (https://mushiming.com/)  第7张

b、Quality

提出的多波段 WaveRNN 的平均意见得分(MOS)是通过主观听力测试获得的。 章节 4-2 中使用的女性数据集同时用于训练 DurIAN 和 WaveRNN 模型。比较了三个 WaveRNN 系统,未量化的基线WaveRNN模型、未量化的 4 波段 WaveRNN 模型和量化的 4 波段 WaveRNN 模型。 表4中的实验结果表明,所评估的三个系统彼此相当。
DurIAN: Duration Informed Attention Network For Speech Synthesis (https://mushiming.com/)  第8张
没有观察到统计学上的显着差异。 实际上,参加听力测试的大多数对象都不会感觉到从这三种不同的WaveRNN系统产生的发声之间的任何区别。 我们可以得出结论,所提出的多频带合成方法和8位量化技术可以有效地降低计算成本,而不会降低所生成语音的质量。

五、Conclusions

在本文中,我们提出了一种语音合成框架,该框架能够生成高度自然且健壮的语音。 我们的实验结果表明,所提出的DurIAN系统能够合成与端到端系统 Tacotron2 当前的高质量的合成语音,同时有效地避免了单词跳过和重复产生的语音中的错误 。我们还提出了多频带语音生成算法,该算法可以有效地将 WaveRNN 模型的计算复杂度从 9.8 GFLOPS 降低到 3.6 GFLOPS,而不会降低生成语音的质量。 最后,提出的 DurIAN 模型是一个通用的合成框架,我们已经成功地扩展了它的其他生成任务,例如唱歌[25,26],多模式合成[27]和细粒度样式控制的语音合成[27]。

六、References

[1] A. J. Hunt and A. W. Black, “Unit selection in a concatenative speech synthesis system using a large speech database,” in 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings, vol. 1. IEEE, 1996, pp. 373–376.
[2] A. W. Black and P. A. Taylor, “Automatically clustering similar units for unit selection in speech synthesis.” 1997.
[3] K. Tokuda, T. Yoshimura, T. Masuko, T. Kobayashi, and T. Kitamura, “Speech parameter generation algorithms for hmm-based speech synthesis,” in 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No. 00CH37100), vol. 3. IEEE, 2000, pp. 1315–1318.
[4] H. Zen, K. Tokuda, and A. W. Black, “Statistical parametric speech synthesis,” speech communication, vol. 51, no. 11, pp. 1039–1064, 2009.
[5] H. Zen, A. Senior, and M. Schuster, “Statistical parametric speech synthesis using deep neural networks,” in 2013 ieee international conference on acoustics, speech and signal processing. IEEE, 2013, pp. 7962–7966.
[6] Y. Wang, R. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio et al., “Tacotron: Towards end-to-end speech synthesis,” arXiv preprint arXiv:1703.10135, 2017.
[7] J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerrv-Ryan et al., “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4779–4783.
[8] N. Li, S. Liu, Y. Liu, S. Zhao, M. Liu, and M. Zhou, “Close to human quality tts with transformer,” arXiv preprint arXiv:1809.08895, 2018.
[9] W. Ping, K. Peng, and J. Chen, “Clarinet: Parallel wave generation in end-to-end text-to-speech,” arXiv preprint arXiv:1807.07281, 2018.
[10] J. Sotelo, S. Mehri, K. Kumar, J. F. Santos, K. Kastner, A. Courville, and Y. Bengio, “Char2wav: End-to-end speech synthesis,” 2017.
[11] W. Ping, K. Peng, A. Gibiansky, S. O. Arik, A. Kannan, S. Narang, J. Raiman, and J. Miller, “Deep voice 3: Scaling textto-speech with convolutional sequence learning,” arXiv preprint arXiv:1710.07654, 2017.
[12] Y. Ren, Y. Ruan, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu, “Fastspeech: Fast, robust and controllable text to speech,” arXiv preprint arXiv:1905.09263, 2019.
[13] Y. Qian, Z. Wu, X. Ma, and F. Soong, “Automatic prosody prediction and detection with conditional random field (crf) models,” in 2010 7th International Symposium on Chinese Spoken Language Processing, 2010, pp. 135–138.
[14] Zhiwei Ying and Xiaohua Shi, “An rnn-based algorithm to detect prosodic phrase for chinese tts,” in 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No.01CH37221), vol. 2, 2001, pp. 809–812 vol.2.
[15] J. Pan, X. Yin, Z. Zhang, S. Liu, Y. Zhang, Z. Ma, and Y. Wang, “A unified sequence-to-sequence front-end model for mandarin text-to-speech synthesis,” ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 2020. [Online]. Available: http://dx.doi.org/10.1109/icassp40776.2020.
[16] A. v. d. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, “Wavenet: A generative model for raw audio,” arXiv preprint arXiv:1609.03499, 2016.
[17] A. v. d. Oord, Y. Li, I. Babuschkin, K. Simonyan, O. Vinyals, K. Kavukcuoglu, G. v. d. Driessche, E. Lockhart, L. C. Cobo, F. Stimberg et al., “Parallel wavenet: Fast high-fidelity speech synthesis,” arXiv preprint arXiv:1711.10433, 2017.
[18] N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, N. Casagrande, E. Lockhart, F. Stimberg, A. v. d. Oord, S. Dieleman, and K. Kavukcuoglu, “Efficient neural audio synthesis,” arXiv preprint arXiv:1802.08435, 2018.
[19] J.-M. Valin and J. Skoglund, “Lpcnet: Improving neural speech synthesis through linear prediction,” in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 5891–5895.
[20] Y. Fan, Y. Qian, F. Xie, and F. K. Soong, “TTS Synthesis with Bidirectional LSTM based Recurrent Neural Networks,” INTERSPEECH, pp. 1964–1968, Singapore, September, 2014.
[21] H. Zen, Y. Agiomyrgiannakis, N. Egberts, F. Henderson, and P. Szczepaniak, “Fast, compact, and high quality lstm-rnn based
statistical parametric speech synthesizers for mobile devices,” arXiv preprint arXiv:1606.06061, 2016.
[22] O. Vinyals, Ł. Kaiser, T. Koo, S. Petrov, I. Sutskever, and G. Hinton, Grammar as a foreign language,” in Advances in neural information processing systems, 2015, pp. 2773–2781.
[23] T. Okamoto, T. Toda, Y. Shiga, and H. Kawai, “Improving FFTNet vocoder with noise shaping and subband approaches,” in 2018 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2018, pp. 304–311.
[24] T. Okamoto, K. Tachibana, T. Toda, Y. Shiga, and H. Kawai, “An investigation of subband WaveNet vocoder covering entire audible frequency range with limited acoustic features,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 5654–5658.
[25] L. Zhang, C. Yu, H. Lu, C. Weng, Y. Wu, X. Xie, Z. Li, and D. Yu, “Learning singing from speech,” 2019.
[26] Y. Wu, S. Li, C. Yu, H. Lu, C. Weng, L. Zhang, and D. Yu, “Synthesising expressiveness in peking opera via duration informed attention network,” 2019.
[27] C. Yu, H. Lu, N. Hu, M. Yu, C. Weng, K. Xu, P. Liu, D. Tuo, S. Kang, G. Lei, D. Su, and D. Yu, “Durian: Duration informed attention network for multimodal synthesis,” 2019.

THE END

发表回复