基于Transformer TTS的语音合成方法研究毕业论文

2021-11-06 23:15:45

摘要

随着我国计算机信息技术蓬勃的快速发展与不断地进行技术创新,人工智能的技术也是伴随着现代计算机信息技术的进步与发展脱颖而出并在各个领域都已经获得了不小的发展与成就,得益于当前深度机器学习技术的日益成熟,语音数据合成技术也随着科技的发展而不断进步并且被应用于各个领域中，同时人们对合成语音的质量和效率等要求也不断提高。而端到端的语音合成的提出使得语音合成对工作人员的语言学等专业知识要求降低了许多，这让语音合成的研究得到了更好的发展，而近几年越来越多新的神经网络模型被提出用于各个不同领域的应用。

transformer模型于2017年由google团队提出，它是一个完全由attention组成编码器与解码器的端到端模型，在翻译任务上取得了极为出色的成绩。而本论文主要研究了transformer模型应用在语音合成任务上的可行性，并对其优势与劣势进行分析。

研究表明基于transformer模型的语音合成方法在语音合成的速度上有了一定程度的提升，但是依然存在端到端模型进行语音合成的通病。

本文的特色：结合tacotron2模型与transformer模型，并以CBHG Griffin-Lim算法作为声码器进行语音合成的研究。

关键词：端到端；语音合成；Transformer；梅尔频谱

Abstract

With the vigorous development and continuous innovation of computer technology, artificial intelligence technology also stands out with the development of computer technology and has achieved no small achievements in various fields. Thanks to the increasingly mature deep learning technology, speech synthesis technology has also followed With the development of science and technology, it has been continuously improved and applied in various fields. At the same time, people have continuously improved the quality and efficiency of synthesized speech. The introduction of end-to-end speech synthesis has made speech synthesis require a lot of staff ’s linguistics and other professional knowledge, which has made speech synthesis research better developed, and in recent years more and more new neural networks The model has been proposed for applications in various fields.

The transformer model was proposed by the Google team in 2017. It is an end-to-end model consisting entirely of attention encoder and decoder, and has achieved excellent results in translation tasks. This thesis mainly studies the feasibility of the transformer model applied to speech synthesis tasks, and analyzes its advantages and disadvantages.

Studies have shown that the speech synthesis method based on the transformer model has improved the speed of speech synthesis to a certain extent, but there is still a common problem of end-to-end models for speech synthesis.

The characteristics of this article: combining tacotron2 model and transformer model, and using CBHG Griffin-Lim algorithm as the vocoder to conduct speech synthesis research.

Key Words：end-to-end; Speech synthesis; transformer; Mel spectrogram

第1章绪论 1

1.1 语音合成的研究背景及意义 1

1.1.1 语音合成的背景 1

1.1.2 语音合成的发展 2

1.2 深度学习研究背景 2

1.2.1 深度学习概述 2

1.2.2 深度学习的发展 3

1.3 本文的组织结构 3

第2章相关技术概述 5

2.1 序列到序列模型 5

2.2 卷积神经网络 6

2.3 端到端的语音合成 6

2.2.1 Tacotron2 7

2.4 Transformer 7

2.4.1 注意力机制 8

2.4.2 前馈神经网络 10

2.5 声音频谱图 10

2.5.1 梅尔频谱图 10

2.6 本章小结 11

第3章基于transformer模型的语音合成 12

3.1 Transformer TTS模型概述 12

3.2 文本-音素转换器 13

3.3 比例位置编码 14

3.4 编码器前置网络 15

3.5 解码器前置网络 15

3.6 编码器 15

3.7 解码器 16

3.8 本章小结 16

第四章实验 17

4.1 训练设置 17

4.2 预处理 17

4.3 PostNet设置 17

4.4 训练时间 17

4.5 训练结果分析 18

4.6 生成音频结果评估 18

4.7 本章总结 21

第5章结论 22

5.1 总结 22

5.2 展望 22

致谢 23

第1章绪论

在人类社会的发展中，在语言诞生之后，语言一直承担着帮助人类学习、交流与表达情感的角色，是人类与人类之间传递信息的主要方式，拥有语言通常被认识是人类走向文明的标志之一。列宁曾经说过：“语言是最重要的人类交际工具”。事实上，在随着科技的蓬勃发展与认知的不断提升，人们了解到语言不仅仅能够让人们进行交际，它更是一种贮存知识，延续经验的重要方式。而信息化时代技术与手段的出现与成熟的发展使语音信息能够快速的获取、处理与存储，加快了人们对语音技术的研究。语音处理技术也逐渐站在了研究领域的最前端并展现出了无限的可能与无可替代的重要地位。^[1]

语音处理这一技术是各个不同领域技术结合而产生的，它基本用到的技术是数字信号处理技术和语音语言学，但还涉及到了许多其他专业的学科，如心理学、通信技术、计算机科学等。而随着对深度学习领域的探索，现在的语音处理技术往往与人工智能技术是密不可分的。语音处理技术的主要研究方向有自动语音识别技术（ARS）和语音合成技术（TTS）。前者是将语音转化为文本，而后者则是将文本转化为语音。

1. 语音合成的研究背景及意义
  1. 语音合成的背景

在现代科学领域中，计算机实现语音合成技术的主要方法是将人们输入的文字经过适当的转换成程序可识别的数据，再经过语音合成器产生的高保真、接近人类发出的语音，通常语音合成涉及的学科领域有语言学、计算机学、信息学等。该技术使得计算机能够像人一样“说话”，在人工智能领域语音处理技术通常是为了实现人机交互而存在的，语音识别技术是让机器能“听”懂人的话，而语音合成技术则是让机器“说”出人类的语言。

从结构上来看，语音合成的整个系统框架通常包含三个模块：前端模块、后端模块和声码器，而后端模块和声码器也可合并为一个后端模块；首先，前端模块通常包括了文本正则化、分词、词性预测等子模块，它的作用是将文本转为后端模块可识别的语言学特征，并将该特征传入后端模块；后端模块有统计参数建模，单元挑选与拼接，神经网络模型三个技术主线，作用是将前端模块提供的语言学特征经过算法生成声学特征；而最后的声码器模块是将声学特征转为语音波形，然后输出为音频格式。^[2]

图1.1 语音合成模型结构

- 1. 语音合成的发展

语音合成技术的发展历史悠久，但是早期的语音合成研究根本无法生成有实用价值的语音，而真正可以应用的语音合成技术是在科学技术的发展支持下才发展起来的，其能够得以发展主要运用到的技术为计算机科学与数字信号处理。

上世纪40年代，声码器的发明标志着语音信号处理研究的开始，早期进行语音合成的研究方法主要是参数合成法以及拼接法，参数合成法首先需要对语音合成中的用到的模型进行建模，然后预测模型中生成的声学特征参数，接着将声学特征参数进行进一步的修改为计算机可处理的内容，最后经过声码器将处理过的声学特征参数恢复成声音波形。参数法的优点是可以合成出稳定的结果同时又不需要较大的音库，Holmes发明的并联共振峰原理制作的语音合成器（1973）和Klatt发明的串并联共振峰合成器（1980）就是使用了参数法的原理进行语音合成，只要经过合理的参数调整就能合成出比较逼真的语音。然而实际上这个方法合成的音质并不理想，会出现参数“过平滑”的问题，但它为语音合成的发展打下了扎实的基础。

二十世纪八十年代末，随着基音同步叠加法（PSOLA）的提出，这让语音合成技术的发展得到了新的突破。传统波形拼接技术由于在波形与波形之间的拼接处不能够连贯的拼接而导致合成的音频听上去并不自然，而该方法不仅保留了原始的声音特征，还使得拼接单元在各个方面都十分优秀，使基于时域波形拼接方法合成的语音的音色和自然度大大提升，得到了人们广泛的应用。然而由于PSOLA是基于基音同步的语音合成技术，它对基频的准确性要求非常高，基音周期误差以及起始点的误判对合成效果的影响极大。另外就是拼接法的共同缺点，对音库的要求十分大。

到了上世纪末，基于隐马尔可夫模型的语音合成系统（HTS）让参数合成的方法又一次站上了历史的舞台，基于隐马尔可夫模型的语音合成系统体现出了参数灵活、方便调整、能通过对模型进行修改或者修改参数的值从而实现不同的语音风格等优势。它对训练语料的音库要求不高，并且储存模型需要的存储空间远小于拼接法等非参数的语音合成方法。然而HTS仍然有一些缺点没有完善，其中最大的问题就是语音合成的自然度和音质都没有达到令人满意的程度。

深度学习的发展以及上述这些方法的缺点让人们开始摸索更加优异的方法进行语音合成的研究，于是端到端的语音合成方法就被提出了。该方法的语音合成过程十分简单，省去了许多复杂繁琐的操作，只需要输入文本或者其他的特征序列，经过模型的计算系统就能直接生成音频波形。端到端的语音合成系统降低了语音合成技术对各个不同专业领域的知识需求，可以很方便的对不同的语种训练并合成语音，其结果就是实现了各种不同语言的语音合成，并且端到端的语音合成系统合成的语音无论是从音色、韵律还是自然度上都比先前的语音合成方法要出色很多。^[3]

1. 深度学习研究背景
  1. 深度学习概述

深度学习（Deep Learning）作为机器学习（Machine Learning）的一个重要分支，它的出现从某种意义上讲让机器学习可以一定程度上地实现了人工智能（Artificial Inelligence）。它的最终目标是使设备具有像人类一样的自学习分析能力，并且可以进行诸如文本识别，图像识别和声音处理之类的任务。深度学习的主要内容是通过训练获取样本数据的一些基本信息与对其他样本进行预测，并且在学习过程中获得的信息对于文本，图像和声音等数据的表达有很大帮助。深度学习在视频、语音和图像识别上获得的实际结果远远超过了传统机器学习的技术水平，是一种复杂的机器学习算法。

现代计算机技术中的搜索引擎、个性化推荐技术、机器翻译、语音识别、语音合成、图像处理和数据挖掘，以及其他相关的技术都离不开深度学习的技术支持。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。^[4]

- 1. 深度学习的发展

以往的机器学习用于现实中的任务时，对其中的样本的参数特征进行判定以及设计通常需要由人类来完成的，这称为“特征工程”（feature engineering）。而特征的好坏对于该模型是否能够应用于大多数情况有着关键性的影响，设计出好的特征也不是一件容易的事情；而深度学习中的特征学习则能让机器通过学习技术自身来生成这些特征，这让机器学习的“全自动数据分析”产生了可能。

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码