人音合成的软件系统实现与应用毕业论文

2021-03-12 00:06:13

摘要

语音合成的目标是给予给定文本合成的自然发声的语音信号。现有的语音合成技术主要分为串接化语音合成和参数化语音合成两类。而谷歌DeepMind团队最近推出的wavenet引擎则不同于以上两种方法。它是利用卷积神经网络对音频原始信号进行学习，可以关注到更多的音频细节，所以其生成的语音质量比当前世界上最好的文本转语音系统（TTS）提高了50%，已经相当地接近人类的原始发音。而且wavenet引擎所使用的神经网络结构也是当今机器学习的研究热点。所以，wavenet引擎所提出的研究思想必定会是将来语音合成系统的进一步发展方向。本文根据谷歌已发表的wavenet论文以及现有神经网络和语音合成的相关资料，对wavenet模型进行初步研究与学习，致力于阐述wavenet引擎的基本设计思想并初步实现它的应用。

关键词：人声合成； Wavenet；卷积神经网络

Abstract

The goal of speech synthesis is to give a natural voice of a given text. The existing speech synthesis technology is mainly divided into two types: voice synthesis and parametric speech synthesis. The Google DeepMind team recently launched wavenet engine is different from the above two methods. It is the use of convolution neural network to learn the original audio signal, you can focus on more audio details, so the resulting voice quality than the world's best text to the voice system (TTS) increased by 50%, has been quite Close to the original pronunciation of mankind. And wavenet engine used by the neural network structure is also a hot topic in today's machine learning. Therefore, wavenet engine proposed research ideas will be the future development of speech synthesis system direction. Based on the wavenet paper published by Google and the related information of neural network and speech synthesis, this paper studies and studies the wavenet model, and elaborates the basic design idea of wavenet engine and realizes its application.

Key Words: Vocal synthesis；Wavenet；Convolution neural network

目录

第1章绪论 1

1.1 研究背景 1

1.2 研究现状 2

1.3 研究目的与意义 2

第2章 Wavenet模型 3

2.1 扩张因果卷积 3

2.2 SOFTMAX分布 4

2.3 门控活动单位 5

2.4 残差和跳跃连接 6

2.5 调节wavenet 6

2.6 上下文堆栈 7

2.7 快速生成算法 7

2.7.1 基本原理 7

2.7.2 算法实现 9

第3章项目实现 11

3.1 准备工作 11

3.1.1 Python语言 11

3.1.2 Tensorflow 11

3.2 程序设计 11

3.3 界面设计 13

第4章总结与展望 15

4.1 项目存在的不足 15

4.1.1 局部调节问题 15

4.1.2 性能问题 15

4.2 其他方面的应用 15

4.3 发展前沿 16

注释： 17

附录A 19

参考文献 21

致谢 21

绪论
1. 研究背景

语音合成是人类语言的人为制作。用于此目的的计算机系统称为语音计算机或语音合成器，并且可以在软件或硬件产品中实现。文本到语音（TTS）系统是将正常语言文本转换为语音;其他系统将语音转录的符号语言表达形式转化为语音。

文本到语音系统（或“引擎”）由两部分组成：前端和后端。前端有两个主要任务。首先，它将包含数字和缩写等符号的原始文本转换成相当于已写出的字。这个过程通常被称为文本规范化，预处理或标记化。前端然后为每个单词分配语音翻译，并将文本划分并标记为韵律单位，如短语，子句和句子。将语音转录分配给单词的过程称为文本到音素或字母到音素的转换。语音翻译和韵律信息一起构成了由前端输出的象征性语言表征。后端（通常被称为合成器）然后将符号语言表示转换为声音。在某些系统中，这部分包括计算目标韵律（音调轮廓，音素持续时间），然后施加在输出语音上。

人工神经网络（artificial neural network，缩写ANN），简称神经网络（neural network，缩写NN）或类神经网络，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或者计算模型，用于对函数进行估计或近似。神经网络由大量的神经元联结进行计算。大多数情况下人工神经网络能够根据外界信息来改变自身的内部结构，因此属于自适应系统。现代神经网络是一种非线性的统计性数据建模工具。典型的神经网络具有以下三个部分：

结构（Architecture）：神经网络的结构指定了网络中的变量和变量的拓扑关系。例如，神经网络中的变量可以是神经元连接的权重（weights）和神经元的激励值。
激励函数（Activity Rule）：大部分的神经网络模型都具有一个短时间尺度的动力学规则，用来定义神经元如何根据其他神经元的活动来改变自己的激励值。一般激励函数依赖于神经网络中的权重。
学习规则（Learning Rule）：学习规则指定了神经网络中的权重如何随着时间的推进而调整。这一般被看作是一种长时间尺度的动力学规则。一般情况下，学习规则依赖于人工神经元的激励值。当然它也可能依赖于监督者所提供的目标值和当前网络中权重的值。

随着人类对机器学习的研究的不断深入以及近年来神经网络的盛行，人工神经网络已经被应用于越来越多的领域。而谷歌的DeepMind团队就将卷积神经网络模型与语音合成技术相结合，创造出了表现惊人的wavenet语音合成引擎。

1. 研究现状

目前的语音合成技术主要分为两类：串接式语音合成与参数化语音合成。串接式（Concatenative）TTS，需要通过由单一录音者录制的简短语音片段组成的数据库选择语音片段，重新组合并形成语音。这种方式生成的语音比较清晰，但其所需要的语音数据库很大，也不够灵活，所以无法轻松地对系统进行调整来输出新的声音，如果想要对现有声音的特征进行较大改变，通常需要彻底地重建数据库。另一种方法称为参数化（Parametric）的TTS，它采用一个参数模型来存储发音的特征，这样针对不同的输入，就可以产生不同的输出效果。这种方法不需要庞大的语音数据库，相对较为方便，但产生的声音却不够真实。

谷歌DeepMind团队受启发于图像识别中所使用的卷积神经网络，将二维的 PixelNet转化为一维的Wavenet来处理音频信号。Wavenet采用了因果卷积神经网络，对音频文件的原始波形进行学习，其本质上还是参数化语音合成。但它能捕捉到字与字之间微妙的发音，使生成的声音更为自然，它甚至可以模仿人在不同情绪下的语气。但同时，由于卷积神经网络的复杂性以及对音频信号的采样频率要求高，生成音频信号时每生成一个振幅样本都要进行概率计算，使得计算量十分庞大，暂时难以广泛应用，仍停留于实验阶段。

1. 研究目的与意义

本文通过对wavenet引擎的研究以及对语音合成软件的初步实现，来了解wavenet引擎的基本原理，并学习其核心思想，为语音合成软件的进一步优化与完善奠定基础。随着深度学习理论的提出，人工神经网络再一次成为机器学习的研究热点。神经网络的相关理论也被应用于越来越多的领域，并取得了卓越的表现。例如，在自动驾驶以及图像识别，语音识别领域。而此次wavenet则是将卷积神经网络应用于语音合成领域，其表现也是令人震惊。虽然wavenet尚还存在一些问题，但却为语音合成的研究指出了一个崭新的方向，在语音合成技术已经难以进步的今天，它让人们对语音合成技术的发展又看到了新的希望。

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码