基于深度学习的方言识别系统实现开题报告

2020-04-12 09:04

1. 研究目的与意义（文献综述）

1.1 研究目的及意义

语音作为最自然、最有效的交流途径，一直是人机通信和交互领域最受关注的研究内容之一。自动语音识别的主要目的是让计算机能够“听懂”人类的语音、将语音波形信号转化成文本。它是实现智能的人机交互的关键技术之一。声学模型和语言模型是语音识别系统的两个核心模块。传统的语音识别系统普遍采用基于高斯混合模型和隐马尔科夫模型(gaussian mixture model-hidden markov model, gmm-hmm)的声学模型以及n-gram语言模型。近年来，随着深度学习的兴起，基于深度神经网络的声学模型和语言模型相比于传统的gmm-hmm和n-gram模型分别都获得了显著的性能提升。在此背景下、本论文从深度神经网络的模型结构出发，展开了较为系统和深入的研究，一方面对现有的模型进行优化，另一方面结合语音及语言信号的特性探究新的网络结构模型，从而提高基于深度神经网络的语音识别系统的性能和训练效率。

本文研究了基于前馈全连接深度神经网络((deep neural networks,dnn)的语音声学建模。我们分别探索了基于sigmoid非线性激活函数的dnn(sigmoid-dnn)和基于整流线性单元(rectified linear units, relu)的dnn (rl-dnn)的大词汇尾连续语音识别。首先针对传统的sigmoid-dnn，我们通过研究发现其隐层权重越往高层稀疏性越强的特性，提出了一种隐层节点递减的dnn结构，命名为sdnn。实验结果表明sdnn可以在保持性能基本不变的情况下将模型参数量减少到45%，从而获得2倍的训练加速。进一步地我们提出将dropout预训练作为一种神经网络的初始化方法，可以获得相比于传统的无监督pre-training更好的性能。然后我们针对rl-dnn的研究发现，通过合理的参数配置，可以采用基于大批量的随机梯度下降算法来训练rl-dnn，从而能够利用多个图形处理单元(graphic processing unit, gpu)进行并行化i)i练，可以获得超过10倍的i) i}练加速。进一步地我们提出了一种绑定标量规整的方法用于优化rl-dnn的训练，不仅使得训练更加稳定，而且能够获得显著的性能提升。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

2.1设计目标

利用深度学习进行湖北省荆门市京山县的京山方言的识别。语音识别的过程如图1.1，在接收到语音信号（京山方言）后，机器内转换翻译，最后的得到普通话表达的文字输出。

图1.1 语音翻译系统的主要组成模块

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

第1－4周：查阅相关文献资料，明确研究内容，了解研究所需理论基础。确定方案，完成开题报告。

第5－6周：论文开题。

第7－12周：撰写论文初稿。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

[1]schmidhuber j. deep learning in neural networks: an overview.[j]. neural netw, 2014, 61:85-117.

[2]sangeetha j, jothilakshmi s. a novel spoken keyword spotting system using support vector machine[j]. engineering applications of artificial intelligence, 2014, 36(36):287-293.

[3]mandal a, prasanna kumar k r, mitra p. recent developments in spoken term detection: a survey[j]. international journal of speech technology, 2014, 17(2):183-198.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码