语音识别中基于深度学习的声学模型研究开题报告

2021-03-11 12:03

1. 研究目的与意义（文献综述）

1.1 国内外研究现状

语音识别的研究自20世纪50年发展起，在近二十年来，语音识别技术有了显著的提升，如今以苹果手机的siri,科大讯飞的语音输入法为代表，被众多专家学者认为是21世纪10大最具发展潜力的热门学科之一。如今语音识别作为模式识别的一个分支，与机器学习中的深度学习相结合，通过计算机将语音自动识别成文本，即自动语音识别(automatic speech recognition ,asr)技术也成为了国内外许多专家学者备受追捧的研究方向。早期的语音识别是基于gmm-hmm[a1] (gaussian mixture model -hidden markov model)模型的主流框架，以剑桥语音识别组推出的htk工具包为主要研究手段，此后语音技术的发展一直趋于缓慢。2006年，hinton等人提出将深度置信网络（deep brief network,dbn）应用于语音识别的思想为该技术的研究开启了另一个春天，研究发现基于dnn-hmm（deep nerual network-hidden markov model）模型的识别框架其性能较gmm-hmm模型提高了10%，突破了传统语音识别中声学模型的瓶颈，革新了人们对于神经网络（nerual network ,nn）的认知。随着语音识别和深度学习的发展，dan povey团队编写的kaldi语音识别工具加入了深度神经网络(dnn deep nearul network)的分类器并在htk工具包的基础上做出了完善，为人们研究基于深度学习的语音识别技术提供了很好的实验平台。

基于深度学习的语音识别技术近十年来以神经网络作为声学模型，通过不断改进神经网络的结构和优化模型算法来提升语音识别性能。2009年，hinton和他的学生d. mohamed将深度神经网络在小词汇量连续语音识别数据库timit进行测试获得成功。微软研究院俞栋、邓力在2012年发表的论文中，首次提出的独立上下文（context-dependent ，cd）模型并结合数据预训练的方法初始化神经网络减少泛化误差，在大词汇量连续语音识别任务（lvsr large-vocabulary speech recognition ）上获得突破。2013年, hinton受到递归神经网络（recurrent nerual network，rnn）在手写文本识别上的启发，于发表的论文中将rnn用于识别长时上下文序列，同样在数据库timit进行测试，其识别错误率最低降至17.7%,该模型通过递归的思想弥补了dnn在挖掘时间序列上的不足。跟随着hinton的脚步，许多学者在早期提出的rnn结构基础上做出改进，提出将双向循环神经网络（bidirectional recurrent neural network，brnn）用于语音识别，随后发现rnn很容易出现梯度消失，且并不能解决长时间依赖的问题。为了解决这一问题，人们提出将一种特殊的rnn，长短期记忆模型（long short term mermory network，lstm）用与长时间序列识别，弥补了rnn的不足。2015年vijayaditya peddinti所在的团队提出了将时延神经网络（time delay nerual network，tdnn）来弥补rnn在模型结构复杂和模型训练时间过长的缺点，将该模型用于识别长时间上下文序列，并在lvsr测试发现文字差错率（word error rate，wer）降低2.6%。

在2016年的国际声学、语音与信号处理会议（international conference on acoustics, speech and signal processing，icassp）上，中国科大讯飞首次提出前馈型序列记忆网络fsmn (feed-forward sequential memory network)结合点对点(end to end)模型较rnn在模型训练效率和稳定性有了很大的提升。受到fsmn模型通过长短语音上下文信息来决策当前语音帧信息的启发，该公司结合卷积神经网络（convolution nerual network,cnn）提出了全新的深度全序列卷积神经网络（deep fully convolutional neural network，dfcnn）的语音识别框架，使用大量的卷积层直接对整句语音信号进行建模，更好地表达了语音的长时相关性。随着国内外众多的专家学长们的不断探索和研发，使得基于深度学习的语音识别技术也在日趋日趋成长，在不断的改善我们的生活的同时，对人们的未来也有着深远影响。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

2.1 研究内容和目标

本次设计将从理论上讨论传统gmm-hmm、dnn-hmm声学模型中涉及的em（expectation maximization algorithm）算法，反向传播算法；讨论网络层训练算法有监督和无监督算法的对比；讨论tdnn结合基于受限玻尔兹曼机(restricted boltzmann machine,rbm)的预训练加微调的网络训练方式；讨论结合ctc（connectionist temporal classification）算法的lstm优化的网络模型结构；从实验上将从数据准备、特征提取、模型训练三个方面详细论述基于kaldi中nnet3的模型训练实现过程。

2.2 拟采用的技术方案

1.实验平台

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

第1周—第3周搜集资料，撰写开题报告；

第4周—第5周论文开题；

第6周—第12周撰写论文初稿；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

【1】povey d, ghoshal a, boulianne g, et al. the kaldi speech recognition toolkit[c]//ieee 2011 workshop on automatic speech recognition and understanding. ieee signal processing society, 2011 (epfl-conf-192584).

【2】dahl g e, yu d, deng l, et al. context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[j]. ieee transactions on audio, speech, and language processing, 2012, 20(1): 30-42.

【3】deng l, hinton g, kingsbury b. new types of deep neural network learning for speech recognition and related applications: an overview[c]//acoustics, speech and signal processing (icassp), 2013 ieee international conference on. ieee, 2013: 8599-8603.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码