登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 电子信息类 > 通信工程 > 正文

大词汇量语音识别中的上下文相关预训练神经网络外文翻译资料

 2022-10-27 03:10  

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


大词汇量语音识别中的上下文相关预训练神经网络

摘要:我们利用近年来利用深度信念网络电话识别提出了一个新的上下文相关(CD)大词汇语音识别模型(LVSR)。我们描述一个预先训练深层神经网络隐马尔可夫模型(DNN-HMM)混合架构,训练DNN产生senones分布作为其输出。深度信念网络事前训练的算法是初始化一个强大的深度神经网络的,可以帮助优化和降低泛化误差常有用的方式。我们会介绍我们的模型的关键组件,描述应用程序LVSR CD DNN的HMM模型,并分析各种模型的选择对性能的影响。在一个具有挑战性的商业搜索数据表明,CD DNN的HMM模型可以显着优于常规语境相关的高斯混合模型(GMM)-隐马尔可夫模型实验,以绝对精度提高5.8%和9.2%个句子(或16%和23.2%的相对误差减少)分别在CD GMM-HMMs使用手机的最低错误率训练(MPE)和最大似然(ML)的标准。

关键词:人工神经网络–隐藏马尔可夫模型(ANN-HMM),上下文相关的电话,深度信念网络,神经网络隐马尔科夫模型(DNN-HMM)、语音识别、声纹识别(LVSR)。

在许多成功部署商业产品几十年来的研究看来,自动语音识别(ASR)的性能在实际使用场景系统滞后于人类水平的性能。最近有在区分性训练一些显著的进展(例如,最大互信息(MMI)估计,最小分类错误(MCE)训练,和手机的最低误差(MPE)训练),在大幅度的技术(如大幅度估计,大幅度隐藏马尔可夫模型(HMM),大幅度–MCE,并增加了MMI),以及在新的声学模型(如条件随机域(CRF),隐藏控释肥)和节段模型有一些显著的进展。尽管取得了这些进展,在现实世界的条件下,受到人类的水平精度的限制,我们需要对它继续充满活力的研究。

最近,在与训练密切相关的方面取得了一个重大的进步,那就是定向的深度信念网络有很多隐藏层。由此产生的深度信念网络学习的层次结构的非线性特征检测器,可以捕捉到复杂的统计模式的数据。深度信念网训练算法在[24]中建议首先初始化权重的每一层单独在一个纯粹的无监督的方法,然后对整个网络使用带安全标签的数据。这种半监督方法使用在许多应用程序中已被证明有效的深度模型,包括编码和分类语音、音频、文本和图像数据。这些发展声学模型的进步是基于事前训练的神经网络和其他深度学习ASR的技术。例如,上下文无关的预训练,深层神经网络隐马尔可夫模型的混合架构,最近已经提出了电话识别,并取得了非常有竞争力的性能。使用预先训练神经网络的权值初始化深主要有两个潜在的好处,已经在文献中讨论。在[33]中证据表明,事前训练的一种特殊的数据相关规范,它对泛化误差的影响并没有减少更多的数据即即使数据集是如此庞大情况下,训练从不重复。在使用信息输入的分布正则化可以允许表达能力非常强的模型在少量的带安全标签的数据的情况下训练。此外,其他人也有报道和我们的实验证据一致,预训练会辅助随后的优化通常表现为随机梯度下降。因此,预训练的神经网络往往也达到较低的训练误差比神经网络,是不是预先训练的(虽然这种效果可以经常被混淆的早期停止使用)。这些影响是在深自编码尤其明显。

相比于许多其他现在存在于文献中的技术,但是深度信念网络预训练是一个被广泛研究的第一个预训练方法。在[ 34 ]表明,深度信念网预训练可以有效的训练深度自动编码器,在这有个十分有趣的使用更深层次的神经网络的应用。我们采用各种方便和强大的监督的职预训练技术来帮助训练神经网络的隐藏层,通常这是很有用也很有必要的。

在本文中,我们提出了一种新的声学模型,预训练,深层神经网络(DNN)和上下文(CD)隐藏的马尔可夫模型三者的混合。训练前的算法,我们使用的是深度信念网络(DBN)的预训练算法,我们将表示模型的缩写DNN-HMM帮助区分它从一个动态贝叶斯网络。为了使我们清楚,只要预训练完成后,我们只保留和继续训练识别权重而放弃了深度信念网络。CD DNN-HMM结合深层神经网络的表达能力与上下文相关的隐藏的马尔可夫模型(HMMs)的时序建模能力。在本文中,我们说明了模型中的关键成分,描述的过程来学习CD-DNN-HMMs的参数,分析了各种重要的设计选择影响识别性能,在[36]中实际使用条件下收集具有挑战性的商业搜索数据集并表明CD-DNN-HMM模型可以显着优于有预训练的上下文相关的高斯混合模型隐藏的马尔可夫模型(CD-GMM-HMM)。据我们所知,这是第一次DNN-HMMs成功地应用于大词汇量语音识别(LVSR)问题,以前只用于手机。

人工神经网络(ANN)和隐马尔可夫模型相结合对ASR的替代开始于上个世纪80年代末、90年代初之间。在文献中已经提出了各种不同的架构和培训算法(见[ 37 ])的综合调查。在这些技术中,这项工作最相关的是那些使用人工神经网络来估计HMM状态的后验概率–[ 38 ]-[ 45 ],这被称为文学中的ANN-HMM混合模型。在这些ANN-HMM混合架构,训练每个ANN的输出单位来估计连续密度HMM的状态考虑到声学观测的后验概率。ANN-HMM混合模型是在上世纪90年代中期LVSR技术之一。除了其本身特有的性质,ANN-HMM有两个额外的优势:培训可以使用嵌入式Viterbi算法和解码一般是相当有效的。最早期的工作(例如,[ 39 ]和[ 38 ])的混合方法使用上下文无关的电话状态的神经网络训练的标签,并认为是小的词汇任务。ANN-HMMs后来被扩展到模型的上下文相关的手机应用中的词汇和一些大词汇ASR任务(例如,在[ 45 ],并采用递归结构)。然而,在上下文依赖ANN-HMMs混合结构[ 46 ]早期的工作中,对语境依赖手机的后验概率模型为

这些早期混合尝试有一些重要的局限性。例如,只使用反向传播算法来训练神经网络,使得它是比较难以实现的(虽然不是不可能),利用以上两个隐层和上面说过的上下文相关模型不利于众多的GMM-HMMs技术开发。然而,在这项工作中,我们不采取这个办法,我们试图改善早期的混合方法而不是通过使用senones的更传统,更深,预训练的神经网络来把GMM-HMM tri-phone模型作为神经网络的输出单位。

虽然这项工作采用混合的方法,如以上所提到的,最近的工作中使用神经网络的声学建模使用所谓的串联方法,首次提出是在[ 49 ]。串联的方法增强了输入到GMM-HMM系统来源于适当的转变,输出一个或多个神经网络的特点,通常训练单音目标生产分布。许多最近的文件(例如,[ 51 ]–[ 54 ])对LVSR数据集训练神经网络(通常在1000小时的数据过量)和这些方法使用的变种,或者增加输入到GMM-HMM系统与基于神经网络的输出特性或一些早期的隐层。虽然名义上包含三个隐藏层的神经网络,如果特征层是中间隐藏层,那么产生的功能只产生一个编码器与一个单一的隐藏层。

更深层次的神经网络,尤其是深度自编码器,已知难以与BP单独训练。例如,[ 34 ]在一个实验报告,他们无法从那些训练可能不如深度信念网络预训练时深(编码器和解码器的结构都有三个隐藏层)与非线性共轭梯度算法的编码的系统之中得到结果。[ 56 ]和[ 57 ]调查了为什么训练深层前馈神经网络通常可以更容易一些形式的预训练或一个复杂的优化。从早期的混合架构的时候,现代GPU的矢量处理能力和更有效的训练算法的出现证明了深层神经网络有更强大的架构的可能性。以前很多混合ANN-HMM工作重点是上下文无关的或基本的上下文相关的手机型号和中小词汇量的任务(如[ 45 ]例外),可能掩盖了一些ANN-HMM混合方法的潜在优势。此外,GMM-HMM训练是并行计算机集群中的设置更容易,这在历史上给出的系统可伸缩性的显著优势。同时,由于说话人和环境的适应一般是GMM-HMM系统容易,GMM-HMM的方法已经在过去的二十年中语音识别的优势。这是说,如果我们考虑神经网络在声学建模超越的混合方法的广泛使用,神经网络特征提取是许多国家的最先进的声学模型的重要组成部分。

这项工作的主要贡献是上下文相关的,预训练,深层神经网络模型(CD-DNN-HMM);应用这种模型LVSR问题描述我们的方法;而我们的结果表明,大幅提高识别的准确性对于良好训练过的纯CD-GMM-HMM系统分析是一个困难的任务。我们的工作不同于先前的上下文相关的神经网络模型在[ 42 ],[ 41 ]说到的两个重要方面。首先,我们用更深、更富有表现力的神经网络结构,采用无监督训练算法DBN前确保训练能有效。其次,我们使用后验概率 [ 48 ]作为神经网络的输出,而不是上下文独立的电话和上下文以前使用的混合架构的组合。本文的工作主要集中在上下文相关模型的后验概率DNN使用senones作为网络输出,可以成功地应用于大量的词汇任务。训练神经网络预测分布在senones造成更多的信息是通过神经网络的训练标签提出。它还集成了上下文相关的神经网络的输出,它可能会有额外的用处。它代表了一个预训练,深层神经网络方法的第一个大的词汇应用。我们的研究结果表明,我们的CD-DNN-HMM系统对训练有素的CD-DNN-HMM基线显著改善。

深度信念网络(DBNs)是概率生成模型的多层次随机隐单元的观测变量,代表一个数据载体的一个底层上方。深度信念网络拥有从上面两层直接连接到所有其他层之间的无向连接。这是一种有效的无监督算法,在[ 24 ]首先描述,在DBN,相当于每对相邻的层的培训作为一个受限玻尔兹曼机的学习权值(RBM)。还有一种自下而上的推理算法来推断全部隐藏单位条件的数据载体的状态。在这个微调阶段,一个有监督的目标函数也可以被优化。在本文中,我们使用无监督训练前的算法产生的DBN权值初始化深权重。然后利用BP算法来调整网络的权值。因为深层神经网络训练往往优于随机初始化进行更深层次的架构,训练后随机梯度下降是我们的首选方法。生成模型中所吸取的赛前训练有助于防止过拟合,即使使用模型具有很高的能力,可以帮助识别的后续优化权重。生成模型学习期间训练有助于防止过度拟合,即使使用模型和很高的能力,可以帮助识别的后续优化权重。尽管实证结果最终使用的技术是最好的原因,我们试图找到并应用更深层次的模型,可能学习的丰富。

在本文中,我们使用产生的DBN重量无监督训练的算法来初始化权重的深,除此之外还有其他标准,例如简单地使用前馈神经网络和反向传播算法[61]来调整网络权值对监管标准。随机梯度下降法的预训练是我们选择的训练神经网络的方法,因为它通常优于随机初始化的更深层次的体系结构。生成模型学习期间训练有助于防止过度拟合, 即使使用模型有很高的能力,可以帮助识别的后续优化权重。尽管实证结果最终使用的技术是最好的原因,我们甚至试图找到并应用更深层次的模型,可能的丰富学习,分布式表示的输入也是基于由其他研究人员在交流学习时的正式和非正式参数。因此,使用更深层次模型与多层神经网络的主要原因是他们能够更加有效的处理一些问题像GMMs一样。此外,GMMs通常有大量独立的高斯函数参数化方法用于语音识别,这可能导致那些高斯函数被高度本地化和这样的模型只执行当地的泛化。实际上,这样的GMM将输入空间由一个高斯建模划分区域。[64]证明了常数叶决策树需要的数量,培训情况下,指数在输入维数快速学习某些不同的功能。如前所述,[65]也证明了一个类似“快速变函数”一类大型本地内核包括监督的机器学习算法和许多半监督算法和无监督流形学习算法。我们担心的是解决困难的如计算机视觉和知觉任务电脑试镜成分的结构领域,的函数也许只有一个相对小数量的因素导致这些变化非常迅速。

我们将讨论如何执行深度信念网络训练。我们只要已经训练一个元数据,我们就可以使用RBM来处理数据。我们使用这些隐藏的激活概率作为新的训练数据元。因此每组元权重可以用来提取前一层的输出的特性。一旦我们停止训练遏制,我们所有的权重的初始值的隐藏层神经网络的隐藏层等于我们训练RBMS的数量。随着事前培训完成,我们添加一个随机初始化softmax输出层,并使用反向传播调整网络中所有的重量有区别地。因为只有监督微调阶段需要带安全标签的数据时,我们才可以在训练的期间利用大量的未标记数据,

隐马尔可夫模型的掌握LVSR领域至少二十年。HMM是一个生成模型的可观测的声学特性被认为是产生一个隐藏的马尔科夫过程状态之间的转换。在传统的HMM用于ASR,观察概率的建模使用高GMMs。这些GMM-HMMs通常的训练最大限度地产生所观察到的特征的可能性。最近,区分性训练策略如MMI [ 5 ],MCE [ 6 ]、[ 7 ]、MPE [ 8 ]、[ 9 ],并大幅度–技术[ 10 ] [ 17 ]被提出了。这些区别的技术的潜力,然而,是受限制的GMM排放分布模型的局限性。最近提出的–CRF [ 18 ] [ 20 ],HCRF [ 21 ],[ 22 ]模型使用对数线性模型来代替GMM-HMMs。这些模型通常使用手动设计的特点,如果只有第一和第二阶统计量作为特征已被证明是相当于他们的造型能力的GMM-HMM [ 20 ]。

图1说明了我们提出的CD-DNNHMMs架构。混合的方法的基础是使用一个强制对齐,以获得一个帧级标签用于训练的人工神经网络。CD-DNN-HMM架构和ANN-HMM混合结构关键的区别是我们使用senones模型作为DNN输出单位直接。使用senones作为建模单元在[ 22 ]被提出,森农内斯的后验概率进行深层结构的条件随机域估计(CRF)只有一个音频帧作为后验概率估计的输入。这种变化有2个主要优点。首先,我们可以实现一个CD-DNN-HMM系统只需要最低限度的修改现有CD-GMM-HMM系统,正如II-B节中我们将展示。第二,任何改进建模纳入CD-GMM-HMM基线系统的单位,如填字三音素模型,将可以通过使用共享培训款标签。如果可以更好地训练预测senones,那么CD-DNN-HMMs可以达到比tri-phone GMM-HMMs更好的识别精度。更准确地说,在我们的CD-DNN-HMMs,解码词序列决定于

CD-DNN-HMMs可以使用嵌入式培训维特比算法。主要步骤在算法中进行了总结,利用三音素系结构和CD-GMM-HMM系统。值得注意的说逻辑三音素HMM模型是有效等价进行聚类。每个物理子有几个(通常是3)

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[153302],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图