对于语音识别的卷积神经网络外文翻译资料

2022-09-27 11:30:59

英语原文共 13 页，剩余内容已隐藏，支付完成后下载完整资料

IEEE/ACM 对于音频、语音、语言的加工处理第22卷第10期 2014年10月

对于语音识别的卷积神经网络

Ossama Abdel-Hamid, Abdel-rahman Mohamed, Hui Jiang, Li Deng, Gerald Penn, and Dong Yu

摘要——近期，混合深层神经网络（DNN）- 隐马尔可夫模型（HMM）比传统的高斯混合模型（GMM）-HMM更好地展现了显著提高语音识别的性能。前者的性能提高部分归因于DNN对于处理模型语音性能间的复杂相关性的能力。在此篇文章中，我们说明了错误率的进一步减少可以通过卷积神经网络（CNNs）实现。我们首先会对基本CNN做一个简明描述，并且解释它如何被运用到语音识别中。然后我们进一步提出一个限权共享（LWS）方案，去更好的模拟语音特性。这种特别的结构，比如说本地连通性，权重共享，CNNs的池化某种程度展现了其对频率轴上语音特性微小变化的不变性。实验结果显示，在TIMIT音素识别和语音搜索大词汇量语音识别的任务们中，对比DNNs，CNNs降低了6%-10%的错误率。

I. 介绍

自动语音识别（ASR）的目的是将人类的言语转成口语单词。这是一项非常具有挑战性的任务，因为由于各种各样的说话者的特质属性，不同的讲演风格，不确定的环境噪声，等等等等，人类的语音信号是高度多变的。此外，ASR需要将可变长度的语音信号映射到可变长度的序列单词或者音标。众所周知，隐马尔可夫模型（HMMs）在解决可变长度序列和应用一系列的状态（每个状态都和一个特定概率分布的观测所密切相关）去模拟语音信号的暂时行为这两方面一直做得很成功。直到最近，高斯混合模型（GMMs）之前一直被视为最有力的估测与HMM状态们所密切相关的语音信号的概率分布的模型。同时，在流行的期望最大化（EM）算法的基础上，GMM-HMMs的生产的训练方式一直都为ASR所发展的很好。再者，过多的有识别力的训练方式，如在[1], [2], [3]中所提到的，被通常用来进一步改善HMMs以出产最先进的ASR系统。

最近，使用人工神经网络（ANNs）而不是GMMs的HMM模型见证了一个重要的研究兴趣[4], [5], [6], [7], [8], [9]的再起，最初是基于TIMIT的针对MFCC特征[10]，[11]，[12]单音素HMMs音素识别任务，然后在那之后基于一些大型的三音素HMM模型[6]，[7]，[13]，[14]，[15]，[16]的词汇ASR任务；这一系列的研究综述可见于[17]。回顾过去，这些尝试的性能提升一直都归功于它们对于“深入”的经验获取的运用，它是一个针对于神经网络中隐藏层数和抽象性的参考。这些选择性的基于ANN的模型做出过很多其他的设计决策，很有可能会导致一些显著地改善。

即使没有深入的经验获取，ANNs也是强有力且有识别力的模型，在没有任何数据结构的假定前提下，它可以直接代表特征空间中各种等级的表层。而对比之下，GMMs假设每个数据样本是由一个隐藏专家（例如，高斯）所产生的，并且那先高斯成分的加权用来模拟整个特征空间。ANNs在20余年里一直被用于语音识别。早期的尝试是针对静态的和有限的语音输入，就是一个固定大小的缓冲区被用来持有足够多的信息，在一个独立的语音识别方案[18]，[19]中去归类文字。在TANDEM方式[20]，[21]和所谓的瓶颈特征方式[22]，[23]，[24]中，它们被作为特征提取器，用于连续语音识别，也被作为非线性预测体，去帮助所识别的语音单元[25]，[26]。然而，对于连续语音识别，它们当时第一个成功的应用几乎是完全相似于现在的GMMs。例如，在给定了固定数目的特征线框[27]下，作为HMM来源的后验概率。

那么近期的ANN-HMM混合形式是如何与早期方法产生不同的呢？它们其实只是更大规模。在过去的二十年，硬件编程方面的发展为了基于ANN的途径发展扮演了很重要的角色，为声学建模带来发展，因为对长时间的语音数据而言，运用大量隐藏单元训练人工神经网络是直到最近才可行的。最近的对于ANN-HMM混合方式的潮流是因为运用了有限制的RBMs才开始新起的，这种RBMs可以将随后的环境影响纳入在内。比较而言，获取通过最小化对比散度的研究进展使我们能够将经验与RBMs所接近。混合型ANN-HMMs现在也经常直接运用倒谱参数频谱系数的日志，而不用解相关离散余弦变换[29]，[30]。所有这些音素都对性能有重大的影响。

这一历史解构是很重要的，因为本文的前提是：广泛的输入环境以及域合适的代表不变性都对近期基于神经网络的声学模型的成功起到重要作用，这个声学模型由ANN-HMM架构体现优势，可以在大体上胜过其他的ANN架构（至少对于一些任务存在潜在无限深度）。我们仅仅是在下面提出一个新的以卷积神经网络CNNs为基础的架构。CNNs在最古老的深层神经网络架构中，一直都很普及地被作为一种笔迹识别的方法。一个改进过的CNNs将会在后面被提出，称之为限权共享，然而这种在某种程度上削弱了它们自身深入无限制堆叠的能力。而且，我们会仔细说明CNNs对于ASR的应用，并且提供附加的实验（不同的CNN结构会怎样影响最终的ASR性能（第五部分））结果。

CNNs之前一直被应用于声学模拟，尤其通过[33]和[34]，为了去了解更多的稳定声学特性，例如电话，扬声器等级别的，卷积被应用在时间上重叠的声帧窗口。随着时间的推移权重共享实际上是一个过时的想法，可以追溯到1980s年代所谓的时滞神经网络（TDNNs）[35]，而对于用一个纯“神经网络”方法去建模实间的变化的话，TDNNs最初是作为HMMs的竞争者出现的。那种纯度可能会对前面所提及的一些认知科学家有些价值，但对于工程师而言就并非如此了。就时间变化的建模而言，HMMs在这个任务做的相对较好；卷积的方法，例如，那些用到具有去那种共享，本地连通性和池化（一些后面将会定义的属性）的神经网络，可能会具有过度的威力，而不是最开始[35]的积极的结果。在我们的模型上，我们会继续使用HMMs去解决时间轴上的变化，但是随后会在光谱图的频率轴上应用卷积。这些让已经获取的一些声学特性可以去允许频率上的小变动，比如有些可能是因为不同的声带长度而产生，使得DNNs在相似复杂性的TIMIT扬声器独立式音素识别的性能有显著提高，并且相关地语音出错率也会降低大约8.5%左右。对于标准DNNs而言，频率的经验不变代表性是众所周知地更加困难。

深层次的架构有相当大的价值。它们使得模型可以处理语音信号中的很多类型的变化。[29]和[36]的工作体现了，尽管假定的深层结构中存在洞悉力和提取性，也会致使更良好的模型普遍化和识别性能的提高，特别是在演讲者和环境的一些变动之下。但是，在DNNs的上隐藏层中所运用的特征表示确实对于输入中的小扰动展现出更强的不变性。我们一定会解答得另一个更关键的问题是：如果一个对于经验领域仔细第研究所产生的一些代表性知识可以被用到、于明确地解决上述问题中的变化，那么是否可能实现更好的性能。声道长度归一化（VTLN）是另一个很好的例子。VTLN基于一个可获取的扭曲因素将频率轴扭曲，去规范化演讲者的语音信号中的变化，当被应用到输入的性能时，有被证明[41]，[16]去进一步的提升DNN-HMM混合模型的性能。最近，这个深层结构采取复发性神经网络的形式，即使有非堆栈单层变量。这一举措已被报到出具有非常具有竞争力的错误率[42]。

我们首先回顾一下DNN和它在混合型DNN-HMM（部分 II）架构中的运用。部分III解释、阐明了CNN架构和它在语音识别上的运用。部分IV提出了限权共享以及包含了它的新的CNN结构。

II . 深层神经网络：一个回顾

一般而言，一个深层神经网络（DNN）是指一个具有不止一个隐藏层的正反馈神经网络。每一个隐藏层有若干单元（或者说是神经元），每个单元以较低层的所有输出作为输入，将它们和一个权向量相乘，将所有结果求和，并且将其通过一个非线性激活函数，例如以下所示的sigmoid或者tanh：

在这里，表示第i个单元在第l层的的输出，表示来自于从第l-1层第j个单元到底l层第i个单元的连接权重，表示加在第i个单元上的偏差，则是非线性激活方程。在本篇文章中，我们只考虑sigmoid方程，例如，。为了简易注释，我们可以将以上的计算用以下的向量形式表现出来：

在这里，上述的偏项已经通过向量被扩展了一个1的额外维度，因此被列权向量吸收。此外，每一层中所有神经元的激活都能被以下的矩阵形式表示：

在这里，表示第l层的权矩阵，随着第i列对于任意i的。

DNN的第一（最底）层是输入层，并且最顶层是输出层。对于一个多层的分类问题，每个类别的后验概率可以用一个输出的softmax层估计得出：

在这里，被计算为。

¹这个研究项目的一些部分在[37]，[38]，[39]中出现过。这项工作也有扩展到更重要更大型的词汇量语音识别任务，以及保留一些优势（[39]，[40]）的深层经验模型。

在混合型DNN-HMM模型中，DNN取代了GMMs去计算HMM的状态观测可能性。DNN的输出层计算状态的后验概率，这个概率被状态的用于估计观测可能性的先验所划分。在训练阶段，强制性对位是最先被执行去为了每一个框架产生一个参考状态标签。这些标签被用于减小熵函数的监督训练，熵函数：，所示为一个包括了所有的目标标签的培训框架i。叉目标函数旨在使得参考目标d和softmax DNN预测y之间的差异最小化。

对于每个权重矩阵的导数Q，，可以基于著名的误差反向传播算法被有效计算。　如果我们使用随机梯度下降算法来最小化目标函数，对每个训练样本或者迷你批次，每个权重矩阵的更新可以被计算为：

在这里，是获取速率和第l层的误差信号向量，是从sigmoid隐藏单元倒向计算的：

在这里，表示两个同样大小的矩阵或向量的元素智能的相乘。

因为DNNs的模型复杂型的增加，一个前训练算法往往是需要的，去初始化所有的权重矩阵，在上述的反向传播算法之前，特别是当训练数据的数量是有限的而且当没有DNN权重（由[43]可见更多的细节讨论）约束的时候。一个普遍的前训练DNNs的方法运用了局限型波兹曼模型作为一个积木式。RBM是一个有生产力的模拟数据的概率分布的模型。一个RBM有一组隐藏单元，它们被用于计算一个更优良的输入数据的特征表示。在获取后，所有的RBM权重可以被用作于一个DNN层的优良初始值。从底层开始，权重一次在一层里所获取。用获取的权重计算得出的隐藏激活被送作另一个RBM的输入，可以被用作初始化另一顶层的初始化。对比差异算法通常是被用在获取RBM权重，由[13]可见更多细节。

III . 卷积神经网络和它们在ASR上的运用

卷积神经网络（CNN）可以被当做是标准神经网络的一种变量。并没有使用完全连接的隐藏层（在前面的部分有描述过），CNN引进了一个特殊的网络结构，包含了交替的所谓的卷积和池化层。

CNN的输入数据的组织

在运用CNN用作模式识别时，输入的数据需要被组织为一系列特征映射，然后别输入至CNN。这是一个借用于图像处理应用的术语，它直观地将输入组织成二维的数组，作为在x，y（水平和垂直方向上）坐标索引的像素值。对于彩色图像而言，RGB（红，绿，蓝）数值可以被作为三个二维的特征矩阵。CNNs对输入图像在训练和测试时间段运行一个小窗口，所以通过这个窗口所观测到的网络权重可以从输入信号的特征所获取，不管它们在输入中的绝对位置。权重共享，或者更确切地说我们的现状，全重共享指的是用相同的权重在窗口的每个定位的决定。CNNs也经常被称作局部的，因为独立的个体单元是在小窗口中一个特别的定位基于图像局部区域的特征而被计算出的。

在这个部分，我们讨论如何将语音特征向量组织成适于CNN处理的特征矩阵。为我们的目的所讨论到的输入图像可以大致被作为频谱图，通过红，绿，蓝中的随机噪声、delta;和delta;-delta;特性（例如，第一第二的时间衍生物），尽管后面将会描述到，有不只一种的如何准确捆绑这些特征矩阵的替代。

符合一个比喻说法，我们需要使用保存两轴位置的频率和时间的输入值。时间从呈现局部性的立场没有什么直接的问题。像其他的基于语音的DNNs，一个窗口的CNN的输入包含广泛的上下环境（9-15帧）。至于频率，MFCCs的传统的使用确实呈现一个较为严重的问题，因为离散余弦变换将光谱能量映射到一个新的可能不会保留局部性的基准。在本篇文章中，我们会运用由反频率频谱系数所直接计算出的记录-能量，将其表示为MFSC特征。这些会被用在表征每个语音帧中，与它们的delta;和delta;-delta;一起，以去描述在每个不同频带里的声学能量分布。

图1.两种不同的用来组织CNN语音输入功能的方式。上述例子假设了40 MFSC的特征，附带了第一与第二衍生物和每个具有有15帧的语音帧上下文窗口

图2.一个包含连续的一对卷积叠层和一个池化叠层的CNN“层”的图解，从输入层或者池化叠层到一个卷积叠层的映射是基于例子（9），并且从一个卷积叠层到池化叠层的映射是基于例子（10）的

存在几种不同的替代品去将这些MFSC特征组织成CNN的矩阵。首先，如图1的（b

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[150418]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码