用于多通道语音识别的深波束形成网络外文翻译资料

2022-08-22 15:18:26

英语原文共 5 页，剩余内容已隐藏，支付完成后下载完整资料

用于多通道语音识别的深波束形成网络

熊晓，渡边真嗣，埃尔多安，梁璐

约翰·赫尔希，Michael L.Seltzer，陈国国，张宇，Michael Mandel，董宇

新加坡南洋理工大学，土耳其萨班奇大学，英国爱丁堡大学，美国微软研究院，

美国约翰霍普金斯大学，麻省理工学院，美国布鲁克林学院，纽约市立大学，美国

摘要

尽管深度神经网络在语音识别方面取得了重大进展，但在某些情况下仍存在性能低下的问题。在这项工作中，我们的重点是远场语音识别，这仍然是一个挑战，因为高水平的噪音和混响捕获的语音信号。我们建议将声处理的各个阶段(包括波束形成、特征提取和声学建模)表示为一个统一的计算网络的三个组成部分。首先利用传声器信道的特性，通过网络对频率域波束形成器的参数进行估计。然后将这些滤波系数应用于阵列信号，形成增强信号。然后从该信号中提取常规特征，并将其传递给第二个网络进行声学建模进行分类。利用具有共同交叉熵目标函数的反向传播方法，对波束形成网络和声学建模网络的参数进行联合训练。在AMI会议语料库上的实验中，我们观察到在两个网络联合训练之前，对每个具有网络特定目标函数的子网络进行预训练的改进。该方法得到了一个3。与传统的独立处理阶段的管道相比，绝对字错误率降低了2%。

索引术语-麦克风阵列，到达方向，滤波和和波束形成，语音识别，深度神经网络。

介绍

近年来，由于三方面的原因，ASR的性能得到了显著的提高:1)深度神经网络(deep neural networks, DNN)和递归神经网络(neural networks, RNN)等高表达性声学模型的使用，如长短时记忆(LSTM)[2]，能够处理语音数据中的巨大变化，并直接针对ASR任务进行优化;2)使用大量的训练数据，覆盖大量的语音数据变化;3)强大的gpu的使用，使得大数据大模型的训练成为可能。最先进的ASR技术取得了有前途的识别精度的语音转录和基准的任务,然而,远场语音识别仍然是一个开放的挑战由于低信号噪声比(信噪比),大量的混响,言论和频繁的重叠等[3、4、5、6]。

波束形成是提高多通道远场场景下ASR系统鲁棒性不可缺少的前端处理。([7,8,9])，以及最近的远程talk ASR基准，如AMI会议室抄写、编钟和混响挑战，也显示了波束形成在这种情况下的重要性[3,4,10]。虽然目前的波束形成技术能够改善远场ASR的性能，但由于种种原因，麦克风阵列处理的潜力尚未充分发挥。首先，目前主流的波束形成技术是为了优化信噪比[11]或声似然[12]等信号级目标函数，而不是直接最大化语音识别精度。其次，目前的技术通常没有利用大量的麦克风阵列信号，这些信号可以很容易地从日常通信或仿真中收集到。

针对传统波束形成方法的局限性，提出了一种基于学习的深波束形成网络，利用神经网络预测频域波束形成器的复值参数。在多通道输入的情况下，波束形成网络对阵列信号的多通道短时傅里叶变换(STFT)进行滤波，产生增强信号。与使用卷积神经网络(CNN)[13]的时域方法相比，该网络具有较低的计算复杂度。我们使用来自给定阵列几何形状的模拟多通道数据训练网络，使用所有可能的到达方向(DOA)角，并测试其在AMI会议语料库[3]上的泛化性能。将波束形成网络与声学模型神经网络相连接，形成以波形为输入，产生senone后验信号的综合网络。由于成本函数的梯度可以从声学模型网络反向传播到波束形成网络，因此可以利用大量的多通道训练数据对波束形成过程进行优化。

波束形成网络
1. 系统概述

使用神经网络处理多通道输入可能有很多方法。例如，一种直接的方法是将阵列信号馈送给一个大网络，让它预测senone的后验[14,15]。然而，这样的网络过于灵活，无法训练参数。相反，我们的方法遵循了成功的传统架构，使用波束形成和ASR管道，并设计了一个计算网络，用一个深度网络框架来重新制定架构，其中部分计算节点(波束形成和声学建模)可以从训练数据中学习。

本文采用的网络结构如图所示。1.利用广义互相关[16]理论，利用神经网络对传声器间的波束形成权值进行了预测。图1节点波束形成和声学模型训练的网络结构。红色的块是从数据中训练出来的，而黑色的块是确定的。平均汇聚意味着对一个话语进行平均波束形成权重。

GCC编码双麦克风之间的时延信息，是确定波束形成器转向矢量的关键。预测的波束形成权值在一个话语(平均池)上取平均值，然后用于过滤输入信号的多通道STFT系数，以生成单通道STFT系数。然后采用常规的特征提取步骤，包括计算波束形成的复杂谱的功率谱;2)梅尔过滤;3)对数动态范围压缩;4)计算动态特征，如delta和加速度;5)可选话语水平均值归一化;6)可选将11帧连续的特征串接在一起，以整合上下文信息。特征提取管道的输出一如既往地用于声学模型训练。

传统的波束形成权值估计方法也可以从GCC中获得，而基于神经网络的波束形成权值预测具有重要的优势。现在可以针对ASR任务优化波束形成权值的预测，因为梯度可以从声学模型流回波束形成网络。在下一节中，我们将详细描述波束形成网络。

2.2.Per-frequency波束形成

令z_t,f,misin;C为t坐标系下信道m的频率bin f的复值STFT。滤波相加波束形成器产生一个复杂的线性组合所有通道的输入STFTs {z | m = 1···M} (M:麦克风的数量)作为增强的信号rcirc;_t,f,i.e.,其中w_f,misin;C为过滤系数，在我们提出的框架中，由DNN估计,w_f,m 是一个独立的坐标系，这里假设在t = 1，hellip;hellip;，T时，房间的脉冲响应和说话人的位置是固定的。这通常是一个合理的假设，但自适应滤波和和波束形成器(w_f,m→w_t,f,m)可能对话语过程中房间脉冲响应和说话人位置的变化具有很强的鲁棒性。在获得波束形成信号在STFT的领域后,我们提取对ASR的典型特征,比如log Mel filterbanks。

(1)

2.3.波束形成网络的输入

波束形成网络的目标是根据混响信号和噪声多通道输入信号预测可靠的波束形成权值。f,m 为了实现这一点，它需要有输入通道之间的时间延迟信息，也就是频域上的相位差信息。虽然这些信息包含在原始信号中，但最好能以一种易于波束形成网络使用的方式来表示它。

对时延信息进行编码的表示有几种。在[17]工作的激励下，我们选择使用GCC。在[17]中，利用前馈神经网络对来自GCC的单个源的DOA进行预测。据[17]报道，当网络经过大量的模拟混响和噪声数据训练后，其在真实会议室场景下的DOA估计性能优于传统的DOA估计方法。波束形成权值的预测与DOA的预测密切相关。例如，延迟和和波束形成器(DSB)的权值完全由阵列几何和DOA决定。如果GCC中的信息允许网络可靠地预测DOA，那么它也足以可靠地预测波束形成权值。然而，对于波束形成网络的输入特性可能有其他的选择，例如频率箱的空间协方差矩阵。空间协方差矩阵不仅包含时间延迟信息，还包含语音能量信息，从而使波束形成网络能够感知正在处理的电话上下文。但是，我们将在这项工作中重点关注使用GCC。

GCC特性的维数为588，计算如下。我们这里考虑的阵列是一个圆形阵列，有8个麦克风，直径为20cm，即AMI文集[3]中使用的数组。对于每一个0。在2s窗口，所有28个麦克风对之间的GCC值都是使用GCC- phat算法[16]计算的。28两个窗口之间的重叠是0.1s。对于每个麦克风对，只保留GCC值的中心21个元素，其中包含 /- 10个信号样本的延迟信息，因为其余元素对这里的任务没有用处。这是因为阵列中任意两个麦克风之间的最大距离为20cm，小于10个采样延迟，采样率为16khz，声速为340m/s (0.2m/340m/s*16000/s=9.41个样本)。由于最大可能的延迟小于10个样本，因此不需要保留编码超过10个样本的延迟信息的GCC值。因此，作为波束形成网络特征的GCC值总数为28times;21 = 588。有关GCC特征提取的更多细节，以及各种DOA角和环境条件下GCC特征的示例，请参考[17]。

2.4.波束形成网络的输出

对于每个输入的GCC特征向量，波束形成网络对所有的频率箱和信道都预先确定了一组波束形成权值。待预测的实值权向量为一个尺寸为4,112并且计算如下。我们使用的FFT长度为512，因此有257个频率箱覆盖0Hz到8000Hz。对于每个频率箱，有8个复杂的权重，每个麦克风一个。由于传统的神经网络不能直接处理复杂值，因此每个复杂权值的实部和虚部是独立预测的。因此，每个GCC向量需要预测的实值权值为257times;8times;2 = 4112。为了使估计更可靠，我们对一个话语的波束形成权值进行平均，这个操作称为平均汇聚。如前所述，也可以使用时变波束形成权值来跟踪源方向和环境随时间的变化。这可以通过简单地不使用平均池或平滑只在相邻窗口的波束形成权值来实现。然而，本文的所有实验都使用了均值池。

2.5.波束形成和声学模型网络的结构

波束形成网络可以是前馈DNN，也可以是LSTM这样的RNN。在本研究中，我们使用2个隐层的前馈DNN，每个隐层有1024个s形的隐节点。如前所述，网络的输入和输出维度分别为588和4112。

使用了两种类型的声学模型网络。对于波束形成和声学模型网络的联合交叉熵(CE)训练，我们使用前馈DNN作为声学模型，它包含6个隐层，每个隐层有2048个s形的隐节点。输入和输出维度分别为1,320和3,968。为了获得更好的ASR性能，我们还利用波束形成网络处理的特征训练了一个基于lstm的声学模型。使用前馈DNN作为声学模型的原因主要是由于我们的实现，而不是因为我们提出的波束形成网络的任何限制。未来我们将研究LSTMs在波束形成和声学模型网络中的应用。

2.6.训练波束形成和声学模型网络

网络如图1所示。除了确定性的处理步骤外还包含许多隐含层。声模型和波束形成网络中梯度的动态范围可能有很大的不同，它们的联合训练可能很慢，而且容易陷入局部极小值。在实践中，我们先对这两个网络进行顺序训练，然后再进行联合训练，具体步骤如下:

1.通过最小化预测和最佳DSB权值之间的均方误差(MSE)，从模拟数据中训练波束形成网络。

2.从模拟数据中训练波束形成网络，通过最小化预测的和干净的对数幅度谱之间的MSE。

3.利用第二步中波束形成网络的特征，利用CE准则从ASR训练数据中训练声学模型网络。

4.利用CE准则从ASR训练数据中联合训练波束形成网络和声学模型网络。

在第一步中，利用模拟数据对波束形成网络进行训练，已知源DOA的地面真值和最佳DSB权值。该波束形成网络可以被训练成近似DSB的行为。此训练步骤可视为波束形成网络的初始化或预训练。在第二步中，对波束形成网络进行训练，它们在预测干净幅度谱方面是最优的，这更接近于语音识别任务。第三步，利用波束形成特征对声模型网络进行训练。在最后一步中，以较大的学习速率对两个网络进行联合训练，使网络跳出之前步骤所导致的局部极小值，找到更好的权值集合。

图2.预测波束形成权值和平均汇聚步的说明。

实验

3.1.设置

我们通过将WSJ- CAM0[18]语料库中的7861个干净的训练话语与用图像方法[19]模拟的房间脉冲响应(RIRs)进行卷积，生成了90小时的模拟混响和噪声训练数据。T60混响时间从0.1s到1s开始随机采样。在从0dB到30dB随机采样的信噪比下，将来自混响挑战语料库[5]的附加噪声添加到训练数据中。

声学模型从AMI语料库[3]多个远程麦克风(MDM)场景中训练。训练集数据量为75小时，评估集数据量约为8小时，使用从75小时训练数据的单词标签训练出来的三字母语言模型进行解码。

在所有波束形成(BF)实验中，使用BF网络以波形或滤波器组特征格式生成增强语音，从零开始训练声学模型。

3.2.预测波束形成的权值

图2给出了一个用BF网络预测语音波束形成权值的例子。在图的右边是4,112维的权重向量，每个0.2秒长的话语窗口。可以看出，预测的权值在大多数情况下是平滑的。不连续可能来自非语音窗口。上图显示了平均波束形成权值被重塑为一个257times;16的矩阵。左边的8列显示了8个通道权值的实部，而右边的则显示了8个通道权值的实部而8列表示虚部。我们可以在权矩阵中观察到稳定的模式。

表1.在AMI会议抄写任务中使用波束形成网络获得WER(%)“CMNspk”和“CMNutt”分别代表说话者和话语的均值规格化。

3.3.ASR的结果

波束形成网络的WER性能如表1所示。DNN系统使用Kaldi语音识别工具包[20]构建，LSTM模型使用CNTK[21]进行训练。为了进行比较，还展示了在BeamformIt工具包[22]中实现的单个头戴式麦克风(IHM)、单个远程麦克风(SDM)和传统DSB波束形成的结果。这里使用DSB作为基线(第3行)。它适用于没有语音活动探测器的整个会议。DSB将答案从53减少。SDM1的8%至47。9%通过使用8个频道。这一结果表明了波束形成技术在改善远场ASR性能方面的有效性。

第二节只训练了第一步的BF网络。6(第4行)获得与DSB相当的结果。这是合理的，因为在训练的第一步，BF网络被训练来近似DSB。值得注意的是，BF网络独立地应用于每个片段(由AMI语料库定义，平均几秒长)，而DSB应用于整个音频文件，延迟每隔几百毫秒更新一次。所以这两种方法有一点小的不同。

如果将BF网络训练到第二步(第5行)，WER减少到45。当使用DNN声学模型时。与训练步骤1

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[239856]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码