MSP-MFCC：具有可穿戴式语音识别应用的混合信号处理架构的高效MFCC特征提取方法外文翻译资料

2022-08-08 11:57:08

英语原文共 11 页，剩余内容已隐藏，支付完成后下载完整资料

MSP-MFCC：具有可穿戴式语音识别应用的混合信号处理架构的高效MFCC特征提取方法

摘要特征提取是自动语音识别技术(ASR)压缩原始语音数据并强调特征的一项必要步骤，在这项技术之前，传统数字域的实现方法已经遇到了能量消耗和处理速度方面的瓶颈。因此，我们计划利用一个混合信号处理架构来有效地提取MFCC特征。我们设计在模拟域投入MSP-MFCC预处理语音信号，以极大地减少模数转换(ADC)损耗和降低后端计算的复杂程度。此外，MSP-MFCC算法通过改善处理流程消除了传统数字实现所需要的傅里叶变换。我们基于180nm的 CMOS混合信号技术制造了模拟部分，然后测试了芯片性能。测试结果显示MSP-MFCC的能量损耗为0.72 帧，处理速度达到了45.79 帧。MSP-MFCC实现了95%的能量节省和比高于最先进技术约6.4倍的速度提升。更进一步，通过使用MSP-MFCC提取出的特征，语音识别仿真的准确率达到98.2%，在目前同类产品中维持着领先的性能。该MFCC特征提取器将于集成超低功耗、随机唤醒的可穿戴语音识别应用领域中具有相当的竞争力。

关键词 混合信号处理体系，节能特征提取，梅尔频率倒谱系数(MFCC)，可穿戴语音识别应用。

I. 引言

语音交互已经成为人机交互的重要一支[1][2]，其中，自动语音识别技术(ASR)在感知语音信号时承担着重要的作用。在能量网络受限的可穿戴设备的情景设想中，节能的语音识别对于设备的工作和待机时间非常重要。但是，可随时唤醒且超低能耗的可穿戴语音识别于这些设备仍然是一项挑战。因此，节能、快速的ASR系统被广泛关注[3]-[7]。如图1(a)所示，现在的ASR系统是由特征提取和识别两模块组成的。在具体操作中，特征提取需要的能量最多[3][8][9]，甚至决定了端到端语音识别系统的识别效果[10]。另外，特征提取部分是需要识别和唤醒程序始终在线的，能耗较大。因此，我们在此项工作中聚焦于可穿戴语音识别系统的特征提取部分。

图1. (a)传统特征提取过程将因ADC和FFT而产生许多工作量，但如(b)所示MSP-MFCC将缓解此情况.

受人类听力机制的启发，MFCC特征被提出并因其高准确率成为该领域中最广泛应用的特征值[4]。但是，在ASR移动设备中，完整的MFCC特征提取处理将占用近32%到93%的系统总功耗[3]-[5]。因此，许多提高MFCC特征提取的效率的想法被不断提出。充分考虑到算法属性，Jo等[4]提出了一种基于FPGA的改善转频和优化位宽的节能浮点型MFCC提取体系。还提出了一些基于FPGA的低耗语音识别系统中关于MFCC提取效率的工作[11][12]。此外，在GPU[13]和DSP[14]上并行实现的MFCC特征提取显示出比CPU实现更高的效率。据报道，如果在定制的硬件上执行前端声学算法，能耗将大幅降低，并且电池寿命将大大延长[15]。因此，还有一些聚焦于数字专用集成电路(ASIC)[5][6]的实现，以获得更高的能效和更快的处理。

但是，所有此前的工作都是在模数转换(ADC)需消耗许多能量以处理大量麦克风冗余原始数据的数字信号域中实现的[3]-[8]。另外，传统数字信号处理中的必要快速傅里叶变换(FFT)占用了最多的处理时间[13]。一些工程[16]-[18]提出用模拟特征提取的方法取代A/D转换。但是，在他们的实验中，在模拟域内被提取的简单特征只适用于诸如语音检测的简单任务。这些简单特征还将导致在ASR应用中的低识别率。总之，ADC和FFT已经成为整个MFCC特征提取过程中能耗和处理速度方面的瓶颈。

为了在可穿戴的自动语音识别中获得更节能和快速的特征提取，在此提出一种新的提取MFCC特征值的混合信号处理架构(MSP-MFCC)。由图1(b)可知，我们坚持认为在声学特征提取时，移除不必要的频域变换操作将使其更加自然和快速。更进一步说，在无取样和量化的情况下，模拟域内的声学特征提取是无损且无取样噪声的。在本文中，将从架构，算法和芯片验证三方面对MSP-MFCC进行调研，改进和实现：

架构：提出的混合信号处理架构比现下的尖端技术拥有更高的效率和更快的速度。更进一步说，被传统方法忽略的ADC瓶颈问题将在此架构中得到研究和解决。
算法：传统MFCC处理流程被修改，提出的时域能量分布提取方法避免了耗时耗能的FFT操作。
芯片验证：这些技术包括为实现混合信号而设计的小面积、阶梯式高通滤波器和框架。我们还根据不同的实际应用，研究并改进模拟处理电路的性能和灵活性。我们制造并测试MSP-MFCC的模拟处理部分来评估算法的可行度。根据实验结果，MSP-MFCC以较尖端技术95%节能率和约6.4倍加速比的成绩达到了迄今为止最好的效果，同时获得了相当的识别率。

本文接下来的布局如下：在第2节，我们将介绍通用MFCC算法的基础原理和硬件制作的分析。第3节将进行MSP-MFCC的详细描述。第4节将展示MSP-MFCC的效果测试及其与传统架构的效果对比，还包括MSP-MFCC各必要元件的制作成果。而第5节的最后就是本文的总结。

II. MFCC算法介绍和硬件制作分析

A．传统MFCC提取方法

通用的MFCC提取操作如图2所示[19]，包括前端麦克风、模数转换器和后端特征提取。接下来的几节将详细讲述MFCC算法和传统的实现处理。人类听觉系统的工作机制就像一系列的滤波器，能够处理不同频率的声学信号。作为一种特征，MFCC也将具备这种属性，并且能够描述该信号在梅尔频率域的能量分布[20]。

图2. 传统MFCC特征提取过程[19].

前端和数据转换

传统上，由于在数字域处理，如果要将模拟语音信号转换为数字信号，需要一个取样频率至少16kHz且精度16位[3]-[7] [11]-[14]的数模转换器。在转换中，连续输入信号v(t)将被取样并量化为离散信号v[n]。

预加重和分帧模块

为了补偿因嘴唇粘连导致的高频阻尼，输入语音在量化后将再投入一个高频滤波器(HPF)进行预加重，以此实现高低频振幅的平衡。如图3所示，语音信号的频谱振幅在预加重后得到了有效平衡。然后通过半叠[4]的取帧操作，维持特征的统一性和每帧信号的流畅度。之后的所有操作都将以帧为单位进行。

图3. 语音“6”于预加重前(a)后(b)产生的频谱.

频域转换

为提取频谱图内的能量分布，时域信号将通过FFT变换为频域信号，同时信号谱的振幅也将利用平方处理(1)转换为能量谱。

(1)

梅尔滤波器和后处理

梅尔滤波器的频谱如图4所示。考虑到人耳对低频音段的敏感度远高于高频，梅尔滤波器的带宽将随频率增加而逐渐增加，从而可以在低频段提取到充分的能量信息。每个滤波器的截止频率可由专门转换普通频率至梅尔频率[21]的公式计算得到。在转换信号为MFCC特征后，还将进行包括对数乘法和离散余弦变换(DCT)的后处理操作。如下：

(2)

其中m=1,hellip;hellip;,M表示每帧MFCC的长度，X[k]表示第k个通带的输出能量值，C[m]表示输出特征值。

图4. 梅尔滤波器带宽逐渐增加的频谱图[19],[20].

B．硬件制作分析

诸如人类听力系统的节能特征提取过程并不需要一个语音取样和量化的模数转换器。显然，并不是所有被麦克风收集的原始语音信号都是很重要的，利用一个高取样率、高精度的模数转换器将冗余的原始语音不加选择地全部转换为数字信号是相当耗能的。更何况，模数转换器的过采样特性，即采样频率远高于最大输入频率的特性，将导致更多的能量消耗。

传统的方法中很少将注意力放在麦克风和ADC前端的能耗上，但是，一个高取样率、高精度的模数转换器不仅会引发大量能耗，还会导致许多冗余数据的产生[19]。图5(a)展示了当今最先进技术下[5][8][9]一套完整特征提取过程的各模块能耗对比，由此可见，ADC模块占用的能耗最大。不幸的是，随着处理的进步和CMOS尺寸的缩小，这种模数转换器将消耗更多的能量以达到相同的效果[22][23]，也就是说，ADC的这项瓶颈问题将变得越发严峻。

图5. (a)整个MFCC提取过程的能耗，包括麦克风[9],ADC[8]和MFCC后端处理[5];

(b)传统MFCC提取的后端处理中每个部分的处理时间.

另外，如图5(b)所示，在MFCC提取的后端处理过程中，计算量庞大的FFT所需时长几乎占据了总处理时长的73%。MFCC的物理意义是输入信号在不同频段的能量分布，对传统系统来说，这就意味着总需要FFT以完成时频域的转换，并且频谱振幅还要求有平方化的处理。因此，在传统的实现方法中，FFT虽耗时巨大，仍是必不可少的一环。也就是说，在传统的MFCC提取处理后端，FFT变换成为瓶颈。总的来讲，获得节能且快速的MFCC特征提取的关键就在于减少ADC损耗和规避FFT操作。

III. MSP-MFCC架构及其计算单元

A．算法

实际上，除了FFT，还可以直接利用一系列带通滤波器和平方器，在时域对输入信号进行滤波、整形和积分等操作实现能量分布的提取。传统信号处理往往因频域分析的便利性而无法省略FFT，但鉴于MFCC的通带总是固定的[4][20]，时域滤波器的配置在设计完成后不需要再分析和更改，因此，在时域通过滤波、整形和积分等操作提取能量分布是完全可行且同样便捷的。更何况，在时域处理输入信号与传统的数字化实现具有相同的结果，具体说明如下：

对于每个过滤框Fi，原信号xi(t)及其FFT结果Xi(w)满足帕塞瓦尔公式[24]：

(3)

图6. (a)原始信号，(b)能量分布，(c)MFCC频域提取结果(左)和时域积分(右).

其中，Ei表示Fi的能量，可见频域的积分为时域的2pi;倍，因此输入信号的能量分布可以省去频率转换的步骤，直接由时域的积分计算而得。如图6示例，我们分别在时频域提取语音“1”的能量分布，其结果是相同的。因DCT操作可以将常数变换为直流部分的系数，所以常数2pi;对MFCC结果并无影响。

B．架构

FFT的瓶颈已被时域的能量分布提取方式突破，那么为了解决ADC的瓶颈问题，我们提出了针对MFCC特征提取的混合信号处理架构。MSP-MFCC的具体处理流程图如图7所示，模拟后端处理包括梅尔滤波、整形和低通滤波等操作，该架构的原理解释如下：

预加重模块

经过低噪放大器后，预加重操作对于增强高频能量十分必要，一般采用高通滤波器实现，其频谱效果如图8(a)所示。由图8(b)可知，为了简化滤波操作，该阶梯式高通滤波器的增益需随着频率升高而增加，这项修改对识别率几乎没有影响，但极大地简化了频域的预加重操作。

模拟梅尔滤波器模块

根据传统的实现手段[20]，不同的频段通常均选取20个通带进行滤波，即此处需要20个带通滤波器。它们以5个为1组，且组内滤波器增益相等，诸如这样4组不同增益的滤波器组便可同时实现带通和阶梯式高通

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[258034]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码