远程语音增强中的非线性失真补偿方法研究与仿真分析文献综述

2020-05-02 17:11:27

1．目的及意义

1.1课题背景及意义

通过语音来传递信息进行交流是人类最自然，直接，有效的方式。但是由于环境的复杂度，现实生活中的语音总是不可避免的参杂各种干扰和噪声，影响人们对语音内容的理解与判断。特别是在室外、公共场合等地方，由于空间大，距离远，语音的传播减弱，再加上周围各种噪声的干扰，使得音频设备采集到的语音比较微弱，被噪声污染的比较严重。目前的安防系统中，视频监控等基于图像的监控技术已经得到了成熟的发展与应用，但是只有图像信息而缺少语音信息，一定程度上限制了对视频内容的理解与判断。对感兴趣目标的声音进行定位与识别，未来基于声音信息的监控技术将是一个很好的发展方向。目前经过麦克风阵列采集到了声音信号，通过波束形成变成单通道信号，语音信号虽然得到了增强，但是人耳听起来却很别扭，信号有了一定的失真，语音可懂度较低。如果能同时获得图像与可懂度较高的声音信息，这对监控系统技术来说将是很大的进步，能获得更加全面和详细的信息，做出更加准确的识别与判断，对安防工作具有重要意义。

1.2国内外研究现状

目前国内外关于语音增强的研究主要有三种方法：（1）在系统前端处理，提高输入信号的信噪比；（2）寻找稳健的抗噪声的语音特征参数；（3）基于模型参数的适应化的噪声补偿算法。这些算法通常只考虑到噪声环境是平稳的，在低信噪比以及非平稳环境中的效果并不是很理想。虽然能在一定程度上实现对于语音的增强，但是会造成信号的失真。

因而为了获得质量更好，可懂度更高的语音，提出了很多对语音增强中失真补偿方法的研究方法。大致分为两类，一种是寻找稳健的语音特征参数，通过归一化的方法来补偿增强过程产生的失真，诸如高通倒谱(RASTA)或者倒谱均值化技术(CMN)，但只能有效的解决线性卷积信道失真，对CMN进行改进又产生了MVN，能对由加性噪声引起的失真有更好的效果；另一种是声学模型参数的自适应技术，常用的有基于模型的最大后验自适应算法(MAP),和基于特征的有约束的最大似然线性回归算法(CMLLR)。虽然自适应算法比特征归一化算法会有更好的补偿效果，但是自适应算法对计算复杂度要求较高，没有特征归一化算法简单方便。

1.3设计目的

录音过程中音频设备的过度放大的麦克风前置放大器，会造成一种非线性模拟失真(NAD)；低比特率的压缩处理或者不适当的谱降噪处理会造成一种非自然的频谱稀疏现象，这种失真称之为频谱掩蔽失真(SMD)。特征归一化方法和信道/说话人自适应方法是两种较好的失真补偿方法，基于直方图均衡的特征归一化技术对NAD有一定的补偿效果，有约束的最大似然线性回归的自适应特征调整方法适用于对NAD和SMD进行补偿。将基于直方图均衡(HEQ)的特征归一化技术和有约束的最大似然线性回归(CMLLR)的自适应特征调整方法结合应用于语音增强，来补偿增强过程中造成的非线性失真，验证是否能获得有效的补偿效果，获得质量更佳的语音，实现更高的语音可懂度，使得人耳能对语音内容有更好的辨别效果，也能为后续的语音识别以及其它的语音处理奠定良好的基础。

{title}

2. 研究的基本内容与方案

{title}

2.1研究内容

①　进行直方图均衡等特征归一化方法在语音非线性失真中的研究；

②　开展有约束的最大似然线性回归的自适应特征调整方法在语音非线性失真中的研究；

③　利用实验数据验证远程语音增强中非线性失真补偿方法的有效性。

2.2研究目标

① 实现直方图均衡(HEQ)等特征归一技术的算法；

② 实现有约束的最大似然线性回归(CMLLR)的自适应特征调整方法的算法；

③ 实现直方图均衡和有约束的最大似然线性回归的自适应特征调整方法组合起来对失真语音的补偿处理；

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码