基于深度神经网络的语音编码技术研究开题报告

 2020-02-10 11:02
1.目的及意义(含国内外的研究现状分析)

目的和意义:

语言在人类的信息传输中有着举足轻重的地位,相对于其他表达形式而言,它更简便有效。语音压缩是一种为了提高通信网中的信息传输效率及实现语音的高效存储,还需要对编码后的数字语音进行压缩的方法。其研究对于提高频带利用率,即利用更少的频带资源来传输更多的信息量具有重大意义,在移动通信、多媒体通信以及存储数字语音数据方面有着广泛应用。

近年来,深度神经网络在机器学习和计算机视觉领域取得了重大突破,并且深度神经网络的快速发展在信号处理方面起到了不可忽视的作用,尤其是在语音信号处理方面为其打开了新篇章。以微软、搜狗为代表的各顶级科技公司在这方面也投入了大量的人力、物力,大多数研究重点集中在语音识别和语音增强上,而对于语音压缩的相关研究很少。深度学习在信号处理中显示的巨大优势表明其在语音处理,包括语音压缩方面有很大的潜能等待开发。

现代的压缩技术,如MP3、JPEG以及AMR-WB大多数都是手动设计的,基于深度神经网络的端对端矢量量化的语音编码技术除去了传统的特征工程的必要性,并且优化了宽带语音编码管道的所有步骤,包括压缩、量化、熵编码以及解压缩,所呈现的结果在一定的码率范围之内与AMR-WB旗鼓相当。

国内外的研究现状分析:

语音压缩技术作为语音处理中的关键步骤,已被广泛应用于通信领域中。压缩技术在确保能够正确接收输入语音的情况下提高频带利用率,充分利用频带资源,因此基于深度神经网络的端对端语音编码技术具有重要的理论价值和广阔的应用前景。XuYong等人(2013)开始使用深度神经网络(DNN)用于语音去噪,DingLiu(2014)尝试了一系列使用深度学习模型进行语音去噪的实验。目前,压缩语音的方法主要有使用隐马尔科夫模型的语音编码系统以及端对端矢量量化的方法。

隐马尔科夫模型的使用是基于语音识别和合成技术。在传输过程中,传输的信息将被分为片段,一个片段一个片段地传输,这样可以达到降低语音比特率,即压缩的效果。

您需要先支付 5元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,微信号:bysjorg 、QQ号:3236353895;