语音识别方法研究与实现文献综述

2020-04-14 17:25:58

1．目的及意义

在信息化高速发展的今天，伴随移动设备的普及，语音技术早已渗透到人们生活中的各行各业。自计算机发明以来，让机器赋予人的听觉特性，听懂人说什么，并做出相应的动作，一直是人们追求的目标。自动语音识别技术便是其中关键的一部分，它旨在通过对信号处理和模式识别技术的研究，使计算机正确理解人类的语言并将语音信息转化为可读的文字信息，以实现人机交互。语音识别其本质上是一种模式识别的过程，通过将未知语音的模式与已知语音的参考模式逐一进行比较，得出的最佳匹配模式则被作为最终的识别结果。

语音识别的研究工作可以追溯到20世纪50年代，其雏形是由贝尔实验室研究出来的Audry系统，它是第一个能够识别十个英文数字的语音识别系统。随着计算机技术的发展，到20世纪60年代末，动态时间规整（DTW）技术和线性预测编码（LPC）技术的提出，使语音识别技术得到了实质性的突破，它使得语音信号可以等长进行处理，并解决了语音信号的特征提取问题。与此同时，矢量量化（VQ）和隐马尔科夫模型（HMM）理论也被相继提出，为日后语音技术的进一步发展奠定了基础。在20世纪80年代末期，人们在实验室语音识别研究中，终于逾越了语音识别技术中大词汇量、连续语音和非特定人这三座大山，其代表为卡耐基梅隆大学的李开复实现的以高斯混合模型和隐马尔可夫模型（GMM-HMM）为核心框架的非特定人、大词汇量连续语音识别系统Sphinx。在这一时期，语音识别的研究进一步走向深入，其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。

步入21世纪，基于深度神经网络（DNN）的语音识别技术走向舞台的中央，2006年“神经网络之父”Hinton提出了使用受限的波尔兹曼机来实现对神经网络中每个节点的初始化过程。不同于之前GMM-HMM语音识别框架表达能力有限，无法处理较大规模数据的情况，深度学习框架具备有更强的表达与建模能力的多层非线性变换的深层结构，由于人类产生和处理语音信号就是一个极其复杂的过程，甚至该过程本身也具备多层次和深层次的处理结构，这样就使得基于深度学习的语音识别模型对复杂数据的挖掘和学习能力得到了空前的提升，使得语音识别技术不再局限于处理小规模或是单一性的数据。

国内关于语音识别的研究起始于1958年，当时，在中国科学院声学所的研究下，实现了利用电子管电路可以识别10个元音。往后的十余年之间，一直属于技术的空白期，直至1973年，中国科学院声学所才开始研究基于计算机的语音识别，由于当时我国的国情所限，对语音识别的研究一直没有太大进展。

然而，在进入80年代以后，由于计算机的普及程度越来越高，加之各种数字信号处理技术的不断完善，我国在语音识别方面的研究获得了前所未有的机遇。1986年3月中国高科技发展计划（863计划）启动，语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下，中国开始了有组织的语音识别技术的研究，并决定了每隔两年召开一次语音识别的专题会议。从此我国语音识别技术进入了一个新的发展阶段。在2002年，中科院自动化所及其所属模式科技(Pattek)公司发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR，结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。自此以后，我国语音识别技术的研究水平已经基本上与国外同步，达到了国际先进水平。

最近几年，随着深度学习和人工智能的应用，加上大数据的使用和云计算的普及，各种基于深度神经网络的模型被相继提出，这不仅增加了语音识别系统的精确度，也使语音识别的效率得到了几何倍数的提高。现如今，基于语音识别技术的产品也已进入了商用化阶段，许多著名的互联网公司为语音识别技术的开发与研究投以巨资，这使得越来越多的语音技术产品进入了我们的日常生活中，包括微软的Cortana、苹果的Siri、亚马逊的Alexa、我国的讯飞语音输入法、叮咚智能音箱等都是其中的典型代表。
{title}

2. 研究的基本内容与方案

{title}

2.1 基本内容

学习语音识别理论和MATLAB相关知识，了解语音识别的基本方法，掌握语音识别系统的基本原理和流程，介绍实现语音识别的基本步骤，建立识别基本单元的声学模型以及进行文法分析的语言模型，根据识别系统的类型，选择能够满足要求的一种或多种识别方法，采用语音分析方法分析出识别方法所要求的语音特征参数，按照一定的准则和测度与系统模型进行比较，通过判决得出识别结果。

2.2 基本目标

本次毕业设计的研究目标在于如何使用MATLAB根据现有的几种经典的语音识别方法，基于模式匹配的DTW和VQ，基于概率模型的HMM，在WINDOWS上实现简单的，小词汇量的孤立词语音识别系统。大致分为两部分，首先通过模式匹配和统计模型分别实现语音识别，进行对比；然后通过得到的识别模型，针对特定的应用领域进行改进，或在该过程中使用更为先进的技术，同时指出系统的优化方向。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码