语音识别方法研究与实现开题报告
2020-02-18 06:02
1. 研究目的与意义(文献综述)
在信息化高速发展的今天,伴随移动设备的普及,语音技术早已渗透到人们生活中的各行各业。自计算机发明以来,让机器赋予人的听觉特性,听懂人说什么,并做出相应的动作,一直是人们追求的目标。自动语音识别技术便是其中关键的一部分,它旨在通过对信号处理和模式识别技术的研究,使计算机正确理解人类的语言并将语音信息转化为可读的文字信息,以实现人机交互。语音识别其本质上是一种模式识别的过程,通过将未知语音的模式与已知语音的参考模式逐一进行比较,得出的最佳匹配模式则被作为最终的识别结果。
语音识别的研究工作可以追溯到20世纪50年代,其雏形是由贝尔实验室研究出来的audry系统,它是第一个能够识别十个英文数字的语音识别系统。随着计算机技术的发展,到20世纪60年代末,动态时间规整(dtw)技术和线性预测编码(lpc)技术的提出,使语音识别技术得到了实质性的突破,它使得语音信号可以等长进行处理,并解决了语音信号的特征提取问题。与此同时,矢量量化(vq)和隐马尔科夫模型(hmm)理论也被相继提出,为日后语音技术的进一步发展奠定了基础。在20世纪80年代末期,人们在实验室语音识别研究中,终于逾越了语音识别技术中大词汇量、连续语音和非特定人这三座大山,其代表为卡耐基梅隆大学的李开复实现的以高斯混合模型和隐马尔可夫模型(gmm-hmm)为核心框架的非特定人、大词汇量连续语音识别系统sphinx。在这一时期,语音识别的研究进一步走向深入,其显著特征是hmm模型和人工神经元网络(ann)在语音识别中的成功应用。
步入21世纪,基于深度神经网络(dnn)的语音识别技术走向舞台的中央,2006年“神经网络之父”hinton提出了使用受限的波尔兹曼机来实现对神经网络中每个节点的初始化过程。不同于之前gmm-hmm语音识别框架表达能力有限,无法处理较大规模数据的情况,深度学习框架具备有更强的表达与建模能力的多层非线性变换的深层结构,由于人类产生和处理语音信号就是一个极其复杂的过程,甚至该过程本身也具备多层次和深层次的处理结构,这样就使得基于深度学习的语音识别模型对复杂数据的挖掘和学习能力得到了空前的提升,使得语音识别技术不再局限于处理小规模或是单一性的数据。
2. 研究的基本内容与方案
2.1 基本内容
学习语音识别理论和matlab相关知识,了解语音识别的基本方法,掌握语音识别系统的基本原理和流程,介绍实现语音识别的基本步骤,建立识别基本单元的声学模型以及进行文法分析的语言模型,根据识别系统的类型,选择能够满足要求的一种或多种识别方法,采用语音分析方法分析出识别方法所要求的语音特征参数,按照一定的准则和测度与系统模型进行比较,通过判决得出识别结果。
3. 研究计划与安排
第1-3周 查阅文献;分析题目研究现状,学习基本理论;
第4周 阅读文献、撰写开题报告,英文文献翻译;
第5周 学习了解语音识别系统的分类和基本组成,确定实现方案;
4. 参考文献(12篇以上)
[1] 胡光锐.语音处理与识别[m]. 上海:上海科学技术文献出版社,1994.
[2] l.拉宾纳,阮平望.语音识别基本原理[m]. 北京:清华大学出版社, 1999.
[3] 赵立.语音信号处理[m].北京:机械工业出版社,2003.
最新文档
- 芳香族化合物对哺乳动物急性毒性的QSAR模型:老鼠口 服LD50的研究外文翻译资料
- 基于风险的建设项目的非均衡定价检测模 型外文翻译资料
- 关于酒类饮料包装价值感知的实证分析外文翻译资料
- 注塑模具工业设计指导外文翻译资料
- 氨基官能化咪唑基氨基酸离子液体的CO2的吸收特性外文翻译资料
- 扩充旁观者的视角:探索增强现实技术用以提升在线服务体验的战略可能性’外文翻译资料
- 使用香港本地骨料的实心混凝土板中剪力钉的抗剪性能研究外文翻译资料
- 批判区域主义的展望外文翻译资料
- 不同层间阴离子的MgAl层双氢氧化物的DFT研究:结构、阴离子交换、 主客体相互作用和基本位点外文翻译资料
- 新型分层SiC纳米线增强SiC /碳泡沫复合材料:轻巧,超. 薄和高效的微波吸收体外文翻译资料
- 聚对苯二甲酸乙酯的激光烧蚀外文翻译资料
- 封项招标中评分参数之间的数学关系外文翻译资料
- 化学气相沉积制备ZrC-SiC复合涂层及共沉积机理的研究外文翻译资料
- 流体饱和岩石中剪切带的强度:膨胀和流体流动之间竞 争的非线性效应外文翻译资料
- 新兴经济体可持续房地产营销与实践面临的挑战以尼日利亚为例外文翻译资料