基于QT的语音命令识别系统的设计与实现开题报告

 2020-02-18 06:02

1. 研究目的与意义(文献综述)

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。很多专家都认为语音识别技术是二十一世纪信息技术领域最重要的科技发展技术之一。

国外研究取得实质性进展,这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(lpc)技术和动态时间规整(dtw)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和dtw技术的特定人孤立词语音识别系统;同时提出了矢量量化(vq)和隐马尔可夫模型(hmm)理论。随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(carnegiemellonuniversity)的sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。这一时期,语音识别研究进一步走向深入,其显著特征是hmm模型和人工神经元网络(ann)在语音识别中的成功应用。hmm模型的广泛应用应归功于atamp;tbell实验室rabiner等科学家的努力,他们把原本艰涩的hmm纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流,之后许多著名的大公司如ibm、苹果、atamp;t和ntt都对语音识别系统的实用化研究投以巨资。比较有代表性的系统有:ibm公司推出的viavoice和dragonsystem公司的naturallyspeaking,nuance公司的nuancevoiceplatform语音平台,microsoft的whisper,sun的voicetone等。

1986年3月中国高科技发展计划(863计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。从此中国的语音识别技术进入了一个前所未有的发展阶段。现在,国内有不少语音识别系统已研制成功。在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的thed-919特定人语音识别与理解实时系统。在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语——汉语语音翻译演示系统。在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。如今目前中国主流发展语音识别的公司有科大讯飞、百度语音、云知声等,其中科大讯飞一直处于国内语音识别霸主地位。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

本次设计的基本内容是设计并实现以qt平台为核心的语音命令识别系统,qt是一款跨平台的 c 图形用户界面应用程序框架,具有优良的封装机制和高程度的模块化结构,只需在一个平台下编写,就可实现在多个平台下编译运行,可移植性很高。因此,在系统中选用在qt环境下编写 hmm 语音识别算法,实现了一个小词汇量、孤立词的高稳定性和高可靠性的语音识别控制系统。

利用可视化界面显示语音识别界面,显示内容包括开始录音按钮、录音结束按钮、语音识别并反馈相关指令界面,要求设计的识别系统的识别范围控制在能识别向上、向下、向左、向右四个指令,并能在语调、口音或环境噪声发生细微变化时仍能作出指令反馈到界面窗口。

本次设计在编程环境上选择的是vc开发环境,要求掌握基于c 开发技术和qt可视化平台的使用方法。本系统采用的流程是:一、记录用户的语音文件到本地。二、将用户语音编码,一般采用的是使用flac或者speex进行编码,目前做的比较简单就是使用flac文件对wav音频文件进行编码。三、使用第三方语音识别api或者sdk进行分析识别语音。本设计使用的是先录入音频后获取,然后再调用google speech api,再将识别结果反馈到可视化窗口上。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1-3周:查阅文献资料,明确研究目标,完成开题报告;

第4-10周:进行系统研究研究设计及软件设计;

第11-12周:进行系统调试、完善系统功能;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]刘幺和,宋庭新.语音识别与控制技术. 科学出版社.2014.12.

[2]施菊,张庆,赵冰.qt开发平台的搭建与应用[j].guidanceamp;fuze,2012,33(2):56-58.

[3]郑纯军,贾宁. 基于qt quick的跨平台移动应用开发关键技术的研究[j].软件工程师,2015(4):33-35..

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。