基于FPGA的语音识别到手势图像显示系统文献综述

2020-04-14 19:44:21

1．目的及意义
据世界卫生组织（WHO）统计，截至2011年世界患有听力障碍的人数达到3.6亿，而随着近年来智能手机的急速普及，以及对日常生活的渗入日益加深，人们对耳机的使用也日渐频繁，患上听力障碍的风险也越来越高。我国作为人口大国，约有1.5亿人患有听力障碍，60岁以上老年人患听力残疾总数超过2000万，是世界上听力障碍人数最多的国家。考虑到多数言语障碍的人能够通过哑语进行基本交流，哑语手势成为主要的交流方式，本课题意图提供一种语音到手势的转换方法，通过语音识别将手势图像显示出来，给语言无障碍者和有障碍者的交流之间提供便捷辅助。
1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研究成功了第一个计算机语音识别系统。大规模的语音识别研究是在进入了70年代以后，在小词汇量、孤立词的识别方面取得了实质性的进展。进入80年代以后，研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化，即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外，再次提出了将神经网络技术引入语音识别问题的技术思路。进入90年代以后，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化方面出现了很大的进展。 DARPA(Defense Advanced Research Projects Agency)是在70年代由美国国防部远景研究计划局资助的一项10年计划，其旨在支持语言理解系统的研究开发工作。到了80年代，美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划，其中包括噪声下的语音识别和会话（口语）识别系统，识别任务设定为“（1000单词）连续语音数据库管理”。到了90年代，这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分，识别任务设定为“航空旅行信息检索”。
我国的语音识别研究起始于1958年，由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制，我国的语音识别研究工作一直处于缓慢发展的阶段。进入80年代以后，随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展，国内许多单位具备了研究语音技术的基本条件。与此同时，国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点，发展迅速。就在这种形式下，国内许多单位纷纷投入到这项研究工作中去。 1986年3月我国高科技发展计划(863计划)启动，语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下，我国开始了有组织的语音识别技术的研究，并决定了每隔两年召开一次语音识别的专题会议。从此我国的语音识别技术进入了一个前所未有的发展阶段。目前，许多企业在语音识别技术上花重资金的研究，不止停留在原本算法的改进，在新产品上了真正实丢掉键盘，通过语音的命令来控制，尤其在汽车电子控制、消费电子控制、智能家居等方面得到广泛的应用，对未来发展有着更广阔的前景。
{title}

2. 研究的基本内容与方案

{title} 本设计目标为实现基于FPGA的语音到手势的转换系统。
首先进行孤立词的语音识别声学模型训练，根据《中国手语》录制孤立词所对应的手势图像，然后采用软硬件协同工作的方式，结合芯片的高速处理能力，完成孤立词语音识别到手势图像的转换设计。在此基础上，利用FPGA实现语音到手势的转换，将手势图像和训练好的孤立词声学模型存入FPGA的SDRAM中，将输入的孤立词语音信号与孤立词声学模型进行匹配，输出匹配度最优的结果，最终将识别出的孤立词对应的手势显示在屏幕上。具体地，利用Verilog HDL或者VHDL硬件描述语言来设计系统的基本逻辑单元，同时，采用基于HMM（隐马尔可夫模型）的孤立词语音识别原理进行训练，并保存声学模型，植入FPGA平台中，实现语音到手势转换系统。
3. 参考文献

[1] 陈乐乐. 聋儿手语与其认知发展研究述评[J]. 中国特殊教育, 2015, 3(3): 1-2.
[2]吴朝晖,杨莹春. 说话人识别模型和方法[M]. 北京: 清华大学出版社, 2011, 2: 5-30.
[3] WANG Hongfeng, ZHANG Hui, LI Qiang. System Design for Software Testing of Complex FPGA Embedded System[C]// Proc. China Conference of Embedded Instrument and System Technology, 2015:521-522.
[4] 陈芝牟. 基于 FPGA 语音识别系统设计与实现[D]. 成都: 电子科技大学, 2012.
[5]刘鹏, 刘思艳, 陈丽薇. 基于CYCLONE II系列可编程逻辑器件的FPGA最小系统设计[J]. 数字技术与应用, 2015, 6: 116.
[6]Kuon I, Rose J. Measuring the Gap Between FPGAs and ASICs[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2015, 26(2):21-30.
[7]罗雅琴, 吴小培, 吕钊, 等. 滑动窗累积量的递推估计算法及其在语音端点检测中的应用[J]. 声学学报, 2015, 40(5): 730-738.
[8] Nedevschi S, Patra R K, Brewer E A. Hardware speech recognition for user interfaces in low cost, low power devices[C]// Proc. 42nd IEEE .Design Automation Conference, 2005:684-689.
[9]Cucchiarini C, Strik H, Boves L. Quantitative assessment of second language learners’ fluency by means of automatic speech recognition technology[J]. Journal of the Acoustical Society of America, 2000, 107(2): 989-999.
[10] Nios II Software Developer’s Handbook [EB], http://www.altera.com/
[11] Burian P, Holota R. Fast image recognition based on n-tuple neural networks implemented in anFPGA[J]. Journal of Real-Time Image Processing, 2013, 11(1): 155-166.
[12] 冯星宇, 黄新, 颜学龙. 支持 AVALON 总线协议的 SPI 通信设计实现[J]. 国外电子测量技术,2013, 32(3):66-70.
[13] 许朋, 周立青, 刘宇航, 等. 基于 FPGA 的高性能浮点型 FFT 处理器设计[J]. 武汉大学学报:工学版, 2015, 48(1):120-124.
[14] 杨钏钏. 基于 FPGA 的非特定人孤立词语音识别系统设计与实现[D]. 西安: 西安电子科技大学,2014.[15] 刘晓峰, 张雪英, 贺元元. 基于切比雪夫核的 SVM 在语音识别中的应用[J]. 计算机工程与设计,2013, 34(5): 1783-1786.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码