登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 理工学类 > 自动化 > 正文

基于深度学习的手写英文识别毕业论文

 2021-11-18 10:11  

论文总字数:17921字

摘 要

计算机作为我们日常生活中的一个重要组成部分,已经起到了很多无可替代的作用。因为电子存储的方便性和安全性,越来越多的资料文件都采用了电子存储的方式,于是识别手写文字并转化为电子格式有了越来越多的应用领域,成为当今的研究热点。

本文结合了当今的热门领域人工智能中的一个重要分支——机器学习,在Harald Scheidl的基于TensorFlow的手写文字识别的基础上,改进算法以实现对中国高考英语作文的识别。本文采用了CNN网络来提取图像特征,并采用双向LSTM网络来存储记忆英文序列关系,对文本进行预测;并改进了MSER算法,使识别的文字区域更加精准以提高识别准确率;选择了CTC损失函数等各种算法优化,使模型收敛且训练时间短;最后对模型的识别结果进行了分析并提出了未来的改进方向。

本文的特色:对Harald Scheidl的手写文字系统进行改进,使其可以对具体的对象——高考英语作文进行识别。优化了对图片的预处理和文本区域定位,使模型能在训练时间较短的情况下,对高考作文的识别取得较高的准确率。

关键词:机器学习;图像处理;文字识别;CNN网络

Abstract

As an important part of our daily life, computers have already played many irreplaceable roles. Due to the security and convenience of the electronic storage, more and more data files are transplanted to this method of storage. Therefore, there are more and more application fields in recognizing handwritten text and converting it into electronic format, which has become a research hotspot today.

This article combines an import branch of artificial intelligence in today’s popular field-machine learning, based on Harald Scheidl’s TensorFlow-based handwritten text recognition, and improved algorithms to achieve the recognition of Chinese college entrance examination English composition. In this paper, CNN network is used to extract image features, and bidirectional LSTM network is used to store and remember English sequence relationships to predict text; and the MSER algorithm is improved to make the recognized text area more accurate to improve recognition accuracy; CTC loss and various algorithms is selected to make the model converge and the training time is short; Finally, the recognition outcomes of the model are analyzed and the further improvement direction is proposed.

The characteristics of this article: Improve Harald Scheidl’s handwriting system, so that it can identify specific objects-English composition for college entrance examination Optimized the pre-processing of pictures and localization of text areas, so that the model can obtain a higher accuracy in the recognition of college entrance examination composition in the case of shorter training time.

Key Words: machine learning; image processing; character recognition; CNN network

目 录

第1章 绪论 1

1.1 研究背景与意义 1

1.2 国内外研究现状 1

1.2.1 OCR技术 1

1.2.2 深度学习 2

1.3 主要识别方法 4

第2章 基于双向LSTM的CNN文字识别系统 5

2.1 CNN网络 5

2.1.1 卷积层 5

2.1.2 池化层 6

2.1.3 全连接层 7

2.2 RNN网络 8

第3章 识别算法介绍 10

3. 1 英语作文图片预处理 10

3.2 识别网络结构 10

3.3 算法优化 11

3. 4 识别效果测试 13

第4章 模型识别结果及分析 15

4.1 结果 15

4.2 分析 16

第5章 结论 21

参考文献 22

致谢 24

第1章 绪论

1.1 研究背景与意义

随着社会的发展,我们已经逐渐进入了信息时代,信息产业的发展对一个国家的发展与未来起着至关重要的作用。因此,世界各国都对信息产业给予了高度的重视。在此之中,计算机的出现为现代信息的处理和分析提供了高效的方法[1]。更进一步的,近年来,随着人工智能与模式识别技术的飞速发展,机器学习成为了其中的热门,并逐渐成为了人工智能的标志性代表词。机器学习就是通过对算法进行设计,让计算机从大量的样本中学习其中的规律,从而对新的数据实现分类与识别的一种方法[2]。作为其中一种最为常用的学习方法,神经网络可以算是当今机器学习又一次研究热浪的方向。

文字识别就是模式识别中的重要分支。相较于图片或视频,文字是一种高层次的视觉元素,包含了更多更精简的内容信息。例如,通过分析路牌上的文字,知道目前的位置;通过识别商品包装上的文字内容,就可以获得所要购买的商品的具体内容;分析识别档案票据,减少人工支出等。文字可以通过其所包含的高纬度的含义,与其他信息形成互补,更有效的分析场景信息,这对模式识别具有极其重要的学术意义[3]。除此之外,目前各行各业都在推进无纸化办公或实现自动化,以减少人工成本、方便日常生活。这就要用到文字识别的技术,如图像搜索、无人驾驶、工业自动化生产、身份证检测、税票检测等。可见,为了方便后续的数据分析等处理,文字识别已经是至关重要的一项技术[4]

目前,印刷体的文字识别已经有很多成熟的算法可以实现高速高效的准确识别,而手写文字识别由于每个人的书写习惯不同,会出现笔画粘连或断开、笔画错综复杂、结构难以辨别等各种情况,故准确率和速度都比较低[4]。作为大量相关工作的基础,手写文字的识别具有极大的研究意义和应用价值。设计一个通用、高效、准确的识别算法是一个十分值得研究的问题。

1.2 国内外研究现状

1.2.1 OCR技术

文字识别是指通过计算机自动识别图片或纸张上的印刷体或手写体,不仅是图像处理方向的主要分支之一,也是该领域最为困难的技术之一。对于手写字符识别的探索最早可以追溯到二十世纪50年代。国外率先展开了手写英文和阿拉伯数字的相关工作,但由于当时计算机硬件以及算法水平的限制,并没有取得很好的效果。直到80年代,随着计算机软硬件的飞速发展,使文字识别领域也取得了突破性的进展[5],其中一种常用的技术为OCR(Optical Character Recognition,光学字符识别)。

德国科学家Tausheck在1929年第一次提出了OCR的概念。OCR技术通过光学扫描等输入方式,将如报纸、杂志、书籍、票务等印刷文字转化为数字图像信息,再通过文字识别技术将其变化为计算机可以理解的电子输入信息。该技术包含了图像识别、图像处理以及对文字内容的分析、理解和还原技术,涉及了计算机、人工智能、模式识别、图像处理等多种领域,可以广泛应用于文字资料、文案、档案的录入和处理等领域[1],具有很高的综合性和应用价值。1965年,IBM公司首次实现了OCR技术,不过他们的产品仅仅能识别特定的符号、数字、印刷体英文字母和极少数的特殊文字[6]。在此之后,统计分类算法、决策树、相似性转移和动态规划等方法都取得了一定程度上的成功[7]。美国的谷歌AI学习系统,可以支持多种计算机语言,已经被广泛应用与各种领域。

在国内,随着我国信息技术的不断进步,开始研究OCR技术已有二十多年。我们进行了了从研究所商品到社会商品的转化,已然开始进入到了成熟发展的阶段[8]。我国的许多文字识别系统,如清华大学的“文通OCR”、“光学字符识别OCR”系统,都处于国际领先的地位。除此之外,文通,云脉技术等中国企业也充分使用了手写文字识别系统[5],将该技术深层次的推广到信息化建设的各个层面。

1.2.2 深度学习

机器学习是当今人工智能的热门研究领域,神经网络则是其中一种常用的机器学习方法。自二十世纪50年代出现神经网络这个概念开始,神经网络的研究总共历经了三次狂潮[9]

请支付后下载全文,论文总字数:17921字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图