基于深度学习的脱机手写体文本识别毕业论文

2021-11-27 22:35:09

论文总字数：19900字

摘要

手写体识别一直以来都是研究的热点，手写体识别技术在实际生活中也一直有很大的价值和作用，比如对古籍进行手写识别，可以更加便于人们对古籍的整理与分析。随着计算机性能的提高以及深度学习的不断发展，手写体识别近年来有了新的解决方案。脱机手写体文本行识别是在无显式分词的情况下直接识别一整行文字，能解决字符粘连和分词的困扰，具有实际的应用价值。

本文采用了基于attention机制的编解码模型进行了脱机手写体文本行识别的研究，并进行了相关实验与评估分析。该模型采用的具体结构是CNN Bi-LSTM attention GRU，采用的数据集是IAM英文文本行数据集和HWDB2.0~2.2中文文本行数据集。本文对数据集中的图像采用了二值化，中值滤波进行了预处理。并且采用了数据增强技术，对数据集中的图像进行了颜色变化、对比度变化、仿射变换等操作。

论文实现的模型能完成对不定长的文本行进行识别，在IAM测试集字符准确率为85.27%，在HWDB2.0~2.2测试集上达到了88.45%的字符识别准确率。

关键词： attention机制；Encoder-Decoder；脱机文本行识别；

Abstract

Handwriting recognition has always been a research hotspot. Handwriting recognition technology has always been of great value and role in real life. For example, handwriting recognition of ancient books can make it easier for people to organize and analyze ancient books. With the improvement of computer performance and the continuous development of deep learning, handwriting recognition has had new solutions in recent years. Offline handwritten text line recognition is to directly recognize a whole line of text without explicit word segmentation. It can solve the problem of character adhesion and word segmentation, and has practical application value.

This article uses the codec model based on the attention mechanism to conduct offline handwritten text line recognition research, and conducts related experiments and evaluation analysis. The specific structure adopted by the model is CNN Bi-LSTM attention GRU, and the data sets used are IAM English text row data set and HWDB2.0 ~ 2.2 Chinese text row data set. In this paper, the image in the data set is binarized, and the median filter is preprocessed. And the use of data enhancement technology, the image in the data set of color changes, contrast changes, affine transformation and other operations.

The model implemented in the paper can complete the recognition of text lines of indefinite length. The character accuracy rate in the IAM test set is 85.27%, and the character recognition accuracy rate in the HWDB2.0 ~ 2.2 test set is 88.45%.

Key Words：attention mechanism; Encoder-Decoder; Offline text line recognition

第1章绪论 1

1.1. 论文研究的背景和意义 1

1.2. 国内外研究现状 1

1.3. 本文主要工作及结构安排 2

第2章深度学习相关理论 3

2.1. CNN卷积神经网络 3

2.2. RNN循环神经网络 3

2.2.1. RNN循环神经网络和Bi-RNN双向循环神经网络 3

2.2.2. LSTM长短期记忆循环神经网络 5

2.3. Encoder-Decoder-attention模型 6

2.3.1. Encoder-Decoder模型 6

2.3.2. attention机制 6

2.3.3. 基于attention机制的Encoder-Decoder模型 8

第3章脱机手写体文本行识别研究 9

3.1. 基于attention机制编解码网络设计 9

3.2. Encoder模块 9

3.3. Attention模块 10

3.4. Decoder模块 11

第4章实验过程 12

4.1. 数据集 12

4.1.1. IAM英文手写文本行数据集 12

4.1.2. HWDB2.0~2.2中文手写文本行数据集 12

4.2. 预处理 12

4.2.1. 二值化 12

4.2.2. 中值滤波 13

4.2.3. 数据增强 14

4.2.4. 文字标签处理 15

4.3. 训练 16

4.3.1. 参数设置 16

4.3.2. 实验平台 16

4.3.3. 训练截图 16

4.4. 结果分析 17

第5章评价与分析 19

5.1. 评价方法 19

5.2. 与其他模型对比 19

5.3. 总结与展望 20

参考文献 22

致谢 23

绪论

论文研究的背景和意义

文字是人类历史长河中一大宝贵的文化财富，它帮助人类传递信息，记录重要的事物，对人类的生活有十分重要意义。目前，在日常生活中已经存在相当多的手写文本文档，如果利用手写体识别技术将纸质手写文档，转化成一种可编辑且更加便于阅读的形式，这将会很大程度上降低保存的成本，同时文本的灵活性会得到提高。一个优秀的脱机手写识别系统在生活中有很重大的实际意义，比如，可以根据医生等专业人士的手稿图片提取出更加便于阅读和存储的电子格式，可以根据学生作业的图片提取出更加便于老师阅读的形式等等，脱机手写识别的用处领域非常的广，可以说哪里有手写，哪里就能用到手写识别。

手写文本识别是通过计算机自动识别字符的技术，有在线识别和脱机识别两种类型。在线手写识别是通过电子笔等电子仪器收集数据进行识别，脱机手写识别是通过摄像头等仪器对文本进行拍照获得图片，之后再进行识别。对于已经存在的手写文本或文本图片，脱机手写识别是一种非常好的处理方法。但是，由于每个人的笔迹不一样，且书写时很可能出现字符粘连的情况，脱机手写识别问题至今依旧是一个挑战。深度学习的不断发展为脱机手写识别这一经典问题提出了新的思路，相对于传统的特征工程方法，深度学习方法更加简便，无需人工干预分析特征，识别准确率方面也在不断提高。近年来深度学习的方法在端到端的文字识别问题上取得了不少突破，各种优秀的技术方案相继涌现而出。

国内外研究现状

手写识别在很早就已经有人进行研究，最开始研究的较多为是单个字符的识别。传统的单个字符的识别步骤是，首先对单字符图片进行预处理，再对预处理后的图片进行特征提取，最后将这些特征输入进单字分类器，进行分类识别得出具体结果^[1]。其中，比较著名的是文献^[2]提出的方法，其使用鉴别特征提取方法和鉴别学习二次判决函数分类器，在HWDB脱机单字中文数据集上进行实验，得到的识别正确率为92.72%。近年来，深度学习在脱机手写体识别过程中也产生了很大影响。CNN首次进入文本识别的范畴是在2011年，由瑞士团队^[3]提出，该方法在竞赛脱机单字测试集上的识别准确率率为92.18%。深度学习技术在手写识别中表现出的良好效果引起了大家的强烈兴趣，在2013年，一种改进的CNN网络^[4]被一家富士通公司的团队用于脱机单字手写识别，准确率高达 94.77%。

由于单字识别步骤过于繁琐，在手写识别过程中非常的不方便。在这种情况下，文本行识别方法横空出世。文本行识别可以通过单字分类器逐个识别得出每一个字符，然后再将这些字符重新组合成一行，这种方法与传统单字识别的方法类似。另一种值得注意的是端到端的文本行识别方法，这种文本行识别无需对字符进行显式的切分，同时也不需要人工进行提取特征。该方法主要基于CNN和RNN来实现，LSTM和Bi-LSTM两种网络在该方法中常常被用到。在2015年，文献^[5]提出将MDLSTM-RNNs(Multi-Dimensional Long Short-Term Memory Recurrent Neural Networks)和CTC损失函数相结合应用在手写文本行问题中，得到的准确率为83.5%。

随着attention机制的提出，attention机制有越来越多的应用。attention机制在许多应用上体现出了很大的优势，比如说机器翻译^[6]，图片描述^[7]。attention机制在手写识别也有突出的表现，比如说Bluche在2016年提出的基于attention机制的文本行识别方法，Blchue在论文中^{[8, 9]}，提出一种改进的MDLSTM-RNNs进行文档的整篇识别，在训练的过程中可以将attention模块得到的全部文本组成一行，并用attention机制关注文本行完成识别，该方法的识别速度比较快，但是停止光标的缺乏是一个问题。

本文主要工作及结构安排

本论文的第二章主要介绍课题涉及到的深度学习的基础技术和理论，第三章主要介绍利用基于attention机制的编解码模型进行脱机手写体文本行识别的思路与具体细节。第四章将介绍脱机手写体文本行识别的具体实验过程，包括预处理方法、训练参数设置等。第五章对attention编解码模型和其他手写识别模型进行评估比较，并对课题作出了总结和展望。

深度学习相关理论

CNN卷积神经网络

CNN是卷积神经网络，是深度学习中十分重要的一个技术工具，具有十分广泛的应用。CNN常用来处理图片。图片这种形式的数据由于像素量过多，计算机直接处理会产生非常大的运算量，十分不方便。如果能将图片数据量变小，同时保留了图片的重要特征，这对于计算机处理图片来说是非常有帮助的。而CNN就是这样一个工具，能够在尽可能保留图片主要信息的情况下，将数据量大大减小，为后续操作奠定了良好的基础。

CNN主要由3部分组成：卷积层、池化层以及全连接层。在实际深度学习中CNN网络通常会有很多的卷积层和池化层交替组成，这些部分会将图片变小，然后通过全连接层输出结果。当然CNN的结构设置是有讲究的，经过许多人的研究，发现某些结构的CNN网络会有更好的图片提取效果，随之有很多优秀的结构相继被提出，比如著名的Lenet-5和VGG16网络等。

请支付后下载全文，论文总字数：19900字

注册

找回密码