光学字符识别方法研究毕业论文

 2022-05-12 09:05

论文总字数:22489字

摘 要

光学字符识别技术,是一项现代相当热门的研究课题。该技术是计算机通过扫描印刷体文本,快速自动的识别上面的字符并转化为计算机代码,放入可编辑文本中。使用模式识别技术,通过大量的算法分析字符的特征,例如外形特征,从而识别出字符的内容。

本文从图像的预处理入手开始研究,首先使用二值化算法处理了扫描进入计算机的图片。把彩色图像处理为二值化以后的黑白图像,可以简化后面的切割和识别过程。同时还使用了投影方法、连通区域方法等分解了扫描文档的版面结构,通过分析版面结构,划分出文字区域。接着研究字符的切分,先按行切分图像中的文字块,再在行上切分各个字符。通过字模创建字符库,把字模的特征信息存储为方便操作的矩阵数据。最后的工作是提取单个图片的特征,对比字符库从而让计算机翻译这些字符图片。识别出字符图像信息以后,将字符以计算机代码存储到文本文件中。由于英文字符的大小写在识别过程中难以统一,所以最后统一处理了大小写问题,以避免版面过于混乱。

关键字:光学字符识别 模式识别 英文数字识别

A study on optical character recognition method

ABSTRACT

Optical character recognition technology is a very popular and modern research subject. The technology is using a computer to scan printed texts, quickly and automatically identify the characters and convert into computer code, and put them into editable text. Making use of pattern recognition technology, the contents of the characters can be identified through a lot of algorithm analysis of characters features such as shape characteristics.

This paper starts research from the pretreatment of image. At first, binary arithmetic processing is applied to deal with the scanned images in the computer. By transferring color images into the binary black and white images, the process of cutting and recognition can be simplified. Also, projection method and connected components method are used to decompose the layout structure, thus to analyze structure of pictures, and then separate the text area. Then, this paper studies character segmentation: cutting each line from the whole text area, and then dividing each character on the cut line. By creating a character font library, the font of the feature information can be stored as matrix data, which can facilitate the operation. The final work is to extract the characteristics of a single image, so that the computer can match each character with the library to find the true word of this image. After recognizing the character image information, the character will be stored in the computer by code. Because it is difficult to unify uppercase and lowercase in English during the recognition process, the final work is to deal with this issue in order to avoid too much mistakes in the result.

KEY WORDS: Optical Character Recognition; Pattern recognition; English and numbers recognition.

目 录

摘要 I

ABSTRACT II

第一章 绪论 1

1.1 OCR技术的发展和应用 1

1.1.1 光学字符识别技术的历史 1

1.1.2 光学字符识别技术的应用 2

1.2 字符识别技术 2

1.2.1 统计模式识别方法 3

1.2.2 结构模式识别方法 3

1.3 发展现状 4

第二章 字符识别系统的构成 5

2.1 预处理 5

2.2 版面分析 6

2.3 字符切割 7

2.4 特征提取 8

2.5 单个字符识别 8

2.6 后处理 9

第三章 图像输入和预处理 10

3.1 图像输入 10

3.2 文字预处理 10

3.2.1 二值化 10

3.2.2 去除噪声 13

3.2.3 倾斜矫正 13

第四章 版面分析 16

4.1 版面分析方法 16

4.1.1 投影法 16

4.1.2 连通域法 18

4.2 版面块分析 19

第五章 字符切割 21

5.1 行切割 21

5.1.1 文本块粗划分 21

5.1.2 行切分 21

5.2 单个字符切割 23

5.2.1 单个字符切分过程 23

5.2.2 空格记录 25

5.3 基于字符距离周期的切分算法 26

5.3.1 英文字符的周期性 26

5.3.2 连通域的分离 26

第六章 特征提取 27

6.1 特征提取 27

6.2 细化 28

6.3 特征提取方法 28

6.3.1 Hu矩技术特征提取 28

6.3.2 基于字符骨架的两级初分类 30

第七章 字符识别 32

7.1 从特征库寻找最大匹配 32

7.1.1 特征矩阵的存储 32

7.1.2 寻找最大匹配 34

7.2 转化为对应字符 35

7.3 后处理 35

7.3.1 版面还原 35

7.3.2 大小写转换 36

结束语 38

致谢 39

参考文献 40

第一章 绪论

现代生活中大量的使用计算机处理各种事物,同时互联网飞速发展,信息越来越多的信息向着计算机集中,由此,计算机不得不具备处理这些信息的能力。现在社会上的信息量瀚如烟海,其中大部分的信息都使用印刷体格式印刷在纸张、书本上,保存和传播都不便捷。传统的打字方式和输入工具设备工作效率太低,这成为了信息录入计算机最大的问题。所以,现在需要一种方式,能够让计算机智能而且迅速地去识别这些纸上的信息,也就是本文提到的,光学字符识别技术。

1.1 OCR技术的发展和应用

OCR(Optical Character Recognition)技术让计算机使用扫描仪等工具扫描纸质文档,形成图像输入计算机中。然后计算机处理图像,通过检测黑白像素等方法来确定字符的形状,提取出字符的特征,最后通过特征对比翻译出这些字符,将其以计算机可以计算的二进制格式存储在文本文件例如word或者txt格式文件里。通过这个技术,计算机以一种高效、省时省力的方式录入了信息,在信息爆炸的这个时代,受到群众的欢迎。

1.1.1 光学字符识别技术的历史

OCR软件广泛应用于自动模式识别课题研究。从1960年代开始,OCR系统研究和发展表现地十分迅速。光学字符识别的概念是1929年由德国科学家Tausheck最先提出来的,后来没过科学家Handel也提出了利用技术来识别字符的想法[[1]]。最初的中文识别要追寻到60年代,两位杰出学者Casey与Nagy,对中文字符识别进行了最初的研究。他们使用了字库,为字符创建了模板,成功地让计算机识别了一千个汉字字符。而世界各地最早对该课题的研究,要从六七十年代开始。初期识别的研究对象以0-9的数字为主要目标。在65到70年间终于有了一些最早的软件,可以识别邮政编码。这些软件帮助了邮局为信件分类的处理工作。到十年以后,日本学者尝试挑战新的高度,让计算机识别中文字符。而我国研究开始的时间较后,对OCR的研究从70年代才开始。最早的入手方向也是识别数字、英文和符号,一直到1970末才接触了识别汉字的研究。到了80年代,我们开展了“863”,全名研究高新科技计划。清华大学和中科院开始对中文字符识别开展研究,终于使得该项目进入了一个新的阶段。他们相继拿出了早期的作品,成为了最早的中文字符识别软件。在软件早期阶段,识别率不高,加上软件追求利益,因此达不到实用要求。硬件发展初期,成本很高,而且效果并不理想,更加影响OCR软件的效率。仅有一些特殊的单位,例如信息产业部门、出版社等单位才会花重大代价去才用这个软件。又过了十几年以后,发明了平台式扫描仪,OCR技术又回到了人们的视线。现今的办公自动化即将成为工作主流,这也推动着识别技术迅速地壮大。现在的应用软件,在准确率和识别速度上都赢得了使用者的好评。

1.1.2 光学字符识别技术的应用

现今的OCR技术不但运用于商业运用,而且还使用在了自动化的任务当中。很多简单事物的处理工作,例如财务文件、通行证、快递追踪、出版社等一些实际使用当中。图像输入手段有很多,有光学读取设备和软件、视觉输入软件甚至还有智能相机。通常这些设备都可以获取条形码上的内容。OCR软件和其他软件相比最大的优势在于,可以把字符信息转换为计算机编码,而字符信息计算机和人的肉眼都能够获取识别。像条形码,人眼无法读取其中的信息,只可以依靠机器来读取其中信息。不过,信息存储在条形码中可靠性比存储在字符中高得多。这是因为字符可以替代的概率很高,而条形码则没有这样的特性。像支票使用的字符,一般是内嵌于软件的数据库中。通过这种方法,软件读取和识别时的正确率会大幅提升,有效的避免了一些替代错误。

1.2 字符识别技术

OCR技术可以分为两种,一种是识别印刷体文字,一种是识别手写体文字。在识别后者的时候,计算机的工作方式不同,又可以分成在线方式和离线方式。从识别的困难程度来说,多体比单体困难;从识别算法来说,手写体比印刷体难以分辨;从计算机工作难度来说,在线方式难于离线方式。整个OCR系统的核心是识别器。字符的特点五花八门,在表达形式上有极大的区别。在字典中,不一样的字符特征差异很大,就要使用不同的方法提取特征值。这样一来,不得使用多样的判别方式和数学模型,由此形成了五花八门的不同形式的识别方法。这些算法大致的分为几类,有统计模式、结构模式和神经网络模式。

1.2.1 统计模式识别方法

这种方式的识别过程是先统计这个等待识别的模式,提出特征值,接着用特定的决策函数,给这个模式分门别类。所有的像素点放在一起看,用数学方式对这个整体进行统计研究。这个模式的优点是能够较好地抗干扰。同样采取的数学方法过程简单,便于实施。这个方法同样存在不足的地方,由于采取的数学模型简单,因此细分能力不够。切分的效果不够精确导致很难区分出相近字符。还有一些其他的数学模型,例如复合相似度探查方法。有一种近似K-L的提取算法,可以提升单个字符的检测正确率。该方法在输入上做出了改动。优点是能够较好地抵抗干扰,缺点是计算量比较大。把多个特征值加在一起的办法,可以掩盖一些小的噪声点和变型。然而,这么做也会抹去关键地方的一些差异,带来的影响就是无法分辨开相似的字符。

1.2.2 结构模式识别方法

这个方法的过程:先把基本的字符笔画作为基本单位,这个基本单位又称作基元。基元可以组合成部首,部首又可以搭构成字符。最终使用形式语言,搭配上自动机理论来翻译图片上所呈现的字符。这方法难以实现的是在字符中提出基元。一般要经过最初的图像细化过程,接着才可以抽取笔画。过程中还会轻易形成伪笔画段,带来了不小的麻烦。有些人采取字符的外形作为特征,这样最终成果比上面的方法优秀得多,然而这样做需要使用松弛迭代算法。匹配过程中会耗费较长的时间,并且要是遇到不清楚的图像时,从中提取外形将会是一个极大的麻烦。还有人用提取字符图像的特征点来展现模式,但这么做会被一些外界因素干扰,例如噪声点,还例如笔画黏在一起或者断开了。但是此方法在结构特征上很关注,因此有很大概率区分出相似字。

1.3 发展现状

OCR软件已经广泛的在生活中应用,然而还是有许多让人不是很满意的地方。最为关键的地方,就是不能有效地抵抗干扰。软件受到噪声、缺损、变形的影响很大,而且,由于切分算法的不同,对于切分错误也很在意,无法提供出一个准确的置信区间给用户。这里面最重要的评估性能是抗干扰能力,越强的抗干扰能力,则识别模糊的图像的准确率越高。但是,提升这个性能也有一个限度。因为人可以通过语意语境来推测这个字符,但是机器做不到。因此单单使用字模让识别系统达到和人类一样的认知水平是不现实的。但是如果可以做到让软件自行识别字符,并且提供一个准确的置信区间,即使有些字符识别不成功,也可以将机器无法转化的字符提交给使用者自行翻译,更或者是通过其他的算法功能识别出这些字符,这样实用性就比较强了。然而现在的软件,一般都有拒识和标记不能识别字符的能力,但是并没有什么用,因为置信区间太大,不可靠。

还有应该做出改进的地方是,不能自动地分析纸张的版面和恢复原来的效果。印在纸上的内容可能有很多,有插图、表格、横竖文字等等。但是识别软件还并不能做到完全地保留了纸张上的形式,还可以让使用者在word等软件中自行地排版修饰。

第二章 字符识别系统的构成

从扫描仪、数码相机、传真机等渠道获得的原始图像,就是软件系统需要处理的对象。这个数据格式通常是灰度(Grayscale)格式或者是二值(Binary)格式。识别过程共有6个步骤。图2-1是整个系统的流程图。

请支付后下载全文,论文总字数:22489字

您需要先支付 50元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,凡线上购买论文可赠送论文相关课题外文翻译资料一份(包括英语原文和译文)。