印刷体汉字的识别毕业论文

2022-07-24 10:12:13

论文总字数：21074字

摘要

进入21世纪以来，计算机技术发展速度惊人，并且在各种领域得到广泛的应用，在实际应用中，对于书信、报纸等含有文字信息量较大的载体，如何在保证高效率的情况下将其中含有的印刷体汉字快捷、方便地输入计算机，已经成为当下信息处理的一个至关重要问题。

本文以中国各省份的简称为研究对象实现了一个简易的印刷体汉字识别系统，主要包括对印刷体汉字图像的预处理、识别以及输出识别结果等步骤。其中预处理采用OTSU大津法对汉字进行二值化分割处理，识别过程主要是通过计算主成分特征空间的欧式距离的相似度，也就是用降维后的特征向量与特征库里的特征向量计算欧式距离，取距离最近的作为识别结果。

实验表明本文实现的系统能够识别中国各省份的印刷体简称，且具备一定的识别率。

关键词：汉字 PCA 识别

Printed Chinese Character Recognition

Abstract

In today's rapid development of computer technology, computer has been widely used in various fields, in practice, for the letters, newspapers contain text information such as the carrier, how to contain the printed Chinese character input computer, quick and easy efficiently has become a key problem in information processing.
Based on each province as the research object for short implements a simple print Chinese character recognition system, mainly including of printed Chinese characters image preprocessing step, recognition, and output results, etc. Including pretreatment by OTSU dajin method for binary segmentation, character recognition process mainly through computing principal components of the feature space of the Euclidean distance similarity, which is used after the dimension reduction feature vector and feature database of characteristic vector calculation of Euclidean distance, the nearest take as the recognition result.
Experiments show that the system implementation in this paper can quickly recognize Chinese characters, has certain recognition rate.

Keywords: Chinese character; PCA; Recognition

摘要 I

Abstract II

第一章绪论 1

1.1 选题的目的与意义 1

1.2 本文主要工作与安排 1

第二章汉字识别技术概述 3

2.1 汉字识别方法的分类 3

2.2 印刷体汉字识别的流程简介 4

2.3 印刷体汉字的识别过程中存在的问题与困难 5

2.4 本章小结 6

第三章汉字图像预处理方法的研究与实现 8

3.1 图像灰度化处理 8

3.1.1 常用灰度化处理方法 8

3.1.2 本文的方法及实现 9

3.2 图像二值化处理 9

3.2.1 全局阈值法 10

3.2.2 局部阈值法 12

3.2.3 动态阈值二值化 13

3.2.4 本文的方法及实现 14

3.3汉字有效区域的分割 16

3.3.1 图像分割要求 16

3.3.2 本文的汉字分割 17

3.4本章小结 18

第四章汉字图像的特征提取与识别 19

4.1 汉字特征及特征提取概述 19

4.2 匹配识别 20

4.2.1 结构模式识别 20

4.2.2 统计模式识别与结构模式识别的结合 20

4.2.3 人工神经网络 21

4.3 本文采用的方法及实现 22

4.3.1 PCA主成分分析法 22

4.3.2 主成分分析的步骤 25

4.3.3 主成分分析的实现 26

4.3.4 识别 26

4.4 本章小结 27

第五章实验结果与分析 28

5.1 实验环境 28

5.2 实验结果 28

5.3 性能的分析 30

第六章总结与展望 31

6.1 总结 31

6.2 展望 31

参考文献 33

致谢 35

第一章绪论

1.1 选题的目的与意义

在我国，汉字已经存在了数千年之久，是中华民族文化的重要结晶，凝聚了华夏子孙智慧的精华，使用人数及文字数量都属最多。进入现代社会，汉字印刷体文档材料的数量和种类都与日俱增，例如杂志社、书籍出版社等机构单位的印刷体文档材料更是不计其数。然而在计算机技术迅猛发展的今天，计算机在各种领域得到广泛的应用，鉴于汉字的非字母化及非拼音化的特点，如何在保证高效率的情况下将其中含有的印刷体汉字快捷、方便地输入计算机，已经成为当下信息处理方面的一个至关重要的突破点。众所周知，人工输入汉字不仅速度慢、效率低而且劳动力消耗也比较大，不宜用来处理数量巨大的文字资料。而且伴随着市场劳动力价格的不断上涨，采用人工手动输入汉字将带来更大的经济成本。因此。文字的自动识别输入顺其自然的成为了处理数量巨大的文档资料的理想方式。一方面这种方法快速高效，另一方面也节省了大量人力资源，进而降低了经济成本。就当下的形势而言，汉字识别技术也越来越受到人们的重视，呈现出广泛的应用前景，它主要应用于中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。印刷体汉字识别是一个综合了大量学科的研究领域，很多学术理论在这一领域得到了重要的应用，同时取得不可替代的地位。一方面各学科的发展为印刷体汉字识别的研究提供了理论依据以及实物基础，另一方面，印刷体汉字识别的研究也对其他学科的不断发展起了一定的推动作用，二者相辅相成。对当今社会的的科学发展都有着重要的实际意义。

1.2 本文主要工作与安排

本文以中国各省份的汉字简称为研究对象，实现了一个简易印刷体汉字的识别系统。预处理阶段的印刷体汉字图像二值化操作采用的方法为OSTU大津法；在特征提取阶段，采用PCA主成分分析法对单个印刷体汉字的矩阵进行特征降维，即采用累计贡献达95%的特征向量为主成分；在识别阶段主要是通过计算主成分特征空间的欧式距离的相似度，也就是用降维后的特征向量与特征库里的特征向量计算欧式距离，取距离最近的作为识别结果。

本文内容总共分为以下五章来进行：

请支付后下载全文，论文总字数：21074字

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码

印刷体汉字的识别毕业论文

Abstract

第一章绪论

1.1 选题的目的与意义

1.2 本文主要工作与安排

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

印刷体汉字的识别毕业论文

Abstract

第一章 绪论

1.1 选题的目的与意义

1.2 本文主要工作与安排

您可能感兴趣的文章

最新文档

推荐栏目

第一章绪论