脱机手写体字符识别研究综述外文翻译资料

2022-11-08 20:44:56

英语原文共 18 页，剩余内容已隐藏，支付完成后下载完整资料

脱机手写体字符识别研究综述

摘要

字符识别（CR）在过去的半个世纪中得到了广泛的研究，并发展到足以产生技术驱动的应用程序的水平。现在，快速增长的计算能力支持了目前的CR方法的实现，并在许多新兴应用领域中有越来越多的需求，这些领域需要更高级的方法。

该材料为在CR地区工作的读者提供了指导和更新。首先，介绍了CR系统的历史演变。然后，回顾了现有的可利用的CR技术及其优点和缺点。最后，对目前的研究现状进行了讨论，并提出了今后的研究方向。由于这一领域需要更多的研究，才能达到人类阅读机器模拟的最终目标，因此对离线手写识别的特别关注。

关键词字符识别（CR）；特征提取；脱机手写识别；分割；训练和识别。

1.介绍

随着数字计算机的出现，人类功能的机器仿真一直是一个非常具有挑战性的研究领域。在一些需要一定数量智力的领域，如数字运算或国际象棋，取得了巨大的进步。另一方面，在某些功能方面，人类始终优于最强大的计算机，例如：视觉。人机模拟阅读是其中一个领域，在过去的三十年里，它一直是深入研究的主题，但它离最终的前沿还很远。

在这个概述中，字符识别(CR)被用作一个概括性术语，它涵盖了各种应用领域中字符的所有类型的机器识别。概述作为一个更新的最先进的CR领域,强调所需的方法增加需要在新兴领域,如电子图书馆的发展,多媒体数据库和系统需要手写数据条目。研究探讨CR的方向研究,系统分析方法的局限性,可以分类基于两个主要标准:1数据采集过程（在线或离线）和2文本类型（机印或手写）。不管这个问题属于哪一类，一般来说，在CR问题中有五个主要的阶段：

1）预处理；

2）分割；

3）代表；

4）训练和识别；

5）后处理。

本文将对CR系统各阶段的CR方法进行回顾，而不是对完整的解决方案进行测量。尽管脱机和联机CR技术有不同的方法，但是它们有许多共同的问题和解决方案。因为它是相对更加复杂,需要更多的研究相比，在线和机印识别、选择脱机手写CR作为本文关注的焦点。但是，本文还回顾了在线CR的一些方法，因为它与脱机情况的情况是交叉的。

在对第2部分的发展进行了历史回顾之后，在第3部分中回顾了CR系统的方法。最后,在第四部分讨论未来的研究方向。因为它是几乎不可能引用数以百计的独立研究领域的转达了CR，我们足以只提供选择性的参考,避免一个详尽的清单的研究,可以达到从引用在本文的结束。[141]中关于离线和在线手写识别的综合调查，[162]中专门用于离线草书脚本识别的调查以及[124]涵盖光学CR方法的书可以视为良好的起点，可以达到近期在各种类型和应用中的CR问题的研究。

2.背景

书写，这是一种最自然的收集、储存和传播信息的方式，在过去的几个世纪里，它不仅为人类之间的交流提供了服务，而且也为人类和机器的交流提供了服务。在CR领域进行的深入研究不仅是因为它在模拟人类阅读方面的挑战，还因为它提供了诸如此类的有效应用。自动处理大量文件，将数据转换成机器，并将web界面转换为纸质文档。从历史上来看，CR系统是在三个时代发展起来的。

1900–1980早期：CR的历史可以追溯到1900年初，当俄罗斯科学家tyuring试图发展视觉残疾人援助。第一个字符识别器出现在二十世纪四十年代中期随着数字计算机的发展。早期的自动识别字符的工作已经集中在机器打印的文本或一组杰出的手写文字或符号。机器印刷CR系统在此期间通常使用模板匹配的图像进行比较的图像库。手写的文字，低层次的图像处理技术已经应用于二进制图像提取特征向量，然后美联储统计分类的水平。成功的，但受限的算法已经实现主要用于拉丁字符和数字。然而，有关日本，中国，希伯来语，印度，西里尔文，希腊文和阿拉伯数字在机器和手写案例中的研究也开始了。

商业可用字符识别器是上世纪五十年代，当电子平板电脑捕捉笔尖运动的x - y坐标数据首次引入。这一创新使研究人员能够研究在线手写识别的问题。直到1980年的良好来源参考在线识别可以。

1980 - 1990个发展：研究一直到1980遭受强大的计算机硬件和数据采集设备缺乏。随着信息技术的爆炸，先前开发的方法，发现在许多应用领域快速增长的一个非常肥沃的环境，以及CR系统的开发。结构方法开始在许多系统中的统计方法。CR研究主要集中在形状识别技术，而无需使用任何语义信息。这导致了识别率的上限，这是不够的，在许多实际应用中。CR研究和发展在此期间的历史回顾可以分别发现在离线和上线的情况下。

直到1990进展：CR系统的真正进步是在此期间实现的，使用新的开发工具和方法，这是授权不断增长的信息技术。

在20世纪90年代初，图像处理和模式识别技术，有效地结合人工智能（AI）方法。研究人员开发复杂的CR算法，它接收高分辨率的输入数据，并要求在实施阶段大量的数字运算。如今，除了更强大的计算机和更精确的电子设备，如扫描仪、照相机和平板电脑，我们有有效的方法，如神经网络（NNS），现代使用隐藏的马尔可夫模型（HMM），模糊推理和自然语言处理。最近系统的机器打印脱线和有限的词汇，用户依赖的联机手写字符是相当满意的限制应用。然而，为了达到流畅的人类阅读的机器模拟的最终目标，仍然有很长的路要走，特别是对无约束的在线和离线手写。

3.CR系统的方法论

在这一部分中，我们重点对CR系统的方法，强调脱机手写识别问题。对于大多数系统来说，一种自下而上的方法将从像素级开始进程，并结束一个有意义的文本。这种方法有很大的不同，这取决于CR系统的类型和使用的方法。在CR领域的文献回顾表明，这些分层任务分组的CR的预处理，分割，表示，训练和识别的阶段，和后处理。在某些方法中，一些阶段被合并或省略，在其他的反馈机制是用来更新每个阶段的输出。

预处理

原始数据，根据数据采集类型，进行了一些初步的处理步骤，使其可用于字符分析的描述阶段。预处理的目的是产生的数据，很容易CR系统的操作准确。预处理的主要目标是

1）降噪；

2）数据的规范化；

3）压缩中要保留的信息量。

为了达到上述目标，在预处理阶段采用了以下技术。

降噪：由光学扫描装置或书写工具引入的噪声，导致断开的线段、凸点和线中的间隙、填充的环等。失真包括局部变化、圆角的圆角、膨胀和腐蚀，也是一个问题。以CR之前，有必要消除这些缺陷。有效的降噪技术可以了数百类三大组。

a）过滤：这是为了去除噪声和减少杂散点，通常由不均匀的书写表面和/或可怜的山姆采样率的数据采集装置。各种空间和频域滤波器可以被设计用于此目的。其基本思想是用图像的一个预定义的面具来指定一个值的像素作为其相邻像素的灰度值的函数。过滤器可以设计为平滑，锐化，阈值，去除轻微纹理或有色背景，对比调整的目的。

b) 形态学：形态操作背后的基本思想是滤波器的文档图像代替卷积运算的逻辑运算。各种形态学操作可以用来连接断笔，将连接杆，光滑的轮廓，修剪野点，薄的特点，并提取边界。因此，形态学操作，可以成功地用于去除文档图像由于纸张和油墨的质量，低噪音，以及不稳定的手部运动。

c) 噪声：噪声建模能去除一些校准技术，如果它的模式是可行的。然而，建模的噪声是不可能的，在大多数的应用程序。有非常小的工作建模噪声引入的光学失真，如斑点，歪斜，模糊。然而，它是可以评估的文件的质量，并在一定程度上消除噪声，如建议。

标准化：标准化方法的目标是消除写作的参考输入和获取数据的标准化。以下是规范化的基本方法。

a）提取：斜归一化和基线由于不准秘的错误都在扫描过程中，写作风格，写作可以稍微倾斜或弯曲的形象。这会伤害到后来的算法的有效性，因此，应检测和校正。此外，一些字符的区别相对于基线的相对位置（例如，“9”和“G”）。基线提取的方法包括使用图像的投影轮廓[ 78 ]，最近邻聚类的形式，交叉线之间的关系的方法[线]，并使用Hough变换，一个有吸引力的排斥NN用于提取复杂的手写基线在沉重的噪音（见图1）。在倾斜检测，字符或单词的翻译到原点，旋转，或伸到基线水平和再译回显示屏幕空间。

b）倾斜归一化：不同手写风格的可衡量因素之一是字中最长行程与垂直方向之间的倾斜角度。倾斜归一化用于将所有字符标准化为标准形式。倾斜估计的最常见方法是近似元素的平均角度的计算（见图2）。在[111]中，通过使用一对一维（1-D）滤波器跟踪链码分量来提取来自轮廓的垂直线元素。每个线元素的起点和终点的坐标提供倾斜角度。另一项研究[56]使用一种方法，其中计算出远离垂直方向的多个角度的投影轮廓。对应于具有最大正导数的投影的角度用于检测垂直行程之间的最小重叠量，因此用于检测主倾斜角度。在[18]中，通过将图像划分为垂直和水平窗口来执行倾斜检测。基于在所有窗口上平均的每个窗口的上半部和下半部的重心来估计斜率。最后，在[90]中，通过从图像左右扫描并在21个不同倾斜方向上计算投影来使用霍夫变换的变体。添加任何倾斜的前三个投影，并且具有最大计数的斜率被视为倾斜值。另一方面，在一些研究中，识别系统不使用斜率校正在训练阶段补偿[6]，[36]。

图1 在[145]中使用有吸引力和排斥性网络的基线提取。

图2 倾角估计。（a）近垂直元素。（b）平均倾斜角度。

图3 字符“e”和“l”的归一化。

c）大小规格化：这是用来调整字符大小到一定的标准。方法应用CR可以水平和垂直尺寸规范。在[ 186 ]中，字符被划分成若干个区域，每个区域分别被缩放。大小归一化也可以作为训练阶段的一部分进行的，和尺寸参数的估计分别为每个特定的训练数据在图3中，两样本特征逐渐缩小到最优规模，最大限度地在训练数据的识别率。另一方面，文字识别，由于想要保存在词的长度大的组内差异所以他们可以帮助识别，只有涉及垂直高度标准化或基础的水平尺寸归一化计算的垂直尺度因子趋于规范。

d）轮廓平滑：消除了书写过程中不稳定的手部运动造成的误差。它通常会减少代表脚本所需的采样点的数量，从而提高剩余预处理步骤的效率。

压缩：众所周知，经典的图像压缩技术将图像从空间域转换到域，这是不适合识别。压缩的CR需要空间域技术，以保持形状信息。两种流行的压缩技术是阈值和细化。

a）阈值：为了减少存储要求并提高处理速度，通常需要通过选取阈值来表示灰度图像或彩色图像作为二值图像。存在两类阈值：全局和局部。全局阈值选择整个文档图像通常是基于从强度直方图的图像[160]背景水平估计一个门限值]。本地（自适应）阈值使用不同的值，每个像素根据局部区域信息。在[ 171 ]，常见的全局和局部阈值技术的采用，是有目的的在这个意义上，使用不同的技术CR系统的精度进行了比较评价标准的比较。在这些测试中，证明了尼布拉克的局部自适应方法[ 128 ]产生最好的结果。此外，最近的研究[ 184 ]开发了一种自适应逻辑方法分析聚类和连接特性的字符分级文档图像。

b）细化：虽然它提供了一个巨大的数据大小减少，细化提取字符的形状信息。薄宁可以被视为脱机手写转换到几乎上线的数据，伪分支和文物。细化的两个基本方法1）像素和2）非像素智能细化[97]。像素细化方法在本地和迭代处理图像，直到一个像素宽骨架仍然。它们对噪声非常敏感，可能会变形字符的形状。另一方面，非像素智能细化的方法使用一些字符的全球信息在变薄。他们产生了一定的中位数或中心线的图案直接检查所有的个别像素。在[ 113 ]中，基于聚类的细化方法将字符的骨架定义为聚类中心。一些细化算法识别字符的奇异点，如结束点，交叉点，和循环。这些点是问题的根源。在非像素智能细化，他们处理与全球的方法。像素智能的调查和非像素智能的细化方法可在[97]。

可以进行顺序或并行算法的迭代细化。顺序算法检查轮廓点光栅扫描或轮廓以下。并行算法优于连续的因为他们检查所有像素同时发声，用删除条件相同的设置。它们可以有效地实现在并行硬件。CR的并行细化算法的评价可以发现。

预处理技术是很好的探索和应用在图像处理的许多领域，除了CR。请注意，上述技术影响的数据，并可能引入意想不到的扭曲的文档图像。因此，这些技术可能会导致丢失的重要信息写作。他们应该小心地应用。

B.分割

预处理阶段产生一个“干净”的文档，足够多的形状信息，高压缩、低噪声归一化图像。下一个阶段是将文档分割成其子组件。分割是一个重要的阶段，因为在词、行或字符的分隔上可以直接影响到脚本的识别率。有两种类型的细分:外部细分,各种写作的隔离单元，如段落、句子，或者单词和内部分割，这是字母的隔离,尤其是草书写单词。

外部分割：它是文档分析最关键的部分，这是一个必要的步骤来离线Cr。之前虽然文件分析是一个有自己的方法和技巧，比较不同的研究领域，将文档图像转化为文本和非文本区域是OCR软件的一个组成部分。因此，在CR领域工作的人应该有一个文件分析技术的一般概述。

版面分析是分为两个阶段：第一阶段是结构分析，它涉及到的图像文件组成块的分割（段、行，字，等），第二个是泛函分析，它使用的位置，大小，和标签的许多方法将文档图像中的均匀区域视为纹理区域。然后通过在灰度或彩色图像中发现纹理区域来实现页面分割。例如，Jain等人使用Gabor滤波和掩模卷积[75]，Tang等人方法基于分形特征[166]，Do-ermann方法[39]采用小波多尺度分析。页面分割的许多方法集中于处理背景像素或使用页面中的空白区域来识别均匀区域[72]。技术包括X-Ytree [25]，基于像素的投影轮廓[138]，连接的基于组件的投影轮廓[61]，白色空间跟踪[2]和白色空间变薄[86]。他们可以被认为是自上而下的方式，从大部分按X切割和Y切割递归地分割页面，从整个页面开始到小部件，最终达到个别字符。另一方面，基于对像素和连接的组件的处理，从小部件再次

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[138683]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码