一种独立于文字的光学方法字符识别外文翻译资料

2021-12-22 22:40:07

英语原文共 10 页

Pattern Recognition, Vol. 31, No. 9, pp. 1285—1294, 1998

copy;1998 Pattern Recognition Society.Published by Elsevier Science Ltd

0031-3203/98 $19.00#0.00

一种独立于文字的光学方法字符识别

摘要：我们提出了一种OCR方法，它具有以下特性：独立于文字的特征提取、训练、识别组件；在字符和单词级别没有进行单独的分割；训练是在没有预先分割的数据上自动进行的。该方法适用于连续语音识别中的OCR，并已开发了一种基于隐马尔可夫模型的成熟且成功的识别技术。该方法的文字独立性由DARPA阿拉伯语OCR语料库和华盛顿大学英语文档图像数据库I的全方位实验证明。版权所有：爱思唯尔科技有限公司。由ElsevierScienceLtd.出版。保留所有权利。

关键词：光学字符识别，语音识别，隐马尔可夫模型，无分割识别，文字独立，阿拉伯语OCR

1.ensp;引言

在过去的二十年中，连续语音识别（CSR）技术发生了一场革命。早期的技术努力使用预分割阶段进行识别，在这个阶段中，语音被分割成试验性语音单元，采用一组手工编写的语音规则进行识别。此外，对训练数据进行费力的人工分割，并在语音层面进行标注。这种技术非常依赖于语言，需要为每种新语言编写新的分割和识别算法。相比之下，基于隐马尔可夫模型（HMM）^（1）的新CSR技术被证明是独立于语言的，它对语音单元进行建模，不需要在训练和识别过程中对数据进行预分割。在过去的十年中，基于模型的CSR技术取得了巨大的进步。^（2）

在本文中，我们展示了相同的基于HMM的CSR技术如何以直接的方式适应光学字符识别（OCR）的问题。^（3）事实上，在这条线路发现阶段之后，接着是简单特征提取阶段，系统利用BBNByblosCSR系统，^（4）无需修改就能进行训练和识别。整个系统被设计成独立于所使用的文字或语言，并包括特征提取、训练和识别组件。系统的语言相关部分被定义为词汇、语法/语言模型和训练数据。此外，该技术不需要对字符和单词级别的数据进行预分割，既不需要进行训练，也不需要进行识别。

我们使用DARPA阿拉伯语OCR语料库展示了这种新方法的能力，该语料库由多个不同质量来源的扫描文本组成。众所周知，阿拉伯语文本对OCR提出了特殊的挑战，因为它们的字符在很大程度上是相互连接的，而且每个字符的形状取决于相邻的字符。为了证明这种方法的文字独立性，我们报告了使用与阿拉伯语识别系统相同的基础系统进行华盛顿大学（UW）英语文档数据库I的实验。

目前已经有许多研究使用HMMs进行印刷和手写的识别。^（5~27）在这些研究中，通常只尝试识别一种语言或文字。我们的方法与参考文献^（22-27）的方法最为相似，它们也从图像的切片中提取特征，这在原则上可以使这些系统独立于文字。（其他参考文献通常使用更复杂的特征提取，它们试图提取更大的单元，如线、笔画和弧，这可能不适合使用文字无关的HMM方法。）Kaltenmeier等人^（22）将一行手写文本的图像分割成垂直重叠的切片，并以此提取其特征。对于每个字符，他们训练5个HMMs来处理大小写、文字样式和打印样式，以及一个额外的“通配符”样式。该系统用于手写的邮政编码和城市进行识别。Cho等人^（23）从美国邮政服务语料库中解决了识别手写地址的相同问题。他们使用一系列垂直薄片来提取特征，它们包括不同字符的显式连字模型。Mohammed和Gader^（24）也使用一个垂直薄切片来提取他们的特征，并识别CEDAR语料库中的城市、州和邮政编码的手写单词。Elms和Illingworth^（25）的方法类似，他们不仅使用了垂直薄切片来提取一组特征，也使用了水平切片提取了另一组特征，这些特征在字符级别必须进行预分割，因此系统不适合进行与文字无关的识别，尤其是具有连接文字的语言。他们的系统用来识别印刷的罗马字符。Aas和Eikvil^（26）在每个要识别的单词上画一个边界框，并从垂直薄切片中提取特征。他们用单个罗马字体报告结果。Kornai^（27）也使用从垂直薄切片中提取的特征来识别CEDAR语料库中的手写地址。

使用HMMs识别阿拉伯文文字需要进行的工作量很小。^（28）上述文献中有三篇^（19-21）报道了采用HMMs识别阿拉伯文文字的情况。Allam^（19）利用轮廓跟踪定位连笔字符组；然后，利用从垂直切片中提取的特征，对每一个这样的组作为一个整体进行识别。Benensp;Amara和Belaid^（20）以及Yarman-Vural和Atici^（21）的论文中的特征提取是阿拉伯语特有的，不易推广。

本文介绍的方法与其他OCR方法有许多不同之处。首先，我们的方法侧重于文字无关的识别问题；系统的主要组成部分（特征提取、训练和识别）是独立于文字的，并且已经在两个完全不同的文字族中进行了演示：阿拉伯文字和罗马文字。第二，使用现有的连续语音识别系统进行训练和识别，不需要修改；OCR系统的唯一区别在于预处理和特征提取。第三，不进行任何预分割——无论是在字符级别还是单词级别。这与其他可能会或也可能不会在字符级别进行预分割的工作形成了鲜明对比，它们几乎总是在单词级别进行预分割，至少对于阿拉伯语来说，这可能是有问题的。这种无分割的方法对于识别通常是连笔字符的降级文档（例如传真）也很重要。第四，本文描述的系统是在全字体模式下运行的，但每个字符仅使用一个HMM。对阿拉伯字符使用依赖于上下文的模型并自动模拟角色的各种形状，而无需在训练中识别这些形状。第五，我们的系统已经在相对较大的，公开可用的英语和阿拉伯语图像语料库上进行了测试，取得了良好的结果。

在第二部分中，我们介绍了使用的一般概率方法，包括对隐马尔可夫模型的简要介绍和对一般OCR系统的描述。第三部分详细介绍了系统的各个部分，包括预处理和特征提取阶段、使用的HMM模型结构、以及训练和识别组件。在第四部分中，我们描述了对阿拉伯语OCR语料库进行的一系列实验。在第五部分中，我们展示了对英语OCR的初步结果。

2.ensp;概率模式

2.1.问题的设置

给定一行文本的扫描数据，我们的基本概率范式试图找到字符C的序列，它使P(C|X)最大化，字符C序列的概率，给定表示输入文本的特征向量X的序列。利用贝叶斯规则，我们可得

我们称P(X|C)为特征模型，称P(C)为语言模型（或语法）。P(X|C)是任意特定字符序列C的输入数据模型；P(C)是字符序列的a先验概率，它描述了该语言中什么是允许的，以什么概率，P(X)是数据的a先验概率。因为P(X)对所有C都是一样的，的最大值可以通过乘积的最大值来实现。

特征模型P(X|C)近似为不同特征分量概率，其中是一个序列的特征向量。每个字符的特征模型由特定的HMM给出。语言模型由允许的字符和单词的词典以及统计语言模型描述，该模型可以提供不同字符和单词序列的概率。用于识别的最流行的语言模型是n-gram马尔可夫模型，其通过乘以序列C中的n个单词（或字符）的连续组的概率来计算P(C)。通常，使用二元组（n=2）和三元组（n=3）统计模型。

2.2.隐马尔可夫模型

隐马尔可夫模型（HMM）具有与马尔可夫链相同的结构，具有状态和状态之间的转移概率，但它们有一个重要的区别：与马尔可夫链中的每个状态相关联的是单个“输出”符号，而在HMM中，与每个状态相关联的是所有符号上的概率分布。因此，给定一个模型产生的符号序列，不能明确是哪个状态序列产生该符号序列；我们说状态序列是隐藏的。但是，我们可以计算生成观察符号序列的概率最高的状态序列。如果我们将符号与特征向量相关联，那么识别问题可以被表述为找到可能产生具有最高概率的特征向量序列的状态（或字符或单词）的序列。由于HMMs的马尔可夫性质，可以使用Viterbi算法非常有效地计算对最可能的词序列的搜索。^（29）HMMs具有几个重要属性使其可取：

HMMs提供了一个严格且灵活的特征空间可变性数学模型，作为自变量的函数（语音的时间和文本的位置）。
使用非常有效的训练和搜索技术联合进行分割和识别。
训练是自动进行的，不需要人工分割数据。
如果需要，可以将更高级别的约束（例如，以语言模型的形式）应用为识别过程的一部分，而不是将其作为后处理应用。
技术原则上是独立于语言的，只需要足够的训练数据和新语言的词典来识别该语言。

也许这些属性中最重要的是，HMM参数可以从训练数据中自动估计，而不需要预先分割数据或将数据与文本对齐。这个训练算法要求：

用于训练的一组扫描数据，
将数据转录成文本的单词序列，
一种允许的字符和单词集合的词典。

隐马尔可夫模型训练算法自动估计模型的参数并同时执行分割和识别，使用保证收敛到局部最优的迭代方案。

2.3.系统整体

图1显示了OCR系统的框图，它与我们的语音识别系统相同，但有以下几个例外：这里的输入是扫描图像而不是语音，字符替换音位，正字法规则（见下文）替换音位规则。该系统依靠训练数据对字符模型、词汇和语法进行估计。

训练系统将扫描文本数据与有效值相结合作为输入。这里的有效值是作为与输入中的不同行对应的单词序列给出的。请注意，页面中没有提供行位置，也没有提供扫描数据在单词或字符级别与有效值之间的任何分割或对齐。在预处理阶段（其中页面被校正并且文本行被定位）之后，提取一组特征。然后，字符建模组件获取特征向量和相应的有效值，并预估各个字符模型。字符建模组件还利用词典和语法，这些词典和语法是使用语言建模组件从大型文本语料库中获得的。

训练过程还使用了依赖于文字类型的拼写规则。例如，规则声明文本由文本行组成，并指出行是水平还是垂直，以及文本是从左到右（如罗马脚本）还是从右到左（如在阿拉伯文字）。规则还可以指定哪些字符集可以作为连字一起出现。（连字是两个或多个字母的组合，看起来与字母的简单连接不同。）规则还可以指定书写结构的其他方面，例如阿拉伯语文字中的变音符号，中文文字中的词根分解以及韩语韩文文字中的音节结构。拼写规则并不总是必要的，但是它们可以通过提供关于模型应该采用的形式的先验信息来最小化识别搜索并减少所需的训练量。

图1中的识别系统采用与训练中相同的预处理和特征提取组件。然后，使用特征提取的输出，识别训练中预估的不同知识源（字符模型，词典，语法和拼写规则）来找到具有最高可能性的字符序列。

在我们的系统中，所有知识源，如图1中的椭圆所示，取决于特定的语言或文字。然而，整个训练和识别系统，如图1中的矩形框所示，被设计成与语言无关。

图1.OCR系统的框架图。由矩形框显示的训练和识别过程的脚本无关性。

这意味着可以使用相同的基本系统来识别世界上大多数语言，而很少或根本没有修改。这种语言独立性已经在使用HMM进行语音识别时得到了证明，在本文中，我们也将其用于OCR。

3.OCR系统的细节

3.1.预处理和特征提取

如何将HMM应用于OCR问题是一个有趣的问题。为了使用HMM，我们需要将特征向量计算为自变量的函数。在语音中，我们将语音信号分成一系列窗口（我们称之为帧）并计算每帧的特征向量;那么自变量显然是时间。相同的方法已经成功地应用于在线手写识别，其中特征向量也被计算为时间的函数。^（30）然而，在OCR中，我们通常面临识别整页文本的问题，因此没有明显自然的方法来定义特征向量作为某个自变量的函数，事实上，文献中已经采用了不同的方法。^{（5ensp;~ensp;28）}在这个阶段在我们的工作中，我们选择了一行文本作为训练和识别的主要单元。因此，我们将页面分成一组行（我们假设它们是水平的，而不失一般性），然后沿着该行使用水平位置作为自变量。因此，我们从左到右扫描一行文本（从右到左用于阿拉伯语脚本），在每个水平位置，我们计算一个特征向量，表示输入的窄垂直条带，我们称之为框架。结果是作为水平位置函数的特征向量。

在找到这些线之前，我们先找到页面的倾斜角度，然后旋转图像，使线条呈水平。然后我们使用页面的水平投影来找到线。对于每行文本，我们查找该行的顶部和底部。找到每条线后，就可以执行特征提取了。

我们将一条线分成一系列重叠的帧。每个框架都是一个窄的垂直条带，其宽度是线条高度的一小部分（通常约为1/15），并且高度被标准化以最小化对字体大小的依赖性。从一帧到下一帧的重叠是系统参数;目前，重叠等于帧宽的三分之二（见图2）。图2还显示每个帧被分成20个等于重叠的单元（再次，单元重叠是系统参数）。我们计算简单且与文字无关的特性：

强度（每个单元内黑色像素的百分比）作为垂直位置的函数；
垂直强度导数（垂直单元间）；
强度的水平导数（交叉重叠-）萍框架）；
两个单元格窗口的局部斜率和相关系数的平方。

图2.将一行文本划分为帧，将每个帧划分为单元格。

请注意，我们特别选择不包含需要任何形式的部分识别的功能，例如子字符片段（例如线条，曲线，点），我们也不想包含特定类型文字的特征。

虽然强度特征单独代表整个图像，但我们还包括其他特征，例如垂直

资料编号：[3889]

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码

一种独立于文字的光学方法字符识别外文翻译资料

1.ensp;引言

2.ensp;概率模式

2.1.问题的设置

2.2.隐马尔可夫模型

2.3.系统整体

3.OCR系统的细节

3.1.预处理和特征提取

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

一种独立于文字的光学方法字符识别外文翻译资料

1.ensp;引言

2.ensp;概率模式

2.1.问题的设置

2.2.隐马尔可夫模型

2.3.系统整体

3.OCR系统的细节

3.1.预处理和特征提取

您可能感兴趣的文章

最新文档

推荐栏目