端到端场景文本识别外文翻译资料

2022-11-22 16:05:11

英语原文共 9 页，剩余内容已隐藏，支付完成后下载完整资料

端到端场景文本识别

Kai Wang，Boris Babenko和Serge Belongie加州大学圣地亚哥分校计算机科学与工程系

{kaw006，bbabenko，SJB} @ cs.ucsd.edu

摘要

本文着重讨论自然图像中的词语检测和识别问题。这个问题比读取扫描文档中的文本更具挑战性，并且最近才得到计算机视觉社区的关注。该问题的子部分，如文本检测和裁剪图像字识别，已被孤立地研究[7, 4, 20]。然而，目前尚不清楚的是，这些最近的方法如何有助于解决词语识别的端到端问题。

我们通过构建和评估两个系统来填补这个空白。第一个代表事实上的最新技术的是由文本检测和一个领先的OCR引擎组成的两级流水线。第二个是植根于通用对象识别的系统，这是我们以前在[20]。我们表明后一种方法实现了卓越的性能。虽然场景文本识别一般采用高度领域特定的方法进行处理，但我们的结果证明了应用通用计算机视觉方法的适用性。采用这种方法为真实世界场景文本识别打开了大门，可以从物体识别中发生的快速进步中受益。

介绍

在不受约束的图像中阅读单词是一个具有实际意义的难题。虽然过去扫描文档中的文本一直是光学字符识别（OCR）应用的主要焦点，但随着移动图像设备的普及，在一般设置（称为场景文本）中获取的文本变得越来越普遍。由于文本在许多环境中是普遍的元素，解决这个问题有潜在的重大影响。例如，在室外环境中阅读场景文本可以在配备有街头相机的汽车的导航中发挥重要作用，并且帮助盲人在某些室内环境中导航（例如，杂货店[15]).

图1.我们在本文中解决的问题是字词检测和识别。输入包含图像和单词列表（例如，在上面的例子中，列表包含大约50个单词，包括TRIPLE和DOOR）。输出是一组用边界标记的边界框。

尽管它有明显的用处，但场景文本问题仅仅得到了计算机视觉社区的少量兴趣。 ICDAR强大的阅读挑战[13]是第一个公开数据集，旨在强调检测和识别场景文本的问题。在这个基准测试中，组织者确定了四个子问题：（1）裁剪字符分类，（2）全图像文本检测，（3）裁剪字词识别，以及（4）全图像字词识别。的工作 [6]解决了裁剪字符分类问题（1），并展示了使用通用对象识别方法与现成OCR的相对有效性。作品[4, 7]介绍了文本检测的方法（2）。裁剪后的单词识别问题（3）最近也受到了[21]和我们以前的工作[20]。虽然在孤立组件方面取得了进展，但对于全图像文字识别问题的研究却很少（4）; 我们唯一知道的解决问题的其他工作是[16].

在本文中，我们将重点放在场景文本问题的一个特例上，在这个案例中我们还给出了一个要检测和读取的单词列表（即，一个词典）（参见图 1）。在制作时

输入图像： 角色检测字检测 Word Rescoring NMS

PUFFUN东西

噗东东

PUFF FUN 东东

词汇：PUFF，咖啡，乐趣，市场，别墅，烟，...

图2.我们的词检测和识别管道的概述。从输入图像和词典开始，我们执行多尺度字符检测。图片中出现“PUFF”和“STUFF”字样，而词汇中的其他字词可以被视为“干扰者”。接下来，我们使用Pictorial Structures框架执行字词检测，将字符视为单词的“部分”。最后，我们使用基于全局布局的特征对检测到的单词重新评分，并对单词执行非最大抑制（NMS）。

该问题更易于管理，这个框架为有用的应用程序留下了充足的空间。再次考虑帮助盲人在杂货店驾驶的例子; 在这种情况下，购物清单可以作为词典。在许多其他应用程序中，假定可以使用上下文将搜索限制为某些感兴趣的单词是合理的。

我们的贡献有两方面：（1）我们评估两步法的词检测和识别性能，包括一个最先进的文本检测器和一个

领先的OCR引擎。（2）我们构建了一个根植于现代物体识别技术的系统，

随机蕨类的字符检测对于图像中的每个位置f，我们将提取一些特征向量x，并计算一个分数u（f，c），它告诉我们字符c在这个位置的可能性，而不是背景C_BG：

( ）= log P（C | x）的 (1)

/ uf，c

P（C_BG| x）的

( ( /p（c）

= log

P（X | c）中

- 日志

P（X | C_BG）

日志

P（C_BG

)

P（C_BG

)

从[20]。我们表明，我们的基于对象识别的流水线比使用传统OCR的流水线执行效果要好得多。我们还表明，令人惊讶的是，基于对象识别的流水线可以在不需要明确的文本检测步骤的情况下实现有竞争力的性能。这一结果极大地简化了端到端流水线，并模糊了单词识别和计算机视觉中研究的更常见的对象识别问题之间的界限。

全图像文字识别概述

我们详细讨论每一步。数字 2 显示了我们的方法的概述。

字符检测

我们管道中的第一步是检测图像中字符的潜在位置。我们通过滑动窗口分类来执行多尺度字符检测; 这种方法在面对中非常成功[19]和行人[5]检测。但是，由于我们的问题需要检测大量类别（62个字符），因此我们必须谨慎选择分类器。在这方面，随机蕨类[17, 2, 18]是一个吸引人的选择，因为他们自然是多种类，并且有效地进行训练和测试。在下面的章节中，我们将回顾Random Ferns的基础知识以及我们如何使用它们进行检测，并讨论我们的培训数据的细节。

我们将假设在类别之前统一，这意味着第二行的最后一项变成一个常数，并且对于我们的目的可以忽略。为了简化模型，我们假设我们的特征空间由N个二元特征（即x0,1N）组成。注意，存储联合概率p（xc）的表示将需要大小为2的表格N。这个模型的一个普通的简化是假设所有的特征都是条件独立的（即朴素贝叶斯模型[1]):

isin; { }

p（x | c）= P（X [I] | C）。

i=1

随机蕨类植物，在[17]可以解释为上述简单化和完全联合概率表之间的折中：特征被划分为M个组，x₁，.... . . ，x_M，大小S = N / M，并且对这些组进行独立性假设而不是个别特征。这导致以下关于条件概率的公式：

p（x | c）= P（X_i| C）。

i=1

请注意，可以使用每个类别的大小为2SM的表格计算每个组的条件概率或Fern，x_i。在运行时，我们必须简单地计算我们的二进制特征，查找相应的蕨类植物概率

times;

图3.顶部：通过在48times;48像素块和两个相邻字符的中心放置一个小随机字符（带有40种不同字体中的一种）生成的合成数据，并添加高斯噪声和随机仿射变形。底部：来自ICDAR数据集的“真实”字符。训练我们生成的角色探测器

times;

我们的合成例子如图所示 3，以及来自ICDAR数据集的“真实”字符的示例。

图画结构

为了检测图像中的单词，我们使用图像结构（PS）[10]公式，将检测到的字符的位置和分数作为输入，并找到特定单词的最佳配置。更正式地说，假设w =（c₁，c₂，...，c_n）是来自我们的词典的具有n个字符的某个词，_i是i的检测位置的集合^日字符，并且u（f_i，c_i）是在f_ii处的特定检测的得分，用公式E计算。（1）。我们寻求

isin; L

通过优化以下目标函数来找到配置L^lowast;=（f1，...，fn）：

每个角色1000张图像。

L^lowast;= argmin

forall;i，pound;iisin;Li

i=1

-u（f_i，c_i）

nminus;1

i=1

d（f_i，f_{i 1}）

, (2)

存储在表中，并将结果相乘（或者记录并添加）。在我们目前的实现中，特征包括在HOG描述符中对随机选择的条目应用随机选择的阈值[5]在窗口位置计算。这个框架可以很好地与分类数量相匹配，并且已经被集成到用于关键点匹配的实时系统中[17]和对象识别[18].

字符检测的最后一步是执行非最大抑制（NMS）。我们分别为每个做这个

其中d（l_i，l_j）是一个成对的成本，它包含了两个相邻字符之间的空间布局和尺度相似性11。在实践中，使用权衡参数来平衡两项的贡献。

上述目标可以使用动态编程如下进行有效优化。假设D（l_i）是i^日字符的位置固定在f_i处的字符i 1到n的最佳位置的代价：

字符使用简单的贪婪启发式（类似于[9]）：我们遍历图像中的所有窗口

D（1_i）= - u（1_i，c_i） l

分

1 1isin;Li 1

d（1_i，1_{i 1}） D（1_{i 1}）。（3）

按其得分的降序排列，如果该位置尚未被抑制，则我们抑制其所有邻居（即，在某个阈值上具有重叠的窗口）。

字符检测步骤可以直接应用于图像，或者在通用文本检测器识别感兴趣区域之后。

配备了这个简单但强大的分类模块，我们现在必须面对收集足够的训练数据以实现良好检测性能的任务。

合成训练数据收集足够大的数据集是使用监督学习方法的典型负担。然而，一些领域通过对综合生成的图像进行训练和/或评估而取得了成功：指纹[3]，荧光显微镜图像[12]，关键点变形[17]，甚至行人[11, 14]。除了具有无限数据量的显而易见的优势之外，合成训练图像允许精确控制边界框的对齐 - 这对于学习好的分类器通常是至关重要的。

我们使用40种字体为每个字符合成约1000幅图像。对于每个图像，我们添加一定量的高斯噪声，并应用随机仿射变形。示例

注意最优配置L^lowast;的总成本是min_pound;1isin;L1D（f₁）。由于D（）的递归性质，我们可以通过第一次预计算来找到最优配置

对于每个f_nn，D（f_n）= u（f_n，c_n），然后朝向单词的第一个字母向后工作。为了提高效率，我们在执行方程式中的最小化时还包括修剪规则。（3）通过仅考虑与

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[22789]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码

端到端场景文本识别外文翻译资料

摘要

介绍

全图像文字识别概述

字符检测

图画结构

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

端到端场景文本识别外文翻译资料

摘要

介绍

全图像文字识别概述

字符检测

图画结构

您可能感兴趣的文章

最新文档

推荐栏目