基于CTPN的自然场景文字识别研究文献综述

2020-04-14 17:27:28

1．目的及意义

1、目的及意义

1.1 研究意义

自然场景的文字识别，可以使计算机充分理解图像中的信息，减少人工成本。例如，可以通过交通路口的摄像头拍摄违规车辆的车牌进行识别，有助于交通系统的管理；通过拍摄商品包装的文字信息，快速获取袋内的商品信息；通过计算机分析报表文章，快速获取自己想要的信息。除此之外，自然场景的文字识别对于智能交互、机器人、无人驾驶等领域也有着十分重要的意义。

传统的光学文字识别主要面向高质量的文档图像，其中的文字大多都是印刷体，背景也十分清晰，辨识度高，但相比自然场景的文字识别，自然场景下图像就更为复杂——分辨率低、排布复杂、字体多样、噪声干扰等，此时，传统光学文字识别就会无法应用。自然场景是我们最为密切的环境，包含图案、位置、文字、结构等各种各样的视觉信息，而其中的文字信息则更为复杂，包含大小、纹理、颜色以及语义等信息，所以相对来说提取这些信息也就变得更为困难。作为许多相关技术的基础工作，自然场景的文字识别的不断发展具有十分重要的意义和发展前景，寻找一个简单、高效的算法是十分必要的。

1.2 国内外研究现状

图像中文本信息识别的研究最初源于Ohya等对路牌、车牌、商店的标牌及货运列车标牌的信息提取，后来经过Lee等对货运集装箱的识别，Zhong等对CD和书籍封面的文本提取，Zhou等从 www图像中提取文本的研究，使得原先只能处理灰度图像的方法发展到能够处理彩色图像，而且解决的背景复杂程度越来越高。近年来的工作热点则集中在场景图像和视频图像方面。
而如今针对自然场景中的文字识别研究也已有了很多，主要可分为基于字符的识别和基于整个单词的识别。

基于字符的文字识别中，Yao等人通过聚类图像块来学习中层笔画特征,然后使用霍夫(HOG)投票算法检测字符。在笔画特征和HOG特征的基础上，使用随机森林分类器来进行字符分类。Wang和Belongie借鉴计算机视觉通用的目标检测方法,提出了一个新的文本识别系统。他们利用字符置信度以及字符之间的空间约束关系，给出最可能的检测和识别结果。但是该算法只能用于水平方向排列的文本的检测识别。Alsharif]和Bissacco等人通过无监督的二分类技术或有监督的分类器，将单词图像分割为潜在的字符区域。Alsharif等人使用一种复杂的，包含分割、矫正以及字符识别的CNN网络，结合使用固定词典的隐马尔科夫模型(HMM),生成最终的识别结果。
基于整个单词的识别中，Mishara以及Novikova等人的工作依旧依赖于显式的字符分类器，但是通过构建一个图结构来推导整个单词。这会遇到和基于字符识别方法类似的困难。

Goel等人使用整张文字图片来识别单词:他们使用基于梯度的特征图与预先制作好的单词图像进行对比，利用动态k近邻来判断当前图片所包含的单词。该方法依赖于一个固定词典以及预先生成的单词图片。Rodriguez等人使用集成的Fisher 向量以及结构化的支持向量机(SupportVector Machine, SVM)框架来建立图片和整个单词编码的关系。Almazan等人进一步探索了单词编码的概念，他们为图片和单词字符串创建了一个编码空间。这其实是Gordo等人方法的扩展:显式利用字符级别的训练数据来学习中间特征。这种方法利用更少的训练数据就可以获得与之前研究相似的性能。Goodfellow等人使用深度CNN对整张图片进行编码，并使用多个位置敏感的字符级分类器来进行文字识别。他们在街景门牌号识别任务中取得了极大的成功。他们还将该模型应用到长达8位的验证码识别任务上，并使用了合成的训练数据对模型进行训练。该方法在google街景门牌号识别任务中获得了96%以上的识别率。同时还在对google 验证码识别任务中获得了99%以上的识别率。Jaderberg 等人对Goodfellow的模型做了细微变动:取消了预测字符长度的分类器，并引入了结束符表示文字结尾。他们随后证明了，使用合成的训练数据训练出的模型，能够成功应用到现实世界的识别问题中。将单词编码为向量是一种可行的词典单词识别方法，但是在无约束情况下，字符之间可以任意组合。当字符数量足够多时，基于固定长度向量编码的方法性能会显著降低。

{title}

2. 研究的基本内容与方案

{title} 2、基本内容及技术方案

2.1基本内容

本课题采用CTPN(Connectionist Text Proposal Network)来对图像进行文字识别。自然图像的文字识别主要分为两个部分，一是检测文本区域，提取文本区域图像；二是对提取出的文本进行处理、识别。通过这样一个过程能够对大多自然场景图像中的文字有一个较高的识别率。

而其中文本检测的难点在于对一个完整的文本线的检测，同一文本线的字符可能存在差异大、距离远的情况，每条文本线的长度可能不同，难度比检测单个目标更大。传统方法是先检测字符，再连成文本，其缺点是没有考虑到上下文，并且步骤复杂。CTPN 方法考虑到同一文本行上的不同字符可以由上下文表示，因此只预测文本在竖直方向上的位置，使用RNN 和CNN 进行序列的特征识别和深度特征提取，从而提高了检测的鲁棒性。CTPN 方法将候选区域产生的滑窗的宽度设为固定值，并在RPN 网络后添加一个LSTM 连接全连接层，从而将坐标回归减少为一个。

2.2技术方案

1.文本区域检测

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码