自然场景图像文本定位和语种分类方法研究文献综述

2020-05-04 21:17:55

1．目的及意义

1.1目的及意义

随着智能终端的普及，数码相机、智能手机和监控摄像机等具备拍照或摄像功能的电子设备的大规模普及和应用，使得图像的获取变得日趋方便。与文本和音频相比，图片具有直观、形式多样以及信息含量大等优势。互联网的飞速发展使得图片的传播变得十分方便和快捷，因此图片正逐渐成为互联网上的主流内容。随着现代科技和人类社会的发展，人们对图像的检测和识别技术提出了迫切的需求。

场景文本是自然场景中最普通的视觉对象之一，包含丰富的颜色、轮廓、结构等底层信息。读取场景文本有助于实现许多有用的应用程序，例如基于图像的地理定位。除此之外，自然场景还蕴含有简洁、明确的语义信息^[1][2]。比如道路标志，车牌，产品包装中等，这些文本信息内涵丰富，是对自然场景表现的重要补充，同时也是描述和理解场景内容、在更高层次认知影像的关键线索。尽管与传统的OCR^[3]，和FRCN^[4]相似，但由于前景文本和背景物体的千变万化以及不可控的光照条件等，场景文本的阅读更具挑战性。

直观地说，场景文本阅读可以进一步分为两个子任务：文本检测^[5]和文本识别^[2]。前者的目的主要是以单词边界框的形式，将图像中的文本进行定位。文本检测是场景文本识别系统的一个重要步骤，也是一个具有挑战性的问题。与一般对象检测不同，场景文本检测的主要挑战在于自然图像中任意方向，小尺寸和显着不同的文本长宽比^[6]。后者则主要是将文本图像裁剪成机器可解释的字符序列。在本文中，我们借助一个基于SSD^[5][8]的可训练快速场景文本检测器^[5]，进行场景文本的阅读。它可以在单个网络正向传递中以高精度和高效率检测任意导向的场景文本。

自然场景文本识别的目的是就是通过利用人工智能与模式识别技术，使计算机、智能手机等能够像人一样快速、准确的识别自然界中普遍存在的文字，充分发挥计算机在处理海量数据方面的优势。因此，对自然场景的检测技术进行研究，尤其是针对不同的语种的场景文本识别有着重要的理论和现实意义。

1.2 国内外研究现状

自然场景文字是图像高层语义的一种重要载体，近些年自然场景图像中的文本检测与识别技术越来越引起人们的重视。特别是近年来文档分析与识别国际会议（International Conference on Document Analysis and Recognition ,ICDAR），国际计算机视觉与模式识别会议（Conference on Computer Vision and Pattern Recognition，CVPR），国际计算机视觉大会（ International Conference on Computer Vision，ICCV），欧洲计算机视觉国际会议(European Conference on Computer Vision，ECCV) 等顶级国际会议的举办更是将这一领域的权值不断提升。

ICDAR由国际模式识别学会发起，1991年起每两年举行一次，是文档分析与识别领域公认的最为重要的国际性学术会议。ICDAR专注于文本领域的识别与应用，自2003年大会设立“Robust Reading Competitions”以来，该竞赛就成了评测和检验自然场景/网络图片/复杂视频文本自动提取与智能识别最新技术研究进展的最为重要的国际赛事及标准，在计算机视觉、图像处理以及多媒体等领域也具有广泛的影响力。高技术难度、强大实际应用性，使该盛会受到科研院校、科技公司等的关注，至今已有89个国家参与。

CVPV,ECCV,ICCV是由IEEE举办的计算机视觉和模式识别领域的三大会议顶级会议,会议的主要内容是计算机视觉与模式识别技术。就目前而言，国内外学者在该领域研究上投入了大量的时间和精力，催生出众多优秀的研究成果，在场景文本识别的发展过程中，目前的检测方法大致可以分为三类：

1）基于字符：首先检测单个字符，然后将其分组为单词，例如通过对极值区域分类来定位字符。然后，通过穷举搜索方法对检测到的字符进行分组;

2）基于单词^[5][6]：用类似于普通对象检测的方式直接识别单词，首先，使用与类不相关的提案生成器生成候选词^[9]，然后这些建议被随机森林分类器进行分类，最后，采用用于边界回归的卷积神经网络来修改边界框。

3）基于文本框^[10]：检测文本行，然后分解成文字。文本行识别是文字识别中另外一个传统的问题，包括有基于分割^[9]和无分割^[15]的方法。

法国的学者在2015年用多方向LSTM的方法来解决中文脱机手写文本行识别，但是当时的性能还比不过传统的方法。当然现在富士通及中科院的团队把传统方法结合CNN^[8]以后，现在的性能有了明显的提升。

随着深度学习的广泛应用，计算机视觉取得了突破性的发展，很多传统任务（比如图像分类，文本检测，场景分割等）的性能大幅度提高。但是在更高的水平上，图像处理开始遇到了新的瓶颈。要获得新的技术进步，一个重要的方向就是打破传统视觉任务的藩篱，把视觉理解与自然语言等其它模态的数据结合起来。近几年来，该领域文献的增长十分迅速，说明自然场景文本定位技术已经引起了国内外大量研究者的兴趣，计算机高精度，高效率处理图像信息的时代一定会到来。同时，我们也应认识到现在仍存在一些缺陷和不足，主要体现在：1，如何准确定位不同语言的自然场景文本；2，大部分的识别系统仅仅针对于英文字符，对不同的语言不具有普适性和鲁棒性。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码