光照不变文本识别系统对比极限自适应直方图均衡化图像/视频外文翻译资料

2022-08-08 19:31:32

英语原文共 6 页，剩余内容已隐藏，支付完成后下载完整资料

摘要

图像/视频中的文本信息在理解场景/视频中扮演重要角色。在这篇文章中，我们提出了一种基于对比度极限自适应直方图均衡化（CLAHE）的变照度视频文本检测系统。某些启发式规则被应用于预处理视频框架来检测文本聚类。而且，利用新设计的几何规则和形态学运算被用于定位获得的文本检测结果。一旦文本被本地化，文本行被分割后是字符分割。然后，分割的字符被OCR识别，然后将其合成为可听到的语音输出消息以致于人们能够听到和理解呈现在视频中的文本内容。在公开的标准数据集、TRECVID视频数据集和我们自己的视频数据集上的实验结果表明，该方法能够检测、定位和识别各种大小、字体和颜色的文本。

CCS概念

bull;信息系统→信息系统应用；多媒体信息系统；

关键词

文本检测；文本定位；分割；识别；语音合成

介绍

无约束环境下的文本检测与识别是一个具有挑战性的问题在模式识别领域中。这些功能在许多现实世界的应用中扮演重要角色，包括视频索引、视觉障碍辅助技术、企业自动定位和机器人导航。近年来，制作本作品的全部或部分数字或硬拷贝，供个人或课堂使用是被允许的，不可以收取任何费用，但前提是复制品的制作或分发不是为了赚钱或商业利益，并且需要附有本通知的复印件和第一页的完整引文。除ACM外的其他人拥有的作品组成部分的版权必须得到尊重。允许赊账提取。否则，若要复制或重新发布、在服务器上发布或重新分发到列表，则需要事先获得特定许可和/或支付费用。从permissions@acm.org请求权限。

WCI rsquo;15, August 10 - 13, 2015, Kochi, India

c ? 2015 ACM. ISBN 978-1-4503-3361-0/15/08. . . $15.00

DOI: http://dx.doi.org/10.1145/2791405.2791498

自然图像中的场景文本检测与识别问题逐渐被计算机视觉界关注[21]、[5]、[11]。尽管一些可利用的视频数据量正在急剧增多，但将文本读取解决方案扩展到视频领域的工作相对较少。文本通常出现在日志、字幕、标题、横幅。视频中的文本包含了很多针对多媒体内容的语义信息。文本的变化是因为大小、样式、方向和对齐方式的不同。这些因素使得视频帧中文本的自动提取和识别成为一项具有挑战性的任务。文本检测在数字图像、视频数据库和网页中是重要的检索。然而，，这是一个非常有挑战性的问题自从文本经常被嵌入到复杂的背景中。在这篇文章中，我们提出了一种从视频中提取和定位文本的方法。本地化文本被进一步识别并转换为音频。这个被提出的系统检测广告视频、新闻视频、漫画视频等视频中的文本，并转换成音频。视频帧中的文本信息可能对比度差。为了解决这个问题，增强技术被用来检测文本的存在并使它更加清晰。使用OCR，分割的文本被识别，并进一步作为一个语音合成器的输入[11]。识别出的文本被转换成语音，这可帮助我们理解视频中的场景。论文的其余部分安排如下。相关工作见第2节。第3节讨论了提议的方法。第4节给出了实验结果，并与其他方法进行了比较，第5节给出了结论。

相关工作

在上个十年，几种从视频中提取文本的方法被提出。它们大多分为以下几个阶段：文本检测、文本分割和字符识别。整个文本提取系统的性能依靠于文本在图像或视频帧中的准确定位。一般来说，现有的文本检测方法大致可以分为两类：基于区域的和基于纹理的。基于区域的方法将属于同一同质颜色的像素分组。基于纹理的方法扫描图像并将文本视为一种特殊的纹理形式。

Cai等人[13]介绍了一种对所有Y、U、V通道应用Sobel边缘检测器的方法，该方法考虑了边缘强度和边缘密度。Coates等人[5]提出了一种生成Sobel边缘映射并进行k-均值聚类的方法来分离文本和非文本部分。在Shivakumara等人[15]中，文本区域的水平最大梯度值用于文本本地化。文[19]中提出的方法得到的频域系数通过离散余弦变换（DCT）来进行特征提取。通过阈值化过滤器响应，空余文本区域被丢弃并将剩下的区域被分组作为文本区域。Epshtein等人[2]提出了一种利用笔划宽度变换获得笔划方向的方法。但是，此方法不能正确地对分组这些字符。Ali等人[1]设计了一种使用带的图像边缘检测技术。Wong等人[8]设计了一种方法，通过观察文本区域的最小尺寸，找出连接组件的值应小于阈值的文本区域，并根据经验选择阈值。然后每个连接的组件都被改造为具有平滑的边界。然而，这种方法的成功往往取决于阈值的选择。基于连通分量（CC）的方法来自于对文本区域在颜色方面具有相似性质并且保持一致性。候选CCs被提取通过关于边缘轮廓特性的方法，然后通过对小波系数的分析对无文本分量进行修剪。[12]应用了一种自适应二值化技术来识别连接的组件。对文本区域进行统计分析，以确定哪些图像特征是文本的可靠指标。从文献综述中可以看出，基于连通分量的方法实现简单，但不具有鲁棒性，因为它们假设属于同一连通区域的文本像素共享颜色或灰度等公共特征。相反，基于纹理的方法可能不适合小字体和低对比度文本。此外，基于边缘和梯度的方法执行速度很快，但在背景复杂的情况下会产生更多的误报。另一方面，这些方法的主要问题是在选择阈值以区分文本像素和非文本像素时[11]。上述观察结果使我们设计出一种使用启发式的方法，该方法有助于在误报次数较少的视频中有效地定位和识别文本簇。

提议方法

所提出的文本定位系统如图1所示，各阶段的细节如下所示。

3.1视频镜头边界检测

在本章节中，我们将介绍一种基于颜色矩提取关键帧以供后续处理的方法。给定一个输入视频包含多个帧，我们计算每个帧的颜色矩，并使用欧几里德距离度量来衡量相似性在帧之间。依据设置的阈值，如果帧之间的差异非常大，则称为检测到镜头。从每个镜头中，基于时空颜色分布提取关键帧[3]。

图1：提议方法的流程图

帧的Y、I和Q分量的颜色分布由其颜色矩表示，概率分布由其矩唯一表征。我们计算帧的颜色矩来捕捉帧的特征如下。I^thcolor分量的第一个色矩由

其中pi ，k是一帧的k^th像素的i^th颜色分量的强度值，N是该帧中像素的总数。

然后i^th的颜色分量的h^th矩阵 h=2,3，...

计算帧F_j中每个颜色分量的前H个矩阵，以形成特征向量F_j的，其中j=1,2..n,如下所示

其中z=H*3，并且alpha;₁，alpha;₂和alpha;₃是Y，I，Q分量的权重。然后帧f_j和f_j-1之间的差计算如下：

当p设置为2时，d（i，j）是帧j和帧j-1之间的欧几里德距离。D值表明连续帧的变化趋势。如果| D |gt;T1，则检测到切割，其中T1是切割阈值[23]。

3.2关键帧提取

关键帧提取基于时空颜色分布[18]。时间最大发生帧被构造通过考虑像素在整个视频镜头中的时空分布。我们现在计算镜头中的帧与构造的参考帧之间的加权距离。当距离曲线的峰值达到高压缩比和高保真度时就可提取关键帧。

3.3预处理

在这个阶段中，利用图像增强技术对视频关键帧进行预处理。首先将关键帧转换为灰度图像（参见图2（b））。视频中的运动常常导致视频帧的模糊性和低对比度。因此，我们采用图像增强技术以更好的方式可视化文本（图2（d））。在此过程中，我们使用对比度极限自适应直方图均衡化（CLAHE）方法来增强图像。图2（d）和（e）分别示出了具有相应直方图的增强图像。

图2：预处理结果：a）输入视频帧b）灰度图像c）增强前直方图d）增强后视频帧e）增强后直方图f）第100行强度剖面

从图3可以看出，自适应直方图均衡化（AHE）[14]改善了图像中的对比度，但和普通直方图均衡化不相同。AHE有在图像的相对均匀区域过度放大噪声的趋势。当像素值在整个图像中的分布相似时，直方图均衡化（HE）很好地工作。然而，当图像包含比大多数图像明显亮或暗的区域时，这些区域中的对比度将不会得到充分增强。

图3:HE、AHE和CLAHE之间的区别：a）灰度图像b）HE之后的图像c）AHE之后的图像d）CLAHE之后的图像

在我们的工作中，我们使用了对比度限制AHE（CLAHE），它被发现在选择局部直方图映射函数时更灵活，其中也可以减少不希望的噪声[17]，[12]。

3.4文本检测

本文提出了文本定位的过程，主要分为三个阶段，也就是识别视频帧中的文本区域、文本与背景分离和二值化。预处理后得到的增强图像包含文本块和非文本块。我们应用Ostu的二值化方法来获得文本聚类。这种二值化方法通过保留强像素来分离前景和背景。然后，对二值化后的图像进行反求，以便正确区分图像的背景和前景。二值化后获得的有效文本区域也可以包含一些非文本块。为了提高系统的性能，利用几何规则去除这些非文本区域。在这个假阳性消除过程中，我们使用四连接性在形态学上打开二值影像以移除小物件。这将从二值图像中移除所有连接的组件，这些组件具有少于四个像素的连接，从而生成另一个二值图像。然后我们确定连接的组件并计算每个组件的面积。然后，我们使用8-连通性标记连接的组件，并丢弃小的断开连接的组件。上述过程如图4所示。

3.5文本本地化

文本定位主要集中在确定检测到的文本区域的边界框[20]。在此阶段，通过将小组件分组为连续的较大组件来标识文本区域。采用四邻域连通的连通成分分析方法，将文本成分组合在一起形成文本区域。消除了尺寸较小的非文本像素。一旦文本区域被识别，矩形框被放置到这些文本区域，最后文本被本地化，如图4所示。

图4：文本定位结果：a）增强图像b）检测到的文本簇c）反转图像d）垂直细节e）水平细节f）本地化文本

3.6文本分割

在这一过程期间，本地化文本被分割成文本的基本实体也就是文本行和字符，因为它是识别的重要阶段。分割的文本图像如图5所示。在行分割过程期间，我们使用基于投影轮廓的统计方法来分割视频帧中的直线。

图5：文本分割结果

水平投影剖面定义如下：

垂直投影剖面定义如下：

在字符分割中，我们得到来自行分割的一行文本作为输入。然后，对包含文本行的图像进行平滑预处理。我们使用连接成分分析将文本行分割成字符。我们计算每个边界框的宽度，并计算包含字符的所有边界框的平均值。然后，我们将每个边界框与平均值进行比较。如果所有边界框都等于平均宽度，那么很明显行中的所有字符都被正确分割。如果长方体与平均宽度不符，则会将该特定长方体处理到下一个称为垂直投影剖面分析的步骤。此步骤是验证所有边界框仅包含一个字符，如图5所示。

3.7文本识别

文本识别主要用于分析和理解图像/视频中的文本。该章节讨论如何识别获得的分段字符在前一阶段中，并且在识别中有关的步骤在图6展示。给定一个字符图像，OCR源于字符的特征，然后将特征用作分类器的输入。在这里，我们使用模板匹配条件

图6：文本识别步骤

将未知模板与已知模板匹配在数据库中。如果发现未知模板与数据库中的任何已知模板类高度相关，就会将特定的类标签分配给相应的模板。经过比较，输出在记事本中以字符的形式显示，如图7所示。

图7：文本识别结果

3.8语音合成

在这个阶段，语音合成模块使被识别出文本转换成语音流。该语音合成过程在图8中突出显示，其产生与人类声带相似的声音。

图8：语音合成过程

合成器执行实质性的分析和处理，来精确转换一串字符成声音流，声音听上去像说的一样。语音合成系统将输入分成更小的输出文本块（韵律短语）或确定哪些单词需要强调。在第一步中，系统指定必须发出什么语音和怎样发出这些语音。在第二步中，这些规格被转换成实际的语音。目前在匹配过程中使用的语音合成系统，通过在一个庞大的人类语音数据库中搜索合适的语音组合来生成语音。然后将找到的最佳组合串联起来，并在必要时进行修改以达到所需的效果。OCR是一个可识别的字符或单词，其结果现在由语音合成器转换为语音。从OCR获得的输出现在作为输入到语音合成器，该合成器识别音调变化并将文本合成为语音，以便人类能够听到。

4.实验结果

本章节展示了实验结果来显示所提出的方法的成功。系统对各种数据集的评价表明有能力检测和识别视频中不同大小、风格和类型的文本[4]。

所提出方法的性能被评估，关于f量度，它是两个量度的组合：Precision（P）和Recall （R）。应当注意到我们的方法使用启发式的方法来检测文本，并使用如表1所示的艺术文献方法的局部区域研究。该梯度基于方法[15]来查找图像/视频帧中强度值的最大值。这会受到阈值固定的影响，并产生一些误报。基于边缘的方法[6]确定强度值并寻找文本和背景之间的对比度用来检测边缘。这种方法也是失败的，因为它会产生更多的误报，特别是当背景和文本有点同类时。我们还对自己的视频数据集进行了管理实验，并根据同样的精度指标和召回指标评估是否突出，如表2所示。对于一些视频，所提出的方法被发现是成功的因为在大多数视频帧中的检测次数较少。我们还尝试取取识别本地文本在分割后。在这里，帧被随机选择，然后我们手动计算分割字符数、准确识别字符数以及视频帧中的错误检测数。识别结

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[240344]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码