在基于内容的视频检索中使用多级ESN-SVM分类器缩小高层和低层间的特征的语义鸿沟外文翻译资料

2022-07-31 02:07

在基于内容的视频检索中使用多级ESN-SVM分类器缩小高层和低层间的特征的语义鸿沟

N BRINDHA和P VISALAKSHI
PSG技术学院，哥印拜陀641004，印度
电子邮件：brindhacsepsgtech@gmail.com; spv@ece.psgtech.ac.in
MS于2015年10月2日收到; 2016年4月25日修订接受2016年7月22日

摘要。基于内容的视频检索系统旨在帮助用户在一个大数据库中检索目标序列。大多数搜索引擎使用文本注释来检索视频。当用户在检索高层语义时这些类型的引擎提供的是低层的抽象概念。在视频检索中缩小这种语义鸿沟仍是巨大的挑战。在本文中，颜色，纹理和形状被认为是低层特征，运动是高层特征。颜色直方图将RGB（三原色）颜色空间转换为分量输入并从帧中提取色调和饱和度值。颜色提取后，应用滤光片计算梯度值。比较梯度和阈值来绘制边缘图。边缘是平滑处理以去除不必要的连接部件。然后，将这些不同的形状提取并存储在形状特征向量中。最后，用SVM分类器对低级特征分类。对于高级特征，通过回波状态神经网络（ESN）来提取深度图像以完成运动特征识别和分类。ESN是一种监督的学习技术，遵循循环神经网络原则。 ESN以时间序列分类而闻名，也证明了它们在手势检测中的有效性。通过结合现有算法，实现了高性能多媒体事件检测系统的构建。对事件检测机制的实用性和有效性通过使用MSR 3D动作对数据集进验证。实验结果表明，提出的检测精度组合比其他算法更好。

关键词：分类；特征选择；SVM；ESN；时空结构。

1.引言

技术进步和社会媒体的出现导致了通过网络技术进行数字视频的捕获，存贮和广播。

例如每分钟在Youtube上传的音频数量达到了72h。在网络上搜索视频已经成为一项具有挑战性的任务，因为搜索引擎使用元数据（即文本注释）来索引和检索查询的结果。传统搜索引擎需要增强视频检索过程，以探索丰富的媒体内容[1]。使用基于内容的视频检索技（CBVR）从视频数据库检索类似的视频。它是一个扩展的基于内容的图像检索（CBIR）系统。考虑了图像的颜色，形状，纹理等特征。另一方面视频检索过程也在帧的特征集获取上和时序分析遵循相同的系统，如检测组帧并相应地选择更好的关键帧。此外对于视频帧，数据集还可能包含音频，文本等。对于事件检测，需要基于运动的和基于对象的数据。

频分析分为两个阶段：低级视觉诸如颜色，形状，纹理等的概念，以及诸如对象和事件之类的高级特征。概念提及的是一个具体的实例或动作。视频中的事件可用来描绘重要信息。事件可以是对象，动作和场景的集合。例如钓鱼活动由鱼，人和鱼杆等概念组成，动作则像是起杆。两个层次的特征提取是不同的是不同的。语义内容提取是一种复杂的过程，因为它需要用户交互和领域专有知识。然而，视觉内容是自动提取的与领域无关[3]。已经提出了各种方法来识别视频中的事件，包括运动[4]和监视视频[5]。这些研究集中在使用事件的时空结构。Lu等人[3] 在玩家的帮助下使用HMM辨别三种亮点位置特征和恒定摄像机运动。亚当等[5]通过一群人在监视录像光流来识别异常事件，例如，在商场里跑。

当目标视频有时空结构时这些方法才适用，即当目标事件已指定。我们的目标是检测具有某些低级特征的事件; 这项工作已经在Microsoft Research（MSR）3D动作对数据集上尝试。从MSR数据集获得的框架已给出图1。早期工作已经确定了用于事件检测机制的各种策略。视频检索的基本概念由三个步骤组成：关键帧，特征提取和匹配。最初视频分为
帧，然后提取帧一致的特征。最后特征与训练组相匹配。一个方法提出将视频转换为帧和分段帧就像物体在图片中的形式。特征提取是通过SIFT算法完成的，匹配是通过最近邻搜索完成的[6]。一个事件检测是在包含部分闭塞和杂乱的背景的视频中进行的。这由三个阶段完成：体积代表反向时空视频体积，使用流代表基于形状特征并将事件作为原子实体来处理，
即通过空间和时间进行匹配[7]。已经提出了基于事件和概念视频的视频特征的中间表示的联合框架。分类器干扰和潜在中间表示是紧密相关的，因此分类器取决于任务和特定分类器。某些其他的工作集中在流行的Bag-of-Words框架[8]。在本文中，提出了一种模型，通过使用颜色直方图和边缘检测方法和SVM进行分类，提取颜色，纹理和形状特征来弥合低级和高级特征之间的语义差距。分类结果被用作第二阶段分类器的模型，使得它选择标记为与查询图像关系的帧。这通过识别帧的SVM向量来完成。然后对这些帧进行运动检测的深度学习，并将ESN算法用于结果分类的最终过程。在多级分类器的帮助下，证明提出的组合降低了假阳性率，提高了检测精度。本文的剩余结构如下：第2节概述了CBVR方法，第3节介绍了我们提出的方法，实验设置和数据集描述在第4节中给出; 第5节给出了结果和讨论，其后在第6节中得出结论。

Figure 1. MSR action dataset.

2.基于内容的视频检索概述

CBVR系统的主要挑战仍然是弥合语义差距。这是因为低级特征被容易地测量，而来自用户查询的高级特征检索过程是困难的。 CBVR的目标是翻译人类查询的问题，并根据功能水平检索结果。 CBVR系统执行的任务分为三个步骤：视频分割，关键帧提取和视频索引（见图2）。

2.1拍摄分割

视频浏览和检索的第一步是将视频序列划分成镜头。射击被定义为表示从单个摄像机捕获的连续动作的图像序列。这些镜头在视频制作中连接起来形成一个完整的序列。拍摄是一个小的索引单元，可以通过组合拍摄和拍摄内部关系来感知高级概念。拍摄分割有两种类型：不连续和连续的转换，包括编辑和特殊效果。而不是涉及每个视频帧，拍摄表示视频帧可以更容易构造。

2.2关键帧提取

关键帧为浏览和检索提供了一个合适的框架。如前所述，代表视频片段的常用方式是按关键帧的拍摄序列。一般来说，有意义的框架包含镜头的主要内容。当用户搜索视频内容时，此方法非常有用。当启动视频搜索时，将相关内容或图像与使用相似距离测量的关键帧进行比较。许多作者提出几个关键帧提取的自动化方式。一个这样的过程是聚类。聚类用于各种学科，如模式识别和信息检索。

2.3特征提取

从帧中提取信息称为特征提取。框架由灰度级的边缘和形状组成。分割涉及分离一次所需的兴趣特征的数量。在我们的方法中，从帧中检索低级特征，如形状，颜色和纹理。特征提取的详细过程将在以下部分进行讨论。

视频检索

分类训练

低层特征（颜色，形状。纹理）

特征提取

关键帧选择

视频分割

高层特征（运动）

预处理

2.3a视觉低级特征提取：通过sobel算子提取颜色直方图，边缘直方图（EH）和边缘方向图的特征，并通过SVM分类器进行分类。

bull;颜色直方图：在使用形状或运动进行识别的情况下，不需要颜色信息。彩色图像被转换为灰度，并且由于计算原因帧的强度值被计算出来。这里我们使用帧中的颜色进行处理。为每类帧获得颜色直方图。在图像中查找像素的颜色分布很有用。帧的颜色不统一；因此我们将帧转换为颜色空间。颜色直方图计算给定帧的颜色方差。这些框架是从RGB颜色空间转换为HSV和YcbCr颜色空间，因为颜色的变化变得可观察。这里H表示描述颜色波长的色相。

算法
输入：视频的RGB彩色图像帧
输出：颜色直方图
开始

bull;在RGB空间中读取输入图像
bull;将RGB转换为HSV和YCbCr色彩空间
bull;提取色调（H），饱和度（S），亮度（Y）和强度值（V）
bull;使用提取的色相，强度和饱和度来获得直方图
bull;同样的亮度，色度分量用于获得颜色直方图
bull;归一化颜色直方图

结束

bull;边缘直方图纹理特征：EH用于提取图像的纹理特征。它被用于图像边界的特征，因此被认为是特征提取的重要阶段。EH用于从背景中分割对象。如前所述，首先将RGB空间中的图像转换为YcbCr颜色空间，并获得颜色直方图。滤波器系数（见图3）在五个方向用作边缘滤波器。通过计算所有五个方向的坐标（x，y）处的图像的变化速率，如等式1中给出的阈值为100，获得EH。（1）。我们也在同一图像上应用了不同的阈值; 当使用较低的阈值时，检测到温和的边缘，并且当阈值增加时，检测到有限的边缘。温和边缘的像素给出了较低的灰度值，并且更高的边缘给出了更高的值。

图3.（a）水平边缘滤波器，（b）垂直边缘滤波器，（c）对角线（45°）边缘滤波器，（d）对角线（135°）边缘滤波器和（e）非对角（各向同性）。

其中Vy和Vx分别是y和x方向上的梯度向量。

Sobel算子用于计算边缘和边缘方向。直方图表示给定图像的五类边缘的出现频率。对于每个图像计算直方图，形成阈值为100的边缘掩模.边缘像素通过幅度大于100的梯度获得。sobel滤波器利用滤波器掩码捕获六个方向的边缘的空间分布。这八个对应于sobel滤波器的分组，用于计数八个方向的边缘像素数量[9]。

算法
输入：视频帧的RGB彩色图像
输出：边缘直方图和边缘方向直方图
植物形象
开始
bull;获取给定帧的RGB图像
bull;将其转换为YcbCr颜色空间
bull;提取图像亮度
bull;使用滤波器掩码系数获得边缘和边缘方向直方图
bull;在滤波器掩码的相应方向上计算梯度
bull;比较梯度值和阈值
bull;如果（梯度值[阈值]
bull;绘制边缘图
bull;标准化边缘直方图和边缘方向
直方图
结束

bull;形状特征提取：形状是图像描述的原始特征。对于形状特征的过滤，图像首先从RGB颜色空间转换为灰度级。Craig公式用于将RGB转换为灰度图像，并应用均值滤波器进行噪声去除。令IG，IR，IB为帧的RGB权重; 然后空间滤波被应用在围绕帧中每个像素的正方形或矩形窗口的每个像素上。然后将该滤波后的图像进行聚类，以识别具有相同灰度级别，颜色和纹理的像素。簇集对象具有不同的特征。这里使用K均值聚类技术。形状算法特征提取如下。

算法
bull;从输入中选择K个数据项作为初始矩心
bull;将与选定的初始矩心分开的剩余数据项目分配给具有最接近矩心的聚类K。
bull;计算新的矩心，直到发生收敛。
bull;因此，确定了去噪图像的聚类区域

K区域被模糊以消除噪声。然后更大幅度的边被标记。因此，边缘被识别和平滑以进行锐化以去除在聚集区域中认为是不必要的多个连接的部件。因此，提取帧中的各种形状，因此检索形状特征。

bull;使用SVM的低级特征分类：SVM在现实世界的应用中实现了最先进的性能，并且对于看不见的数据运行良好。与神经网络不同，SVM产生可重复的结果。通过容易计算误差范围来增加模型泛化性能。 SVM通过将输入向量映射到高维特征空间并找到通过最大化边距分离类的最优超平面来工作[10]。这仅选择称为支持向量的训练数据点的子集。将输入空间映射到特征空间是通过一个内核技巧完成的，该技巧可以将映射提供给高维，而无需专门访问该地方。径向基核和线性内核是SVM中使用最广泛的内核之一。这些被设计为二进制分类器; 因此使用各种技术将SVM扩展到多类问题。

用于估计决策函数的SVM方程如下：

这里l是支持向量的数量，b是指偏离项，yn{-1, 1}是它所属的支持向量的类标志和infin; 通过以下二次优化问题获得：

支持向量的数量不能大于数据集中数据点的数量。SVM分类器对每种颜色进行256色分布值训练空间，HSV和YcbCr。这里SVM分类器由256个训练样本和3个输出类构成。这使用决策功能将256个输入训练样本分组为三个类标签。相对于支持向量的数量生成这些标签。图像的颜色直方图在0和255之间扩展。分类精度随属于同一视频的图像边缘信息而提高。因此，边缘纹理已经被证明是分类的更加区别的特征。当考虑相同的背景颜色图像时，边缘纹理特征是合适的。SVM的局限性在于它缺乏处理动态系统的能力。这可以通过在应用于SVM之前将特征转换为固定的长向量来解决。然而，这导致长向量，从而影响性能。

2.3b视觉语义特征：视觉语义特征：诸如对象，场景和人类行为等几个概念的组合形成一个事件。早期的作品已经采用了很多有希望的事件检测策略。这可以分为跟踪，流动，时空形状和兴趣点。基于跟踪过程的方法逐帧处理视频，并通过将当前帧与模型进行匹配来分割来自背景的感兴趣对象。通过跟随对象运动通过时间生成模型参数的轨迹，并且可以将其与目标时空模式进行比较，以确定感兴趣的观察事件。基于流的方法直接作用于空间 - 时间序列，以通过强力相关性来识别指定的模式而不进行分割。在基于形状的方法中，视频序列的时空体积被认为是3D对象。基于形状的方法的目标是通过形状识别事件。时空感兴趣点在2D类似物方面存在缺陷，例如不能捕获平滑运动，并且在边界产生杂散检测的趋势[7]。

bull;深度学习：与传统的物体检测系统不同，传统的物体检测系统设计出能够共同优化所有层的手动深层模型，从而可以提升性能。一些组件被证明对于检测系统至关重要; 然而，它

全文共9238字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[142844]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码