基于多特征的人体行为识别外文翻译资料

2022-09-06 11:18:55

英语原文共 8 页，剩余内容已隐藏，支付完成后下载完整资料

基于多特征的人体行为识别

摘要

本文中，我们提出一个融合多特征的框架来改进视频中的行为识别。多特征的融合对于行为的识别是很重要的，常常基于单特征的描述，不能够捕捉到成像的变化（角度，光照等等）和个体的属性（尺寸、年龄、性别等等）。因此，我们使用两种类型的特征：i）量化的时空立方体（STV）词汇表ii）量化的自旋图词汇表，旨在通过把行为作为3D（x，y，t）对象来考虑，捕捉行为者的行为变化。为了最佳地组合这些特征，我们把不同的特征作为图的节点，通过节点间加权边来表示实体间关系的强度。图被嵌入到一个K维空间主体，相似的节点有着相近的欧几里得坐标。这样通过把约束转变成最小值问题来实现的，问题的解是图的拉普拉斯矩阵的特征向量。这个过程就是著名的Fiedler Embedding。所提出框架的性能使用公开可获得的数据集来测试。结果表明多特征融合有助于提高性能，并且从嵌入空间中检索（retrieval）有意义的特征和视频。

简介

视频中的行为识别是计算机视觉领域一个重要的研究方向。人们对人体行为描述的兴趣日益增长，在某种程度上是因为现实应用数量的增长，比如以行为/事件为中心的视频检索、监控场景中的活动监控、体育视频分析、智能家居、人机交互等等。人体行为的分类还仍然是一个具有挑战性的难题，因为成像条件（角度、光照）的绝对变化和个体行为的属性差异。

总的来说，人体行为识别的方法可以以这些“描述”为基础分类。一些主要的描述包括学习人肢体部分的几何模型、空间模式模板、外貌或者地域特征、形状或者形式特征、基于兴趣点的表示、运动/光流模式。特别的，【16,17】利用人肢体部分的几何模型，通过在图像中寻找静态的姿势以匹配目标行为来进行行为识别。这个流行的以形状为基础的表述包括人体的边缘【15】和轮廓（silhouette）【18】。最近，【10】使用一系列3D姿势来表示行为的形状，通过联合跟踪发现不变的特征来进行行为识别。以轮廓为基础的表述也被扩展为通过空间和时间描绘行为者肢体轮廓（【8】，【6】）。基于体积分析法的视频处理方法包括【6,12,19】和【11】。另一个重要的描述近年来引起人们很大的兴趣，这个描述使用空间时间兴趣点和它们的轨迹来进行行为和活动分析。【22,13,23,9】和【14】的工作属于这种分类方法。这个描述主要的长处是它不需要任何分割或者跟踪个体行为。光流法（【20,21】）旨在直接使用光流作为得到一个描述的基础来用作识别。

以上描述的大部分方法提倡使用单个特征进行行为识别。然而，尽管理论上看来，单特征的概念可以捕捉到一定复杂度的人体行为，但是实用性不强。因此，在本文中，我们使用多特征进行行为识别和构建一个通用的框架来从补充的特征中融合信息，以解决具体的问题。特别地，我们使用两种类型的特征：第一种特征是一个量化的时空立方体（STV）词汇表，它被视频中的3D兴趣点所围绕。时空立方体本质上是内在的局部特性，因此捕捉局部外观和运动信息。第二个特征式一个量化的自旋图词汇表，它旨在通过把行为作为3D对象（x，y，t）来捕捉行为者的时空信息【8】。3D对象本身是由人体行为的轮廓刻画。注意，自旋图为基础的特征以前没有被用作行为识别，我们的方法是第一个来探索它解决这个问题实用性的方法。接着，为了最佳地组合这些特征，我们开发了一个框架可以在一定的准则之上，学习不同类特征之间明确的和隐含的关系。这个框架是建立在Fiedler Embedding的观点上的，这是一个和拉普拉斯特征映射（Laplacian Eigenmaps）相类似的，可以明确优化相近准则的代数方法。它把不同的实体嵌入到一个普通的欧几里得空间，因此可以使用简单的欧氏距离来发现特征之间的关系。

需要提及的是，最近出现的文章，提出大量用特征等级融合来改进图像中目标识别和检测的方法。比较流行的选择是基于块特征和轮廓特征的融合。例如，Opelt et. Al.【1】使用从块和彩色分割特征在一个提升的框架中学习一个强分类器。相似的，【5】在一个多层次的提升框架中使用纹理和形状上下文特征。【2】中使用了块和轮廓特征的组合。然而，对比目标识别领域近年来先进的方法，几乎没有任何可用的方法来执行特征融合以改进行为分类。在本文中，我们旨在通过开发一个通用的框架来学习不同行为特征类之间的关系，以填补这一空白。

Fiedler Embedding

本节，我将展示Fiedler Embedding的细节。它最初在【7】中提出，为了从文档库里检索信息。本文中，我们改变这项技术以适应行为分类的需要，并且展示它是如何被用作发现不同类之间的关系的。我们以描述这个嵌入过程的数学推导开始，为此，我们使用【7】中的命名规则。

图1 一个包含多个实体作为结点的图的说明。这包括时空（ST）特征（红色），自旋图特征（黄色）和行为视频（绿色）。我们算法的目的是把这个图嵌入到一个k维空间，这样相似的结点有着相近的几何坐标

令G = (V, E)，V是一组顶点，E是一组边线，代表一个由节点组成的表示不同特征类的图，如图1所示。如果两个特征i和j是相互有关系的，我们在它们之间加入边（i，j）并设置一个非负的权重w_ij。特征相似度越高，权重的值越高。我们的目标是把这个图嵌入到低维的欧几里得空间，那样，之间拥有高权重的顶点在这个空间里变得更加接近。结果是，在这个空间里的空间距离的接近，可以被用来确定顶点的相似性，即使它们之间并没有边线连接（隐含关系）。把这个几何嵌入问题作为一个代数最小值问题，我们在k维空间里寻找边线长度平方的加权和的最小值。如果p_r和p_s是顶点r和s的位置，这个函数可以写成

（1）

omega;_r,s代表节点r和s之间的权重，如果图有n个顶点，目标空间的维数是k，那么顶点的位置可以表示为一个ntimes;k矩阵X，这个图的拉普拉斯矩阵L可以被描述为

（2）

L是一个对称的、半正定的矩阵。注意，L是负的权值矩阵，对角线的值是用来使矩阵各行之和为0。这意味着p_r或者p_s（r=1,2，hellip;，n；s=1,2,hellip;，n）是一个k维向量，代表着k维空间里顶点的坐标。这表明，上述最小值问题的解从矩阵L和X的角度来看，可以表示为

（3）

（4）

第一个约束条件使得嵌入空间的中值点是在初始位置，第二个约束条件避免了把所有的顶点放在初始位置产生的不必要的解。以上等式中1ⁿ是一个全1的向量，△是delta;_i的对角矩阵，全部为正值。正如【7】中所示，上述最小值的解是X=△^1/2[Q₂,hellip;,Q_{k 1}]，Q是L的标准化的特征向量，以L的特征值lambda;_i为非递减的顺序存储。这隐含着顶点i的坐标是L的特征向量（2，hellip;，k 1）的第i项。这个解被称作是图的Fiedler Embedding。注意，Fiedler Embedding和一个更流行的叫做Latent semiotic Analysis（LSA）的技术相关，它是一个线性方法。然而，Fiedler Embedding是更强大的，因为它可以在许多类型的实体间，捕捉一组通用的关系。

行为识别框架

本节，我们将描述我们的行为识别框架，它是利用了Fiedler Embedding。在我们的工作中，我们选择两类的特征，时空（ST）特征和自旋图。这些特征通常在空间和时间方向上，捕捉由于行为者的运动所引起的很强的数据变化。然而，时空（ST）特征仅包含局部外观和运动信息，因而忽略了行为者的形状。为了捕捉整体的形状信息，我们把行为认为是3D对象（x，y，t）并且计算它们的自旋图。一旦特征被计算出来，与给定的行为库相比较，我们通过把它们投影到普通的欧几里得空间使用Fiedler Embedding来发现特征之间的关系。

框架的主要步骤是i）从时空（ST）特征和自旋图，学习视觉词汇表；ii）从训练视频中构造拉普拉斯矩阵；iii）将特征嵌入和分组。这些步骤的算法描述在表1中提供。

表1 行为识别框架的主要步骤

目标：给定Nv训练行为视频，把所有的实体（ST特征、自旋图特征、视频）嵌入到一个普通的k维空间中。

通过学习视觉词汇表量化视觉信息：1）学习ST特征的词汇——Nst。2）学习基于自旋图的形状词汇——Nsi

构造一个（Nst Nsi）*Nv的特征行为共同矩阵，S，用来计数每一个行为视频中特征的频率。

通过tf-idf加权S，来获得一个降权的共生矩阵Srsquo;。

构造拉普拉斯矩阵L：
L的视频-特征相似度直接从Srsquo;中一致的值计算出来。
视频-视频和特征-特征相似度直接通过使用矩阵Srsquo;行的点积来得到

对L进行特征分解，L=V^TDV，V是一组特征向量，D包含了以升序排列的特征值。

构造一个k维空间。选择与k个包括0在内的最小的特征值相一致的k个特征向量，U={u1，u2，hellip;，uk}是k维空间的基础。

映射实体：视频q被映射到k维空间：D^1/2U^Tq/||q||。

3.1.特征提取和表示

时空特征：我们使用【14】中提出的探测器来计算ST特征。这个探测器产生稠密的特征点，并且在行为识别任务中表现得相当好【13,14】。他们通过在时间和空间维度单独地应用两个独立的的线性滤波器，取代在时空域中使用3D滤波器。响应函数可以表示为，是以sigma;为核的空间高斯滤波器，和是一对正交应用在时间维度的一维Gabor滤波器。他们被定义为

和，。

它们对于空间方向上强度的改变有着很强的响应。兴趣点在响应的局部最大值的位置。通过PCA提取这些点周围的时空立方体，并学习梯度描述符。所有的描述符都通过k聚类算法量化到视频词表中去。

自旋图特征：自旋图已经被成功地运用到三维目标识别【3】。然而，它之前还从未被运用到行为识别。在行为识别方面，自旋图可以提供一个更加充足的描述，关于行为的局部形状是如何相对于不同的参考点改变的。这些参考点可能和人身体不同的肢体部分相对相应。为了提取自旋图，我们把行为视频认为是一个三维对象。这个过程有两个主要的步骤：1）生成行为体积，2）自旋图提取。

生成行为立方体：我们通过按次序提取行为者的轮廓，来创建一个三维行为立方体。为此，我们先通过背景差分算法在t帧中得到一个轮廓Ct。为了生成三维行为立方体，我们使用【8】中提出的图理论方法来寻找连续两个轮廓Ct和Ct 1中点与点之间的对应关系。假设L和R是两个分别对应于Ct和Ct 1中的点，我们创建一个有着|L| |R|个顶点的偶图。连接L和R边的权重通过三个要素来估计：距离、方向相似度和形状相似度。假设ci和cj是L和R中两个独立的顶点，它们之间的距离dij是它们3D坐标（x，y，t，）的L2范数。方向相似度

alpha;ij是顶点时间基准之间的角度，形状相似度xi;ij是由它的邻近元素所估计。因此，权重可以这样计算（5）

提取自旋图：Johnson et al.在【3】中介绍了自旋图用来在三维复杂场景下进行目标识别。自旋图（SI）是通过把网格顶点关于一个参考表面点投影到切平面生成的，这个参考表面点称为方向点。自旋图是一个以对象为中心的特征，因此对于尺度、旋转和姿势是具有不变性的。

图2 左：表面点关于方向点O的坐标（alpha;，beta;），右：以O为中心的自旋图。

图2描述了一个将表面点关于方向点O投影到一个切平面。所有的表面点都是在以O为中心的切平面中，半径（alpha;）和深度（beta;）来索引。投影函数表示为。x和o是表面点和方向点O的三维坐标。因此，所有的三维表面点都被投影到二维平面。为了产生自旋图，我们需要量化（alpha;，beta;），并且建立一个二维直方图，这个二维直方图就叫做自旋图。有几个重要的参数控制着自旋图的生成。支持长度——定义了自旋图的尺寸，决定了自旋图的位置。一个大的支持长度可以使自旋图可以捕捉到整个对象的形状，一个小的支持长度可以提供局部形状信息。另一个重要的参数是一个容器尺寸，它决定了自旋图的识别能力。一个大的容器尺寸会导致所有的点都进入一个相同的容器，一个小的尺寸会把相邻的点分离。本文中，容器尺寸被设置为网格分辨率的平均长度。除此之外，均匀取样对于匹配两个形状来说是很重要的。

图3 一些3D（x,y,t）行为立方体（第一列）和他们的自旋图样本（红色的点是方向点）

图3展示了行为立方体和挑选出来的与它们相一致的自旋图。我们使用组合自旋图策略，来取代试图将自旋图两两对比来匹配两个动作。为此，我们先使用PCA来压缩自旋图的维度，使用K聚类算法来量化它们。我们把一组自旋图称作视频词表。最后，行为用组合视频词表模型来表示。

3.2构造拉普拉斯矩阵

Fiedler Embedding的输入是拉普拉斯矩阵L，它是根据表达式2来构造的对称矩阵。在我们的例子中，我们有三个类型的实体：ST

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[146925]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码