基于关键姿势和原子运动的多层码书的活动人体识别外文翻译资料

2022-10-16 04:10

英语原文共 12 页，剩余内容已隐藏，支付完成后下载完整资料

基于关键姿势和原子运动的多层码书的活动人体识别

摘要

考虑到一个事实，人类的活动可以直观的视为在一个特定的顺序下序列的关键姿势和原子运动，本文提出了一种利用多层码书的原子运动动作识别人的方法。受人体关节动力学模型的启发，对人体各肢体的归一化相对方位进行了计算。为了精确地提取关键姿势和原子运动，特征序列根据其潜在的差异分割成构成特征片段和运动特征片段。每个人的行为层次码书构造了从构成特征段和原子运动中提取的关键姿势从运动特征提取与每一个关键的姿势。这个多层码代表每个人的行动模式，可利用所提出的模式匹配方法识别人类行为。有三种分类方法采用基于分层码本的动作识别。有两个是公共行动数据集，即cad-60和msrc-12数据集，用以说明所提出的方法的优点。实验结果表明，与其他方法相比较这种方法可以得到一个更好的性能。

1 简介

人类行为识别一直是一个非常活跃的计算机视觉和机器人研究领域，包括老人护理，人与器人交互等。随着人口的老龄化，服务机器人在国内业务和医院服务领域有着巨大的发展潜力。对人类行为的观察和反应是自动的服务机器人的基本技能。基于RGB图像序列的传统人类活动识别一直是一个长期的富有挑战性的工作，其中的一部分通过那些缺少的RGB图像在不同水平上检测和跟踪人类活动。感谢那些廉价的深度传感器的发明，如微软Kinect传感器，它能够实时捕捉RGB-D图像。最终，基于RGB-D图像序列的人类行为识别算法出现了。考虑到一个事实，人体是一个由人体关节连接的刚性节段铰接系统，人类的行为可以被认为是一个不断进化的过程。因此，从RGB-D图像中提取的骨骼数据可用于表示人类行为，这是不依赖于目标对象的。此外，基于在相似的热地图中依照人类活动轨迹去识别群体活动的灵感，人类的行动可以仿照人类关节的轨迹和可以利用的相似性的轨迹识别人类的行为。

然而，在坐标系或局部坐标系中，骨骼数据只携带人体关节的位置和方向信息。由于级间不同的人体行为和类内变化时，不同的人执行相同的操作之间的相似性，这是不容易提取有力的行动模式对于每个人的行动。此外，该骨架数据的稳定性和准确度可能是不令人满意的，由于传感器的准确性和骨架提取算法的有效性的限制，这会带来对人类行为识别的负面影响。在这种情况下，它通过帧识别人的动作帧的方法可以得到令人满意的结果。慢速特征分析（SFA）为基础的方法可以改善鲁莽性类内变化，但类间的相似性可能不会均匀地处理。同时考虑到，一个人的动作可以通过关键姿势和原子运动的以特定顺序的序列来直观地表示，如果关键姿势和人的行动的原子运动可以同时和单独地提取，在关键姿势和原子运动之间的统计信息和暂时的序列信息可以平衡级间的相似性，并在一定程度上平衡类内的变化。此外，人类的与主要的姿态和原子运动的行动表示可以使传统的周期性运动检测更高层次的感知更容易。

在本文中，将描述基于关键姿势和原子运动的多层码书的个人的行为识别方法。如表1中所示，受到人体关节的动力学模型的启发，我们构建具有标准化相对方向的特征向量的每个肢体分别。为了保证关键姿势和原子运动的效果，特征序列分割成姿势特征段和运动特征段，关键的姿势和原子运动分别从姿势特征段和运动特征段被提取。多层码书基于关键姿势和原子运动代表每个人的行动的行为模式构建。此外，左撇子多层码书和右撇子多层码书是专为每个人的行动建立的，因此，无论用右手的人还是左撇子都可以在无需额外的镜像操作下直截了当的识别出来。为了评估该提案的有效性，朴素贝叶斯近邻（NBNN）方法，支持向量MAC的海因（SVM）方法和随机森林（RF）方法被用于基于多层对人类活动进行分类。两个公共数据集，即康奈尔CAD-60数据集和MSRC-12数据集，用来验证了该方法的性能。

2 相关工作

2.1特征描述

各种传感器的数据已被用来是别人类行动，包括RGB图像、RGB-D图像，深度图像，骨骼数据，加速度计数据，无线传感器网络的数据等等。这项研究主要针对人体动作识别方法与骨骼数据，所以几个基于骨架的人体动作识别方法将在本节里公布。虽然骨骼数据可能由于闭塞和数据损坏是不可靠的，但是骨架提取不在本文的研究范围内。

骨骼关节的相对位置或相对取向通常用于人体动作识别。这个人体关节位置相对于躯干关节结合为每一帧的构成特点和在两个不同的帧的姿势特征的差异。此外，每个关节的旋转矩阵是用来转换的位置和方向，在坐标系统中，以确保在本地坐标系统，从而确保视图不变性。从人体动作识别的骨骼序列中提取的锥体运动特征，计算三维骨骼关节的位置偏移量作为运动特征，以保证为视图不变性的姿势表示，局部骨骼描述符编码联合四周的相对位置提出了骨骼的四边形。特征关节结合静态姿势、运动特性和整体动力学，提出了新动作描述。随着时间的推移，骨骼关节位置的协方差矩阵的应用作为序列的一个判别标准描述序列。这时空兴趣点（STIP）的特点提取人类行为识别。此外，各种类型的基于直方图的描述也提出了人体动作识别，例如，三维关节位置的直方图（HOJ3D），面向位移图（HOD），面向4D正常直方图（HON4D）。从不同的采取的所有关节信息的方法上均等考虑，Oflietal提出了一种新表示形式，称为最详细的关节序列（SMIJ），只有用于每个信息最多的关节人类行为的识别。 Jiang Et等人分析的人体关节的平均分布利用骨骼方面来衡量相似姿势，也利用它用于人类行为的识别。一种新型人腿集成模型，提出了表示骨骼关节的一个子集的相互作用。与利用骨骼特征或对动作识别的骨骼特征的统计信息的方法不同的是，这种方法以缓慢的特征分析（SFA）方法减少类内方差和和SFA的结果被送入分类器对人的行为的认可。不同于特征提取，并将其送入方法按帧，Shan和Akella段分类器架从三维骨骼数据序列和提取操作模骨架数据段。动作模板，但不是特征序列，是用来训练分类的。

2.2分类模式

人动作识别可以被看作是一个分类问题。对于这样的问题，训练和测试数据是从骨架数据和/或RGB三维数据提取的特征序列。特征序列可被认为是马尔可夫的时间序列数据，它不能确保测试序列具有相同的长度的训练序列。人体动作识别方法可分为两大类：低层次的特征序列分类方法和高层次的特征序列分类方法。

3 多层码书的结构

3.1特征描述

3.1.1骨骼数据的预处理

一般地，X,Y,Z坐标系中的人体关节可以是提取作为从RGB-D图象序列骨架数据。鉴于人体是刚性链段的铰接系统，骨骼的数据可以被用来表示这是较少依赖于对象启示人的行动。然而，骨骼数据的稳定性和精确度并不总是令人满意。由于不同的人类部分的闭塞，“损坏”骨架数据可能出现。因此，骨架数据的预处理是必要的。我们采用移动平均滤波器采取预处理骨骼的数据。

3.1.2相对定位

由坐标表示的位姿描述坐标系中的人体关节或局部协调系统可能在不同的情况下对不同的学科敏感，考虑不同学科的高度，或肢体长度，距离到相机等，在我们的研究中，归一化相对定位（NRO）充分利用动力学利用人体关节模型来表示人类姿势。一个人体关节NRO是计算相对它旋转的关节，但不是相对的躯干或髋关节中心。例如，左肘关节的NRO是计算相对左肩关节，因为左肘旋转人体内的左肩，如图2所示：

3.1.3肢体特征表述

一般来说，当人类描述一个人的行为的时候，人的四肢的运动，但不是人类关节的运动是可以描述的。不同的人类行为用到不同的四肢，并不是所有的四肢都平均地在每一个动作中被用到，而且人类行为可能会伴随没有意义动作。、例如，当人在喝水的时候，他们可以站立，坐，或徘徊。当喝水的时候，“站”，“坐”，“徘徊”是不重要的甚至会被混淆。因此，当对人体动作识别的时候，很有必要去分析描述每一个肢体动作。

在这项研究中，我们分开提取每个肢体的特点，包括左上肢，右上肢，左

下肢，右下肢和躯干。不同于关节四周，我们将根据人体结构或机器人分离关节组织群。从表1和表2中我们可以看出每个肢体的特征向量的维数是非常小的。在两种情况下的纬度分别是3*4=12和3*3=9，即使整个人体的特征向量的总维度只有12*5=60和5*9=45。这也证明了模拟特征表示的有效性。

3.2特征序列片段

任意两个不同关节向量的潜在差异都可以基于它们的潜在能亮定义，根据公式：

（1）

根据上述公式（1），潜在的差异表明势能的差异。为了将特征序列分为构成特征段和运动特征段，我们采用基于阈值的分割方法。

（2）

特征序列的部分序列作为构成特征段，而其他的标记为运动特征段。上述公式(2)中，|·|是绝对的值运算，E_min是一个经验参数。

3.3姿势码层

自从特征序列被分割成姿势特征段和运动特征段后，关键姿势可提取每个肢体动作。不同的关键姿势可以使用GMM从整体特征序列中提取，同时关键姿势用模拟的方法从姿势中提取不同的特征段。姿势特点包括静态姿势和微小的运动姿势，从而从姿势中提取的集群特征段可以有效的表示关键姿势和人体正常状态。在姿势层的码本中，每个码书代表一个关键姿势，如表4和表5所示：

3.4运动码层

关键的肢体姿势可以通过GMM直观地从姿势片段中集成到一起，但原子运动却不能。原子运动表示过渡过程之间的关键姿势，因此根据相邻和相邻的关键姿势分类运动特征段是很有必要的。有连续序列标记段（包括姿势特征段和运动特征连续序列）1；2；hellip;Ns，其中Ns是段的总数特征序列。原子的提取过程运动可以如下描述：

步骤一：关键姿势的标记姿势特点段；

步骤二：分类运动特点片段；

步骤三：从运动群中提取原子运动。

在运动码书中，每一层的码字运动都表示一个原子运动，将在图4和图5中说明。特别需要指出的是，并非所有运动集群MC(a，b)都有有数据生成原子运动，因此一些元素在运动层的码书中可能是空的。

4 分类方法

不同于已发表的特征向量或特征描述方法，距离计算在先前的描述中用于训练和测试。三种分类方法，例如朴素贝叶斯近邻，支持向量机和随机森林，用于评估我们的多层码书。这些方法的设置讨论如下：

4.1朴素贝叶斯近邻

该方法（NBNN）是一种非参数分类，适用于处理大量的类别，并且能够避免过度的拟合问题。如果给定的距离，测试子序列可分为：

（3）

其中Dist_c^l在人体活动图案中是肢体ls的最佳匹配距离。

4.2支持向量机

支持向量机试图去找一个超平面，这个超平面能分离不同的类别，并且能在非线性分类的问题上展现出它极好的性能。为了去训练和测试支持向量机，计算距离Dist结合一种距离向量如DV=｛Dist_c^l|l=1......,L,c=1......,C｝,DV属于R^{1times;（Ltimes;C）}，然后DVs用于训练一对多SVM模型。每个距离向量的维数是Ltimes;C，线性核心方程也用在一对多SVM中。

4.3随即森林

射频是一个包含多个决策树的集成分类器。DVs用于训练和测试射频模型，就像SVM一样。射频决策树的数量在我们这个实验中是200个。

5 实验结果

两个公共数据集，例如科内尔CAD-60和MSRC-12，它们用于对模拟多层码书的行为表现进行评估。几个国家的最先进的骨架为基础的方法被用来与所提出的方法比较。

阈值E_min是一个靠经验得出的参数。基于基本特点是归一化相对方向的事实，在我们这个实验中E_min是0.015，肢体参数L=5，每个肢体的关键姿势参数C_kp=9，每个原子运动的有序聚集中心的参数C_am=2。模拟多层码书的层数参数M是一个重要的参数，当M太大的时候，子运动就会混合中值运动并且会被错误分类，当M太小的时候，丢失的运动信息可能在运动信息中造成无法区分的能力。在本次实验中，M=7。所有的实验在MATLAB2012b中执行，并且用到GMM和K-MEANS函数，其中SVM和SF都是解码的。

5.1CAD-60数据集实验

5.1.1数据集描述

康奈尔CAD-60数据主要集中与人们日常活动。该数据集是由微软的Kinect采集传感器，11个人体关节的旋转矩阵15个人体关节的位置收集从而得到每帧。四个人在这个数据集中于5个不同的位置执行12种类型的行为动作。四个测试对象由两个男性和两个女性组成，其中三

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[151174]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码