在人脸识别中基于协方差矩阵正则化的特征融合外文翻译资料

2022-11-13 16:06:31

英语原文共 5 页，剩余内容已隐藏，支付完成后下载完整资料

20151309079-高鹏-英文文献中文译文

在人脸识别中基于协方差矩阵正则化的特征融合

摘要：多特征的融合对于实现最先进的人脸识别结果具有重要意义。这已经在传统的和深度学习方法中被证明。现有的特征融合方法要么先降低每个特征的维数，然后将所有的低维特征向量连接起来，称为DR-Cat，要么反之亦然，称为Cat-DR。然而，Cat忽略了不同特征之间的相关性信息，这对于分类是有用的。另一方面，在Cat-DR中，从训练数据估计的相关性信息可能不可靠，尤其是在训练样本数量有限的情况下。本文提出了一种协方差矩阵正则化（CMR）技术用于解决DR-Cat和Cat-DR问题，它对训练数据协方差矩阵的交叉特征协方差进行赋权。因此，在训练特征融合模型之前，对训练数据估计的特征相关性进行正则化。将CMR应用于4种特征融合方案：3色通道像素值融合、3色通道LBP特征融合、单色通道像素值与LBP特征融合、2种深度模型提取的CNN特征融合。利用MultiPIE、Georgia Tech、AR和LFW等数据库对人脸识别和验证进行了大量的实验。结果表明，所提出的CMR技术显著地并且始终优于最佳单一特征。

1 概述

人脸识别由于其日益增长的安全需求、商业应用和执法应用而成为一个非常活跃的研究领域。在人脸识别中常常没有单个特征足够丰富来捕获所有可用信息。鲁棒的人脸识别需要考虑多个特征集，这些特征集可以是不同颜色通道、不同类型特征以及由不同深度模型提取的特征。近年来，卷积神经网络（CNN）为人脸识别中的特征学习提供了一种有效的工具，具有很好的应用前景。结果已在文献[18-19]中获得。预先训练的VGG-Face模型是从包含2622位名人和公众人物的2.6M张网络图像的大型面部数据集中学习的。它被广泛用作人脸图像分类的特征提取器，如文献[20-22]。不同于VGG-Face的体系结构，文献[19]的ResNet包含对信号进行加性合并的残差模块。文献[19]的作者认为，残差连接对于训练非常深的体系结构来说是非常重要的。研究 VGG-Face与RESNET的结合体是很自然的，这将允许两个模型获得彼此的优点。因此，我们使用最近发布的CASIA-WebFace数据集的图像来训练ResNet-like CNN模型，并通过特征融合将其与预训练的VGGFace模型结合。

特征融合往往导致非常高的维数。例如，稠密地标中密集地提取了文献[24]中的多尺度描述子，并将其连接在一起形成100k维特征向量。特征向量的高维给鲁棒人脸识别任务带来了巨大的负担。因此，降维是特征融合的关键模块。现有的特征融合方法一般可分为两类：DR-Cat和Cat-DR。DR-Cat在多个特征级联之前对每个特征应用降维，而Cat-DR反之亦然。文献[11]中Choi等人在以列顺序级联所有低维特征之前，使用DR-Cat分别减少每个彩色区域局部纹理特征的维数。在文献[13]中Tan等人使用PCA通过平均相似度得分（与DR-Cat相同）来降低Gabor小波和LBP的维数。DR-Cat也在文献[12，25-27]中使用。DR-Cat算法在将每个特征连接在一起之前分别降低其维数，从而忽略了相关性信息在特征融合过程中所起的重要作用。为了利用信息的相关性，Yang等人首先使用Cat-DR将三个彩色分量连接成一个模式向量，然后在级联的模式向量上执行PCA或EFM。在文献[24]中Cat-DR也被用于融合以密集面部标志为中心的多尺度描述符，通过PCA和LDA降低了级联特征的维数。在文献[15]中，使用多个深层ConvNets从各种尺度的图像中学习人脸特征，其中通过将PCA应用于多个特征的串联来使用Cat-DR。在完全训练数据的情况下，利用了相关性信息的Cat-DR通常比DR-Cat获得更好的性能。然而，在实践中，有限的训练数据可能导致交叉特征相关性的估计不可靠。这常常在Cat-DR中导致过拟合和性能退化。

为了解决DR-Cat和Cat-DR的特征融合方法中存在的问题，提出了协方差矩阵正则化（CMR）技术。CMR不是像传统正则化技术那样修改协方差矩阵的特征值，而是通过正则化训练数据协方差矩阵的非对角交叉特征协方差。因此，在训练特征融合模型之前，协方差矩阵的轨迹保持不变，并且从训练数据估计的特征相关性被抑制。这样，所得到的模型对估计的相关性不太适应，因此减少了过拟合。在包括MultiPIE、GT、AR和LFW四个公共人脸数据库的实验部分中，我们首先证明了我们提出的ResNetShort模型在LFW上可以达到目前最高的人脸验证的性能。然后，通过改变CMR中的权值，说明如何解决过拟合问题，提高人脸识别性能。然后，研究CMR中权值的最优值与每个主题的训练图像的数量之间的关系。最后，通过融合多色彩通道特征、多类型特征和多深度模型提取的特征，比较了CMR与最佳单特征DR-Cat和Cat-DR的性能。

2 人脸识别中的特征融合

2.1 特征融合方案

人脸识别由于其固有的复杂性和对细微差别的需求，非常适合于多个描述符的融合。多个描述符可以是从不同色彩通道中提取的特征。Y、I、Q分量具有去相关特性，去相关特性有助于减少冗余，是模式分类器设计中的一个重要特性。因此，在文献[9]中融合了Y、I、Q彩色通道中提取的特征。类似地，在文献[10,11]中融合了R、Q、C_r提取的特征以及在文献[12]中融合了Z、R、G中提取的特征。此外，多个描述符可以是不同类型的特征。文献[8,13]的作者结合Gabor小波和LBP实现了比他们单独作用更好的性能。这两个特征是互补的，因为LBP捕获小的外观细节，而Gabor小波在更广泛的尺度上编码面部形状。在文献[14]中Gabor小波与傅立叶特征相结合，以获得更好的人脸识别性能。全局傅立叶特征描述整体人脸的一般特征，通常用于粗糙表示。不同的是，在一些局部人脸区域，局部Gabor特征反映和编码更详细的变化。此外，可以使用不同的深度模型提取多个特征。文献[15]中作者训练了60个ConvNets，每个ConvNets从具有10个区域、三个比例尺和RGB或灰色通道的60个人脸区域中提取了两个160维的DeepID向量。结合60种不同的深度模型，人脸验证精度比最佳单模型提高5.27%。文献[16]中提出的深度学习结构由一组精心设计的CNN模型组成，该模型从多模态人脸数据中提取互补的人脸特征。

为了研究特征融合方法在人脸识别中的有效性，本文探讨了4种不同的特征融合方案：（1）在3个彩色通道R、G、B中融合像素值；（2）在3个彩色通道R、G、B中融合LBP特征；（3）单信道R的像素值和LBP特征的融合；（4）由2个深度模型提取的卷积神经网络特征的融合。在文献[34-37]中最近许多人脸识别工作对像素值进行实验，以评估其方法的人脸识别性能。文献[24,38]中LBP在人脸识别方面具有很高的鉴别性。因此，这两个特征被用于融合不同彩色通道R、G、B的特征和融合通道R中不同类型的特征的任务。由于在文献[11,34]中在人脸检索方面R通道图像比其他类型的强度图像更好，我们以R通道为例，对不同类型的特征进行融合。为了融合多个深度学习特征，我们利用预训练VGG-Face模型，并提出了一个新的深度模型，ResNetShort，将在以下部分介绍。

2.2 深度学习特征融合：VGG-FACE与ResNetShort

文献[39]中提出卷积神经网络显著改善了人脸识别的研究现状。VGG-FACE是Simon等人提出的一种深度神经网络。在文献[18]中，该网络的特点是使用3times;3卷积层堆叠的深度越来越深。VGG-Face的体系结构包括21层，包括13个卷积层、5个最大池层和3个完全连接的层。前两个完全连接的层是4096维的，最后一个完全连接的层的尺寸取决于用于优化的损耗函数。预先训练的VGG-FACE模型是从一个大的人脸数据集（见图1的样本图像），包含2622名人和公众人物的2.6寸图像。使用文献[40]中描述的方法检测人脸，并且应用二维相似变换将人脸映射到标准位置。VGG-Face首先通过最小化软最大损失被训练成一个多类分类问题，然后通过最近提出的三重损失进行微调。VGG-FACE模型已被研究者广泛应用于人脸图像中的卷积神经网络特征提取（文献[20-22]）。

图1. 来自VGG-FACE数据库的人脸样本图像

与传统的顺序网络架构（如VGG）不同，RESNET首先由He等人在文献[19]中提出，由“网络中的网络”模块组成。ResNet已经成为一项具有开创性的工作，它证明了深层网络的退化问题可以通过使用残差模块来解决。RESNET层被设计为参考层输入的学习残差函数。参考文献[42]和区域模块中使用的CNN模型，我们提出如图2所示的模型，并将其命名为ResNetShort。卷积层中滤波器的大小为3times;3，步幅为1，其次是PReLU非线性单元。最大池栅格为2times;2，步幅为2。卷积层中特征图的数量或完全连接层的尺寸由每个层顶部的数量表示。“times;h”表示一个重复h次的残差模块。采用文献[42]中提到的软最大值损失和中心损失联合监管。用于平衡软最大值和中心损失函数的lambda;的值设置为0.005。

Input：输入，softmax loss：软最大值损失，center loss：中心损失

图2. ResNetShort体系结构，其中C、P和F分别表示卷积、最大池和完全连接层

在文献[23]中提到的最近发布的CASIA-WebFace数据库用于训练ResNetShort模型。CASIA-WebFace包含10575个主题的494414幅图像。根据文献[44]，只增加少量样本不利于提高识别性能。事实上，这些个体将损害系统性能。因此，10575个主题按其包含在数据库中的图像的数量以降序排列。用前9067名受试者的434793幅图像构成训练集，每个主题至少包含14幅图像，其余1508个主题图像被丢弃。利用仿射变换将人脸图像归一化为112times;96个像素，并根据五个人脸关键点，即眼睛中心、鼻尖和嘴角的坐标进行仿射变换。仿射变换后的样本图像如图3所示。我们使用文献[45]中提到的现成的面部对齐工具进行关键点检测，并通过水平地翻转所有训练图像使训练集的大小加倍。文献[46]中提到的开源深度学习工具包Caffe被用来训练深度模型。在训练期间，批量大小设置为256。所有学习层的初始学习率设置为0.1，并且是在16000次迭代之后除以10，然后在8000次迭代之后用n除以10，最终为0.001。迭代次数为28000次。

图3. CASIA-WebFace人脸数据库的归一化人脸图像

预训练的VGG-Face模型和我们提出的以及训练的ResNetShort模型在具有挑战性的人脸数据集上都实现了最好的人脸验证性能（参见5.1节）。在表1中给出了这两个深度模型之间的综合比较。由此可以看出，这两种模型是通过不同的深度结构优化不同的损失函数，从不同的人脸图像中训练出来的。这使得VGG-Face特征和ResNetShort特征中包含的学习到的信息能够互补。因此，我们将这两种卷积神经网络通过特征融合相结合，有效地利用了它们的鉴别信息。在以下几个章节中讨论了人脸识别的特征融合方法。

表1. 训练前VGG-FACE模型与训练的ResNetShort模型，CONV和FC分别表示卷积和完全连通的层

模型 VGG-Face ResNetShort

训练数据 VGG-Face CASIA-WebFace

人脸对齐 vanilla DPM [40] TCDCN [45]

输入尺寸 224times;224times;3 112times;96times;3

结构 CONV FC 残差模型

非线性单元 ReLU PReLu

特征尺寸 4096 512

监控信号软最大值三重损耗软最大值中心损耗

3 基于降维的特征融合

融合多个特征集在人脸识别中有许多成功的应用。然而，多个特征的融合不可避免地导致了高维的问题。众所周知，高维降低了分类性能（维数灾难）。因此，降维成为特征融合的一个重要组成部分。PCA通常用作FR算法中性能评估的基准，并且可以显著提高识别精度。多种彩色人脸识别方法采用改进的Fisher模型（EFM）。因此，PCA和EFM在本课题中被用作降维方法。

3.1 PCA 和 EFM

假设人脸图像由特征向量x表示，其总协方差矩阵和类内协方差矩阵分别在等式（1）和等式（2）中定义，表示i的第j个样本，i=1, 2, hellip;, p，j=1, 2, ..., 。p表示类的数目，表示第i个类别的样本数。表示第i类中的训练样本的平均值，表示所有训练样本的平均值，T表示转置。

（1）

（2）

PCA运用Karhunen Loeve变换产生最具表达力的子空间用于人脸表示和识别。它在等式（3）中对进行因式分解，得到特征向量矩阵。在等式（4）中，用对应于中d个最大特征值的特征向量作为投影矩阵P，用于计算PCA子空间中的d维向量y。

（3）

（4）

为了用马氏距离代替欧氏距离进行相似性比较，我们根据公式（2）计算y的类内协方差

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[18341]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码