深度人脸识别研究综述外文翻译资料

2022-08-05 14:56:20

英语原文共 24 页，剩余内容已隐藏，支付完成后下载完整资料

深度人脸识别研究综述

王玫，邓卫红

信息与通信工程学院

北京邮电大学，中国

摘要--深度学习是应用多个处理层来学习多层次特征提取数据的表示。这项新兴技术自2014年以来，通过深入人脸和深度识别方法的突破，重塑了人脸识别的研究格局。自那时起，利用层次结构学习辨别人脸表示的深层人脸识别技术，通过改进最新性能，并培育了许多成功的现实应用程序。本文对deep-FR的最新发展进行了全面的综述，包括算法、数据和场景等方面的广泛课题。首先，总结了在快速发展的深层次FR方法中提出的不同网络结构和损耗函数。其次，将相关的人脸处理方法分为两类：一类到多个增强方法和“多对一归一化”。然后，对常用的模型训练和评价数据库进行了总结和比较。第三，对深层FR中的杂景进行了回顾，如交叉因素、异质场景、多媒体场景和行业场景。最后，指出了目前方法存在的潜在缺陷和今后的几点方向。

引文

人脸识别（face recognition，FR）由于其非侵入性和自然性的特点，已成为身份认证的重要生物特征技术，在军事、金融、公安、日常生活等领域得到了广泛的应用。FR一直是CVPR社区的一个长期研究课题。在20世纪90年代初，随着历史特征脸方法的引入，FR的研究变得流行起来。基于特征的FR在过去几年中的里程碑如图1所示，其中突出显示了四个主要技术流的时间。整体方法通过某些分布假设，如线性子空间、流形和稀疏表示导出低维表示。这一观点在20世纪90年代和21世纪占据了FR界的主导地位。然而，一个众所周知的问题是，这些理论上合理的整体方法无法解决偏离其先前假设的不受控制的面部变化。在21世纪初，这个问题产生了基于局部特征的FR.Gabor和LBP，以及它们的多级和高维扩展，通过局部滤波的一些不变特性实现了反求性能。不幸的是，手工制作的功能缺乏独特性和紧凑性。在20世纪10年代早期，基于学习的局部描述符被引入到FR社区，其中局部滤波器被学习以获得更好的区分性，编码码本被学习以获得更好的紧凑性。然而，这些浅层表示对于复杂的非线性面部表情变化的鲁棒性仍然有不可避免的限制。

一般来说，传统方法试图通过一层或两层表示来解决FR问题，例如过滤响应或特征码的直方图。该研究小组深入研究了分别改进预处理、局部描述符和特征变换的方法，这些方法提高了人脸识别的准确率。经过十年的不断改进，“浅层”方法只能将LFW基准的准确率提高到95%左右，这表明“浅层”方法不足以针对无约束的人脸变化提取稳定的身份特征。由于技术上的不足，人脸识别系统在实际应用中经常出现性能不稳定或故障，出现无数的虚警。

但在2012年，当AlexNet使用一种称为深度学习的技术以巨大优势赢得ImageNet竞赛时，一切都发生了变化。深度学习方法，如卷积神经网络，使用多层处理单元级联进行特征提取和转换。他们学习对应于不同抽象层次的多层次表示。这些级别形成了概念的层次结构，显示出对面部姿势、光照和表情变化的强烈不变性，如图2所示。从图中可以看出，深层神经网络的第一层与人类科学家多年经验发现的Gabor特征有些相似。第二层学习更复杂的纹理特征。第三层的特征更加复杂，一些简单的结构已经开始出现，比如高鼻梁和大眼睛。第四，网络输出足以解释一定的面部属性，可以对一些清晰抽象的概念做出特殊的反应，比如微笑、咆哮，甚至蓝眼睛。深入CNN，初始层自动学习设计了多年甚至几十年的特征，如Gabor、SIFT（如图2中的初始层），随后的层进一步学习更高层次的抽象。最后，这些更高层次抽象的结合代表了具有前所未有的稳定性的面部身份。

2014年，DeepFace在著名的LFW基准上实现了最先进的精确度，首次接近无约束条件下的人类绩效（DeepFace:97.35%，human:97.53%）。从那时起，研究重点转向了基于深度学习的方法，在短短三年内，准确率就大幅提高到99.80%以上。深度学习技术在算法、数据集甚至评价协议等几乎所有方面都改变了人脸识别的研究格局。

因此，回顾近年来的突破和快速发展历程，具有十分重要的意义。虽然已经有一些关于FR及其子域的研究，包括光照不变性FR、3D FR、姿态不变性FR，但是没有一个研究涉及到深度FR的方法论。在本次研究中，我们主要关注基于深度特征学习的最新FR，以及与其密切相关的数据库开发、人脸处理和人脸匹配方法。人脸检测和对齐超出了我们的考虑范围，可以参考Ranjan等人，他简要回顾了一个完整的深层FR管道。具体而言，本次调查的主要贡献如下：

bull; 系统地回顾了deep-FR网络结构和损耗函数的演变，研究了各种损耗函数，并将其分为基于欧氏距离的损耗、基于角余弦裕度的损耗和基于softmax的损耗及其变化。包括主流网络架构，如Deepface、DeepID系列、VGFace、FaceNet和VGFace2，以及为FR设计的其他特定架构。

我们将人脸处理方法（例如用于处理姿势变化时识别困难的方法）分为两类：“一对多增强”和“多对一归一化”，并讨论新兴的生成性对抗网络（GAN）如何促进深度FR。
对公共可用的大规模培训数据集进行比较和分析，这些数据集对深度FR至关重要。主要FR基准，如LFW、IJB-A/B/C、Megaface和MS-Celeb-1M。从训练方法、评价任务和指标、识别场景四个方面对它们进行了回顾和比较，为深度FR的训练和测试提供了有益的参考。
除了主流化数据库定义的常见任务外，我们还总结了12个仍具有深度学习挑战性的特定FR场景，如反欺骗、跨姿势FR和跨年龄FR。通过回顾针对这些未解决问题的专门设计方法，本文试图揭示深层FR未来研究的重要问题。

本次调查的其余部分结构如下。在第二节中，我们介绍了一些背景概念和术语，然后简要介绍了FR的各个组成部分。在第三节中，我们介绍了不同的网络结构和损耗函数。然后，总结了人脸处理的算法和数据集。在第五节中，我们简要介绍了几种不同场景下的深度FR方法。最后，在第六节中给出了本文的结论和对未来工作的讨论。

概况
背景概念和术语

整个人脸识别系统需要三个模块，如图3所示。首先，使用人脸检测器对图像或视频中的人脸进行定位。第二，使用人脸地标检测器，将人脸对齐到标准化的正则坐标。第三，用这些对齐的人脸图像实现FR模块。在本文的其余部分中，我们只关注FR模块。

此外，FR还可以分为人脸验证和人脸识别。在这两种情况下，一组已知的主题最初被注册到系统中（图库），在测试过程中，会出现一个新的主题（探测）。人脸验证计算画廊和探头之间的一对一相似度，以确定两幅图像是否属于同一主题，而人脸识别计算一对多相似度，以确定探头人脸的特定身份。当探测出现在库标识中时，这称为闭集标识；当探测包括那些不在库中的探测时，这称为开集标识

人脸识别的组成部分

在人脸图像被传送到FR模块之前，人脸反欺骗可以识别人脸是真实的还是被欺骗的，可以避免不同类型的攻击。我们将其视为FR场景之一，并在第VI-D3节中介绍。然后，可以执行识别。如图3（c）所示，FR模块包括人脸处理、深度特征提取和人脸匹配，具体描述如下：其中I和Ij 分别是两张人脸图像；P表示处理个人内部变化的数据处理，例如姿势、照明、表情和遮挡；F表示特征提取，对身份信息进行编码；M表示用于计算相似性分数的人脸匹配算法。

人脸处理: 尽管基于深度学习的方法由于其强大的代表性而被广泛应用，Ghazi等人证明了各种条件，如姿势、照明、表情和遮挡，仍然影响深度FR的性能，并且面部处理是有益的，特别是对于姿势。由于姿态变化被广泛认为是自动人脸识别应用中的一个主要挑战，本文主要对姿态的深度处理方法进行了综述。其他的变化可以用类似的方法来解决。人脸处理方法分为“一对多增强”和“多对一归一化”，如图1所示。

“一对多增强”：从一幅图像中生成姿势变化的多个面片或图像，使深层网络能够学习姿势不变的表示。
“多对一标准化”：从非正面视图的一个或多个图像中恢复人脸图像的标准视图；然后，可以像在受控条件下一样执行FR（人脸识别）。

深度特征提取:

网络架构。这些体系结构可以分为主干网和多个网络，如表2所示。受ImageNet成功的启发，典型的CNN架构，如AlexNet、VGGNet、GoogleNet、ResNet和SENet被引入并广泛用作FR中的基线模型（直接或稍加修改）。除了主流的FR架构外，还有一些新颖的FR架构可以提高FR的效率。此外，当采用骨干网作为基本块时，FR方法往往训练多个输入或多个任务的多个网络。一个网络用于一种类型的输入或一种类型的任务。Hu等人表明，在积累了多个网络的结果之后，它可以提高性能。

损失函数。 在目标识别中，softmax损失通常被用作监督信号，它鼓励了特征的可分性。然而，对于FR而言，当内部差异可能大于内部差异时，softmax损失对于FR而言并不足够有效。许多工作集中于创建新的损失函数，以使特征不仅更可分离，而且更具区分性，如表3所示。

基于欧几里德距离的损失：基于欧几里德距离压缩内部方差和扩大内部方差。
基于角度/余弦边缘的损失：根据角度相似性学习有区别的人脸特征，导致学习特征之间可能存在更大的角度/余弦可分性。
softmax损耗及其变化：直接使用softmax损耗或对其进行修改以提高性能，例如，特征或权重的L2标准化以及噪声注入。

人脸匹配: 在对深部网络进行海量数据训练和适当的丢失函数训练后，通过网络对每个测试图像进行深度特征表示。提取深度特征后，大多数方法都是直接利用余弦距离或L2距离计算两个特征之间的相似度，然后将最近邻（NN）和阈值比较用于识别和验证任务。此外，还引入了度量学习、基于稀疏表示的分类器（SRC）等方法对深部特征进行后处理，并高效、准确地进行人脸匹配。

综上所述，我们在图4中展示了FR的各个模块及其常用方法，以帮助读者了解整个FR。

网络结构与训练损耗

由于地球上有数以十亿计的人脸，真实世界的FR可以看作是一个极细粒度的对象分类任务。对于大多数应用来说，在训练阶段很难包含候选人脸，这使得FR成为一个“零镜头”学习任务。幸运的是，由于所有人脸都具有相似的形状和纹理，因此从一小部分人脸学习到的表示可以很好地推广到其他人脸。一种简单的方法是在训练集中包含尽可能多的id。例如，Facebook和Google等互联网巨头报告称，他们的深度FR系统接受了10⁶ - 10⁷ 个id的训练。不幸的是，这些个人数据集，以及分布式模型训练所必需的GPU集群，对于学术界来说是不可访问的。目前，用于学术研究的公共培训数据库只有10³ -10⁵个id。

相反，学术界致力于设计有效的损失函数，并采用更深层的体系结构，利用相对较小的训练数据集使深层特征更具识别性。例如，在粘贴的四年中，最流行的LFW基准的准确率从97%提高到99.8%以上，如表4所示。在本节中，我们调查了对不同损失函数和网络结构的研究成果，这些研究成果显著改进了深度FR方法。

表1

不同的数据预处理方法

数据处理	简要描述	子集
一对多	从单个图像中生成许多位姿变化的补丁或图像	3D 模型
		2D深层模型
		数据扩充
多对一	从一个或多个非正面图像中恢复脸部图像的剩余内容已隐藏，支付完成后下载完整资料资料编号：[261704]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码