用于单阶段面部检测的功能集聚网络外文翻译资料

2022-08-09 10:54:01

英语原文共 10 页，剩余内容已隐藏，支付完成后下载完整资料

用于单阶段面部检测的功能集聚网络

张家良, 吴雄伟, 史蒂芬·海, 朱建科

摘要

近年来，目睹了探索深度卷积神经网络用于面部检测的有希望的结果。尽管取得了长足的进步，但野外人脸检测仍然具有挑战性，尤其是在以不同比例和特征检测人脸时。在本文中，我们提出了一个新颖而简单但有效的“特征集聚网络”（FANet）框架，以构建一个新的单级面部检测器，该检测器不仅可以实现最先进的性能，而且可以高效运行。受到特征金字塔网络（FPN）的启发（Lin等人，2017），我们框架的关键思想是通过将不同尺度的高级语义特征图进行聚合，以利用单个卷积神经网络的固有多尺度特征。上下文提示，通过层次化的集聚方式来增加低级特征图，从而增加了少量的计算成本。我们进一步提出了分层损失，以有效地训练FANet模型。我们在包括PASCAL人脸，FDDB和WIDER FACE数据集在内的多个公众人脸检测基准上评估了建议的FANet检测器，并获得了最新的结果2.我们的检测器可以实时运行，以在GPU上显示VGA分辨率的图像。

1. 介绍

人脸检测通常是朝向人脸相关应用（例如人脸对齐，人脸验证，人脸识别，人脸跟踪和人脸表情分析等）的第一步。尽管进行了广泛研究，但在野外检测人脸仍然是一个开放的过程现实世界中面临的各种挑战（例如各种规模的面孔以及从不同场景中捕获的现实世界中的

面孔的各种特征）带来的研究问题。计算机视觉社区中人脸检测的早期工作主要集中在手动设计有效特征，然后从手工特征构建强大的分类器。[2,3]，这通常不是最佳选择，并且可能无法始终获得令人满意的结果。近年来，目睹了深度学习技术在人脸检测任务中的成功应用[4,5]受到深度卷积神经网络（CNN）技术在通用图像识别方面取得的巨大成功的启发[6,7] 和物体检测任务[4,8]。尽管已经进行了广泛的研究，但是在任何实际情况下构建具有高精度的快速人脸检测器仍然是一个开放的挑战。

通常，人脸检测可以看作是通用对象检测的一种特殊情况[4,5].许多以前的最先进的面部检测器都从通用对象检测中继承了许多成功的技术，尤其是基于区域的CNN（R-CNN）方法及其变体系列。在各种基于R-CNN的面部检测器中，检测框架主要分为两大类：（i）两级检测器（也称为“基于建议”的检测器），例如Fast R-CNN[9]，更快的RCNN[4]等；（ii）单阶段检测器（也称为“无提案”），例如区域提案网络（RPN）[4]，单发多盒检测器（SSD）[5]单级检测框架具有较高的推理效率，因此，由于在实际应用中对实时面部检测器的需求很高，因此最近引起了越来越多的关注。

尽管享有明显的计算优势，但单舞台检测器在检测不同尺度的面部时并不总是有效的，并且在处理小面部时其性能可能会急剧下降。要构建可以检测大范围尺度人脸的坚固检测器，有两种主要的改进途径。一种方式是通过使用图像金字塔的思想来训练多个单独的单尺度检测器，以针对一个特定尺度训练多个单独的单尺度检测器（例如，HR探测器[10])。但是，这种方法在计算上很昂贵，因为在推理过程中必须多次通过非常深的网络。另一种方法是通过利用深度卷积网络的多尺度特征表示来训练单发多尺度检测器，仅需单次通过网络在推断过程中。例如，S3FD[11] 通过扩展SSD遵循第二种方法[5] 用于面部检测。

尽管实现了令人鼓舞的性能，但S3FD仍具有SSD样式检测框架的类似缺点，其中每个多尺度特征图都单独用于预测，因此高分辨率语义上较弱的特征图可能无法执行准确的预测。受功能金字塔网络（FPN）近期成功的启发[1] 对于通用对象检测，我们提出

了一个新颖的简单而有效的“特征集结网络”（FANet）检测框架，通过将低分辨率语义上的强特征与高分辨率语义上的弱特征相结合来克服这一问题。特别是，FANet的目标是使用所有来自低分辨率语义强特征的丰富上下文线索来创建具有各种语义的层次结构

特征金字塔，以提高高分辨率特征图的预测性能。与现有的用于普通对象检测的FPN不同

使用跳过连接模块的特征金字塔，我们提出了一个新颖的“聚集连接”模块，以为FANet创建一个新的层次特征金字塔。此外，提出了一种新的分层损失（HL），以端到端的方式有效地训练FANet模型。我们在几个公众面部检测基准上进行了广泛的实验，以验证我们建议的FANet结构以及HL培训计划的有效性。

作为总结，本文的主要贡献包括以下内容

bull; 我们引入了“聚集连接”模块，以增强高分辨率浅层中的要素表示能力。

bull; 我们为单阶段人脸检测提出了一个简单但有效的特征集聚网络（FANet）框架，该框架创建了一个具有所有语义的，具有丰富语义的新分层有效特征金字塔。

bull; 提出了一种有效的基于层次损失的训练方案，以端到端的方式训练提出的FANet模型，从而为区分特征提供了更稳定，更好的训练方法。

bull; 在几个公开的人脸检测基准上进行了全面的实验，以证明所提出的FANet框架的优越性，其中有希望的结果表明，我们的FANet检测器不仅可以实现最先进的性能，而且还可以在真实环境下高效运行GPU的实时速度。

2. 相关工作

通用对象检测。作为通用对象检测的一种特殊情况，许多面部检测器继承了成功的通用对象检测技术，使用深度学习对其进行了广泛研究，特别是针对基于区域的卷积神经网络（R-CNN）算法及其变体[4,9,12].特别是，有两种主要的基于区域的CNN变体用于对象检测：（i）两阶段检测系统，其中在第一阶段生成建议并在第二阶段进一步分类；（ii）单阶段检测系统，其中从特征图中同时执行对象检测和分类，而没有单独的建议生成阶段。两阶段检测系统包括Fast R-CNN[9]，更快的R-CNN[4] 及其变体，单级检测系统包括YOLO[13], RPN [4], SSD [5]等等。我们的检测器本质上属于单级检测框架，更具体地说是类SSD的检测器。多镜头单比例面部检测器。为了检测具有较大比例范围的面部，一种方法是训练多个检测器，每个检测器针对特定比例。Hu等。[10]训练有素的多个单独的RPN检测器，用于不同的比例，并使用图像金字塔进行推断。但是，它们的方法非常耗时，因为在推理期间要求图像多次通过非常深的网络。Li等。[14] 而Hao等人则学习了可用于行人检测的Scale Aware快速R-CNN。[15] 通过估计图像中的面部比例并根据估计值构建图像金字塔，学习了一个“比例感知网络”。尽管在某种程度上避免了计算成本，但是如果在一张图像中呈现比例范围不同的面部，仍然需要多次通过。由于计算成本高，这种范例不适用于实时应用。

单次多尺度人脸检测器。单发多盒检测器（SSD）[5] 针对不同比例的人脸提取网络特征层次结构中的多比例表示，因此只需要单次通过。S3FD[11] 继承了SSD框架，并根据有效的接受领域，精心设计了具有不同功能层次结构的可感知缩放的锚点[16].但是，S3FD共享SSD的相同限制，其中每个特征图都单独用于预测，结果，某些高分辨率的语义上较弱的特征可能无法提供可靠的预测。受FPN启发[1]，我们提出了一个新的FANet框架，该方法通过使用“聚集连接”模块将低分辨率的语义强项与高分辨率的语义弱项结合起来，有效地解决了S3FD的局限性。

上下文建模。由于复杂的野外面孔，上下文信息对于提高面部检测性能非常重要。在[17]通过扩大提案周围的窗口来建模上下文，从而包括更多上下文信息。用于面部检测，CMS-RCNN[18] 利用较大的窗口，但要花费复制分类头的费用。这增加了内存需求以及检测时间。SSH协议[19] 使用初始模块的思想来创建上下文模块。在我们的Agglomeration Connection模块中，除了像Inception一样的上下文模块之外，我们还通过聚集方式结合了来自更深层功能图的语义。

功能金字塔。特征金字塔是一种结构，该结构使用跳过连接将浅语义上较弱的特征与深语义上较强的特征相结合，该结构已在两阶段和一阶段通用对象检测器中成功使用。离子[12] 从不同的特征图中提取RoI特征并将其串联在一起。超网[20] 对通过聚合多尺度特征图生成的超级特征图进行预测。FPN[1] 通过在自上而下的体系结构中横向连接深层要素和浅层要素，构建要素金字塔。SSD样式的框架作为DSSD[21] 和RON[22] 也采用横向跳过连接的思

想来创建特征金字塔并实现有希望的性能。金字塔框[23] 使用跳过连接和上下文相关的预测模块构建功能金字塔。在本文中，我们提出了一个新的凝聚连接模块，该模块可以比跳过连接模块更有效地聚合多尺度特征。此外，我们还在提出的FANet框架上引入了一种新颖的“分层损失”，使我们能够以端到端的方式有效，强大地训练这种强大的检测器。

3. 特色集聚网络

在本节中，我们介绍了用于人脸检测的特征集聚网络（FANet）框架。首先，我们介绍FANet的总体架构。然后提出了构建FANet的核心集聚连接模块。第三部分是我们探测器的详细配置。最后，将介绍分层损失，以指导我们设计的网络结构更稳定，更好地训练。

3.1. 整体架构

我们的目标是在所有级别上创建一个具有丰富语义的有效特征层次结构，以实现可靠的多特征检测。图。1 展示了我们提出的具有三级要素层次结构的要素集聚网络（FANet）。提议的FANet框架是通用的。在不失一般性的前提下，本文将广泛使用的VGG16模型作为主干CNN架构，将SSD用作单级检测器。如图所示图。1，则在n = 6层上执行检测的特征图（范围从索引1到6）。现有的类似SSD的检测器仅在第一级特征层次的六个特征图上运行检测以进行面部检测。根据合同，我们创建具有特征集结的多级特征层次结构，并在增强的特征图上进行人脸检测（第3层，在图中以蓝色特征图突出显示）图。1).具体来说，针对m级FANet的拟议特征集聚操作

（mle;n）可以在数学上定义如下：

3.2. 集聚连接

图2 说明了建议的集聚连接构建块的概念，简称为“ A块”。它由两个输入特征图组成，一个较浅的特征图phi;1和一个较深的特征图phi;2。首先，较浅层的特征图通常缺乏语义。因此，我们在减半特征phi;1上应用了类似初始的模块，以增强其特征表示，并同时将输出通道更改

为固定数量X（例如256）。具体来说，如左图所示图2，我们在浅层特征增强模块中使用4种分支和4种滤波器，例如1times;1、1times;3以及3times;1和3times;3。

每个分支的比例（输出通道）分别为1：1：1：1。为了确保该模块的高效率，我们首先应用一个1times;1卷积层以将尺寸减小到X = 256个通道，因此我们的浅层特征增强模块使用

与直接使用3times;3滤波器相比，参数更少。对于更深的特征图phi;2，我们首先使用1times;1卷积层减小维数，以将通道大小减小为1/8的N（例如32），然后应用2times;双线性上采样以匹配与phi;1相同的大小。集聚的最终特征通过将这两个特征紧跟一个3times;3卷积平滑层，可以得到连接块。

3.3. 最终检测器具有详细的配置

在本节中，我们将讨论有关建议的FANet框架的更多详细信息。最终检测利用了特征图的第m（m = 3）个层次结构，包括总共六个检测层 {conv3_3(3) ， conv4_3(3) ， conv5_3(3) ， conv_fc7(3) ， conv6_2 { (3)，conv7_2(3) }。最终的检测结果可以表示为以下内容：

其中D表示最终检测过程，包括边界框回归和类预测，然后进行非最大抑制以获得最终检测结果。如图所示图。1，红色虚线表示相连的 2 个 Blob 共享内存，例如。 conv7_2(3) 和 conv7_2(2) 与conv7_2(1)等相同。

我们还将讨论为单级面部检测器配置建议的3级FANet的细节。在图1，六个检测层的步幅分别为{4、8、16、32、64、128}。我们遵循的设置[11]，这六个特征图均与一个1：1以检测相应比例尺的面孔。

由于高分辨率的浅层特征起着关键作用,在检测小脸时，深层特征已经足够了根据科学的语义，我们开始从第4层conv_ f c7(1)而不是conv7_2(1)聚合特征图开始构建FANet结构。我们发现它在重新导致模型的复杂性。

对于基于锚点的检测器，我们需要根据地面真值边界框将每个锚点匹配为正值或负值。我们采用以下匹配策略：（i）对于每个人脸，匹配具有最佳Jaccard重叠的锚点；（ii）每个锚点都与Jaccard重叠大于0.35的脸部匹配。

在[10]，太大或太小的接收场都会损害性能。我们结构的优势在于，A块仅包含来自更深层的语义，因此我们可以通过分层设计轻松控制每个特征图的接收场。这与FPN相反[1]，其中功能图包含来自所有较深层的信息。

3.4. 分层损失

为了有效地训练提出的FANet，我们提出了一种在提议的FANet结构上定义的称为层次损失的新损失函数。关键思想是定义一个损失函数，该函数应考虑特征图的所有层次结构，同时允许以端到端的方式有效地训练整个网络。看到图。1更多细节。为此，我们提出如下层次损失

其中omega;i是第i个层次结构损失的权重参数。L（phi;i，...，phi;i）解释了第i个层次上的损失，即固态硬盘[5] 多框丢失。

利用分层损失，我们可以端到端训练FANet检测器。具体来说，在训练过程中，所有损失都被同时计算，并且梯度分别反向传播到特征图的每个层次。与标准损失相比，建议的分层损失具有一些关键优势。一方面，分层损失在稳健而有效地训练FANet模型中起着至关重要的作用。这是因为FANet的优化参数要比香草SSD多，这是最优化的，因为香草SSD培训中存在现有损失，因此不容易直接对其进行训练。在具有多个层次结构的情况下，层次结构损失指导了更好的培训过程，该过程逐渐增加要素地图表示的力量。这使我们可以对培训过程进行分层监督，以获得更强大的功能。另一方面，与标准的单一损失相比，使用分层损失不会在训练模型后的推理过程中

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[239445]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码