简单特征的优化级联在快速目标检测中的应用

摘要

本文描述了一个视觉目标检测的机器学习法，它能够非常快速地处理图像而且能实现高检测速率。这项工作可分为三个创新性研究成果。第一个是一种新的图像表征说明，称为“积分图”，它允许我们的检测的特征得以很快地计算出来。第二个是一个学习算法，基于Adaboost自适应增强法，可以从一些更大的设置和产量极为有效的分类器中选择出几个关键的视觉特征。第三个成果是一个方法：用一个“级联”的形式不断合并分类器，这样便允许图像的背景区域被很快丢弃,从而将更多的计算放在可能是目标的区域上。这个级联可以视作一个目标特定的注意力集中机制，它不像以前的途径提供统计保障，保证舍掉的地区不太可能包含感兴趣的对象。在人脸检测领域，此系统的检测率比得上之前系统的最佳值。在实时监测的应用中，探测器以每秒15帧速度运行，不采用帧差值或肤色检测的方法。

介绍

本文汇集了新的算法和见解，构筑一个鲁棒性良好的极速目标检测框架。这一框架主要是体现人脸检测的任务。为了实现这一目标，我们已经建立了一个正面的人脸检测系统，实现了相当于已公布的最佳结果的检测率和正误视率， [16，12，15，11，1]。这种人脸检测系统区分人脸比以往的方法都要清楚，而且速度很快。通过对384times;288像素的图像，硬件环境是常规700 MHz英特尔奔腾III，人脸检测速度达到了每秒15帧。在其它人脸检测系统中，一些辅助信息如视频序列中的图像差异，或在彩色图像中像素的颜色，被用来实现高帧率。而我们的系统仅仅使用一个单一的灰度图像信息实现了高帧速率。上述可供选择的信息来源也可以与我们的系统集成，以获得更高的帧速率。本文的目标检测框架包含三个主要创新性成果。下面将简短介绍这三个概念，之后将分章节对它们一一进行详细描述。本文的第一个成果是一个新的图像表征，称为积分图像，允许进行快速特征评估。我们的检测系统不能直接利用图像强度的信息工作[10]。和这些作者一样，我们使用一系列与Haar基本函数相关的特征：（尽管我们也将使用一些更复杂的滤波器）。为了非常迅速地计算多尺度下的这些特性，我们引进了积分图像。在一幅图像中，每个像素使用很少的一些操作，便可以计算得到积分图像。任何一个类Haar特征可以在任何规模或位置上被计算出来，且是在固定时间内。本文的第二个成果是通过使用AdaBoost算法选择数个重要的特征构建一个分类器[6]。在任何图像子窗口里的类Haar特征的数目非常大，远远超过了像素数目。为了确保快速分类，在学习过程中必须剔除的大部分可用的特征，关注一小部分关键特征。选拔工作是通过一个AdaBoost的程序简单修改：约束弱学习者，使每一个弱分类器返回时仅可依赖1个特征[2]。因此，每个改善过程的阶段，即选择一个新的弱分类器的过程，可以作为一个特征选择过程。 AdaBoost算法显示了一个有效的学习算法和良好的泛化性能[13，9，10]。本文的第三个主要成果是在一个在级联结构中连续结合更复杂的分类器的方法，通过将注意力集中到图像中有希望的地区，来大大提高了探测器的速度。在集中注意力的方法背后的概念是，它往往能够迅速确定在图像中的一个对象可能会出现在哪里[17，8，1]。更复杂的处理仅仅是为这些有希望的地区所保留。衡量这种做法的关键是注意力过程的“负误视”（在模式识别中，将属于物体标注为不属于物体）的概率。在几乎所有的实例中，对象实例必须是由注意力滤波器选择。我们将描述一个过程：训练一个非常简单又高效的分类器，用来作为注意力操作的“监督”中心。术语“监督”是指：注意力操作被训练用来监测特定分类的例子。在人脸检测领域，使用一个由两个类Haar特征构建的分类器，有可能达到1％不到的负误视和40％正误视。该滤波器的作用是减少超过一半的最终检测器必须进行评估的地方。这些没有被最初的分类器排除的子窗口，由接下来的一系列分类处理，每个分类器都比其前一个稍有复杂。如果某个子窗口被任一个分类器排除，那它将不会被进一步处理。在检测过程的级联结构基本上是一个退化型决策树，这点可以参照German和同事的工作[1，4]。一个非常快速的人脸检测器有广泛实用性。这包括用户界面，图像数据库，及电话会议。在不太需要高帧速率的应用中，我们的系统可提供额外的重要后处理和分析。另外我们的系统能够在各种低功率的小型设备上实现，包括手持设备和嵌入式处理器。在我们实验室我们已经将该人脸检测系统在Compaq公司的ipaq上实现，并达到了两帧每秒的检测率（该设备仅有200 MIPS的低功耗处理器，缺乏浮点硬件）。本文接下来描述我们的研究成果和一些实验结果，包括我们实验方法学的详尽描述。每章结尾会有对近似工作的讨论。

特征

我们的目标检测程序是基于简单的特征值来分类图像的。之所以选择使用特征而不是直接使用像素，主要是因为特征可以解决特定领域知识很难学会使用有限训练资料的问题。对于这些系统来说，选择使用特征还有另外一个重要原因：基于特征的系统的运行速度要远比基于像素的快。上述简单特征是基于Haar基本函数设置的，Papageorgiou等人已使用过[10]。而我们则是更具体地选择了特定的三类特征。其中，双矩形特征的值定义为两个矩形区域里像素和的差。而区域则具有相同尺寸和大小，并且水平或垂直相邻（如图1）。而三矩形特征的值则是两个外侧矩形的像素和减去中间矩形的和所得的最终值。最后一个四矩形特征的值是计算两组对角线矩形的区别而得的。检测器的基本分辨率设定为24times;24，既而得到数目巨大的矩形特征的完备集，超过了180000。需要注意的是，矩形特征的集合不像Haar基底，它是过完备1的。

图1

矩形特征可以反映检测窗口之间的联系。白色矩形框中的像素和减去灰色矩形框内的像素和得到特征值。(A)和(B)是矩形特征。(C)是三矩形特征。(D)是四矩形特征。

我们采用一个中间表示方法来计算图像的矩形特征，这里称为积分图像2。位置x,y上的积分图像包含点x,y上边和左边的像素和，包括：

1一个完备基底在集元素之间没有线性独立，且数目和图像空间的元素个数相等，这里是576。在总数为180,000的全集中，数千特征是多次过完备的。

2在图形学中还有个近义词称为“区域求和表”[3]。这里我们选择一个不同名称，是为了便于读者理解这是用来进行图像处理，而不是纹理映射的。

图2

矩形D内的像素和可以按四个数组计算。位置1的积分图像的值就是矩形A中的像素之和。位置2的值是A B，位置3的值是A C，而位置4的值是A B C D。那么D中的像素和就是4 1-（2 3）。

当ii(x,y)是积分图像，i(x,y)是原始图像。可以使用下列一对循环：

（这里S(x,y)是行累积和 S(x,-1)=0，ii(-1,y)=0 ）积分图像可以通过已知原始图像而一步求得。使用积分图像可以把任意一个矩形用四个数组计算(见图2)。显然两个矩形和之差可以用八个数组。因为双矩形特征的定义是两个相邻矩形的和，所以仅用6个数组就可以计算出结果。同理三矩形特征用8个，四矩形特征用9个。

和一些相似方法，如导向滤波比较起来，矩形特征看似有些原始[5,7]。导向滤波等类似方法，非常适合做对边界的详细分析，图像压缩，纹理分析。相比之下矩形特征，对于边缘，条纹，以及其他简单的图像结构的敏感度，是相当粗糙的。不同于导向滤波，它仅有的有效位置就是垂直，水平和对角线。矩形特征的设置做不过是提供了丰富的图像表征，支持有效的学习。与积分图像一起，矩形特征的高效给它们有限的灵活性提供了极大补偿。

CNN架构

给定一个特征集和一个包含正图像和负图像的训练集，任何数量的机器学习方法可以

用来学习分类功能。在我们的系统中，使用AdaBoost的一种变种来选择小规模特征集和调试分类器[6]。在其原来的形式中，这种AdaBoost自学式算法是用来提高一个简单（有时称为弱式）自学式算法的。AdaBoost自学步骤提不少有效保证。Freund和Schapire证明，在相当数量的循环中，强分类器的调试误差接近于零。更重要的是，最近相当数量的结果证明了关于泛化性能的优势[14]。其关键观点是泛化性能与例子的边界有关，而AdaBoost能迅速达到较大的边界。回想一下，有超过180,000个矩形特征与每个图像子窗口有关，这个数字远大过像素数。虽然每个特征的计算效率非常高，但是对整个集合进行计算却花费高昂。而我们的假说，已被实验证实，可以将极少数的特征结合起来，形成有效的分类器。而主要挑战是如何找到这些特征。

为实现这一目标，我们设计弱学习算法，用来选择使得正例和负例得到最佳分离的单一矩形特征（这是[2]中方法类似，在图像数据库检索域）。对于每一个特征，弱学习者决定最优阈值分类功能，这样可以使错误分类的数目最小化。弱分类器hj(x)包括：特征 fj，阈值 theta;j，和一个正负校验 pj，即保证式子两边符号相同：

这里是一个图像中2424像素的子窗口。表1是优化过程的概述。在实践中没有单个特征能在低错误的条件下执行分类任务。在优化过程的循环初期中被选中的特征错误率在0.1到0.3之间。在循环后期，由于任务变得更难，因此被选择的特征误差率在0.4和0.5之间。

许多通用的特征选择程序已经提出（见18]的第八章）。我们的最终应用的方法要求是一个非常积极的，能抛弃绝大多数特征的方法。对于类似的识别问题，Papageorgiou等人提出了一个基于特征差异的特征选择计划。他们从1734个特征中选出37个特征，实现了很好的结果。Roth等人提出了一种基于winnow指数感知机学习规则的特征选择过程[11]。这种Winnow学习过程收敛了一个解决方法，其中有不少权重为零。然而却保留下来相当大一部分的特征（也许有好几百或几千）。

表1：关于自学式分类的Adaboost算法。每个循环都在180,000个潜在特征中选择一个特征。

最终系统的详细调试和执行将在第5节中介绍，现在对几个简单的结果进行讨论。初步实验证明，正面人脸分类器由200个特征构造而成，正误视率在14084中为1，检测率为95％。这些结果是引人注目的，但对许多实际任务还是不够的。就计算而言，这个分类器可能比任何其他公布的系统更快，扫描由1个384乘288像素图像仅需要0.7秒。不幸的是，若用这个最简单的技术改善检测性能，给分类器添加特征，会直接增加计算时间。对于人脸检测的任务，由AdaBoost选择的最初的矩形特征是有意义的且容易理解。选定的第一个特征的重点是眼睛区域往往比鼻子和脸颊区域更黑暗（见图3）。此特征的检测子窗口相对较大，并且某种程度上不受面部大小和位置的影响。第二个特征选择依赖于眼睛的所在位置比鼻梁更暗。

这两个特点显示在最上面一行，然后一个典型的调试面部叠加在底部一行。第一个特点，测量眼睛部区域和上脸颊地区的强烈程度的区别。该特征利用了眼睛部区域往往比脸颊更暗。第二个特点比较了眼睛区域与鼻梁的强度。

4.注意力级联

本章描述了构建级联分类器的算法，它能增加检测性能达从而从根本上减少计算时间。它的主要观点是构建一种优化分类器，其规模越小就越高效。这种分类器在检测几乎所有都是正例时剔除许多负子窗口（即，优化分类器阈值可以调整使得负误视率接近零）。在调用较复杂的分类器之前，我们使用相对简单的分类器来剔除大多数子窗口，以实现低正误视率。

在检测过程中，整体形式是一个退化决策树，我们称之为“级联”（见图4）。从第一个分类得到的有效结果能触发第二个分类器，也已调整至达到非常高的检测率。再得到一个有效结果使得第二个分类器触发第三个分类器，以此类推。在任何一个点的错误结果都导致子窗口立刻被剔除。级联阶段的构成首先是利用AdaBoost训练分类器，然后调整阈值使得负误视最大限度地减少。注意，默认AdaBoost的阈值旨在数据过程中产生低错误率。一般而言，一个较低的阈值会产生更高的检测速率和更高的正误视率

一系列的分类器适用于每一个子窗口。最初的分类器用很少的处

资料编号：[5741]

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码