行人检测：基准外文翻译资料

2022-11-11 15:08:52

英语原文共 8 页，剩余内容已隐藏，支付完成后下载完整资料

行人检测：基准

皮奥特多拉克里斯蒂安·沃霍克

伯恩特席勒佩特罗·派罗那

加州理工大学计算机科学系电气工程系

摘要

行人检测是计算机视觉中的一个关键问题，广泛应用于机器人技术、监控和汽车安全等方面。过去几年里的大部分研究进展是由公共数据库提供的。为了可以继续快速的创新，我们引入了加州理工学院行人数据库，比现有数据库大两个数量级。此数据库包含了大量的分析的视频，这些视频是从一辆移动的车辆上录制的，包含了低分辨率图像和拥堵的人群。我们提出了改进的评估指标，证明了常用的每个窗口的度量存在缺陷，并且无法预测完整图像的性能。我们还对几种检测系统进行了基准测试，提供了最先进性能的概述，并对现有方法进行了直接、无偏的比较。最后，通过对常见的失败案例的分析，我们帮助并确认了该领域未来的研究方向。

1.介绍

图像的行人检测是一个长期的难题[37、13、35、27、16、41、23、5]；在过去的两年里，人们对行人检测的兴趣激增[6、9、11、18、20、21、25、30、32、33、36、38、42]。精确的行人检测技术将对监控、机器人技术、视障人士辅助技术、基于内容的索引（如雅虎网络相册、谷歌、电影）、先进的人机交互界面和汽车安全等方面产生直接和深远的影响。汽车方面的应用[12，14，34]特别引人注目，因为它们有可能挽救很多生命[39]。

目前最流行的公共可用基准是INRIA数据库[5]，这有助于激发人们对机器视觉的兴趣和这一领域的进步与发展。然而，随着算法性能的提高，人们需要更庞大的数据库来激发新的想法。现有的行人数据库局限于有限的规模、遮挡物和行人姿势的变化，而且范围比较小，因此难以评估现实世界的情况（见图2.4）。正如我们证明的那样，现有的使用每个窗口性能度量的行人检测的方法是有缺陷的，可能无法预测实际的每个图像的情况。

我们提出了四种方法。（1）引入了加州理工学院行人数据库，它比任何现有数据库都大两个数量级。行人在外观、姿势和比例上有很大的差异；此外还会对交通信息进行识别（见图1）。这些统计数据更能代表现实世界的情况，并允许对现有算法进行深入分析。（2）提出了改进性能的指标。（3）对7种算法[40、5、7、30、11、42、21]进行了基准测试，要么直接从原作者处获得，要么在内部重新实现。（4)强调实际的情况，在这种情况下,现有的方法失败了，但是确定了未来的研究方向。

我们介绍了加州理工学院行人数据库并且在第二章节和第三章节介绍了它的统计数据。我们讨论每个窗口度量的缺陷，并根据帕斯卡标准描述我们的评估方法[28]。在第四章节，我们讨论了7种有前景的行人检测方法的详细性能评估。在第五章节总结了我们的发现并且讨论了开放性问题。

图1示例图像（裁剪）和注释。绿色实线框表示整个行人范围，黄色虚线框表示可见区域。加州理工学院行人数据库是从一辆在城市环境中正常行驶的车辆中收集到的，由350000个标记为行人边界框的250000帧组成。

2.数据库

庞大的数据库是计算机视觉进步的催化剂。Berkeley分段数据库[22]，Barron[3]和Middlebury[2]视觉数据库、Middlebury立体数据库[31]和Caltech 101对象分类数据库[10]都改进了性能评估，并有助于推动各自领域的创新。同样，我们引入加州理工学院行人数据库的目的是提供更好的基准，帮助确定当前检测方法失败的原因，从而将研究工作集中在这些困难的案例上。

2.1. 图像和路面情况

我们收集了大约10个小时的30Hz的视频，这些视频是从城市环境中正常行驶的车辆上拍摄的（摄像机设置如图2）。司机与本研究无关，并得到指示，正常驾驶通过行人经常出现的区域。这段视频是在洛杉矶大都会区拍摄的，拍摄地点是：洛杉矶、圣莫尼卡、好莱坞、帕萨迪纳和小东京。

CCD视频分辨率为640times;480，总体图像质量低于静止图像质量，这一点不令人意外。由于摄像机的重复安装，摄像机位置存在细微变化。视频被稳定下来以消除车辆倾斜的影响，主要是为了简化注释。为了实现稳定，我们基于[45]中描述的系统实现了差分摄像机跟踪器。

图2：摄像机机位图3：数据库摘要

我们注释了250000帧（大约137分钟长的片段），总共有350000个标记的边界框和2300个独特的行人。为了使大规模的标记工作可行，我们创建了一个用户友好的标记工具，如图4所示。

对于每一个给定行人可见的帧，贴标机绘制一个紧的边框，表示整个行人的整个范围。对于被遮挡的行人，这涉及到估计隐藏部分的位置；此外，还使用第二个边框来描绘可见区域。在道路堵塞期间，估计的完整边框保持相对不变，而可见边框可能迅速变化。相比之下，在帕斯卡标记方案[28]中，只有可见的边框被标记，被遮挡的行人被标记为“截断”。属于给定对象的每个边框序列都被分配给三个标签中的一个。个别行人标记为“人”（1900例）。大量的行人被用一个单一的边框描述，并被标记为“人群”（300例）。另外，标签上的“人？”代表行人的身份模棱两可或未识别（110例）。带有重叠注释的示例图像如图1所示。

图4：视频贴标机的屏幕截图。它的设计使用户能够以最少的工作量高效地导航和注释视频。贴标机最突出的一个方面是一个交互过程，用户只标记一组稀疏的帧，系统通过插值自动标记中间帧。

2.2. 数据库统计

数据库概要如图3所示。大约50%的帧没有行人，而30%的帧有两个或更多的行人。行人平均可见时间为5秒。下面，我们详细分析了行人比例、遮挡物和位置的分布。这将为建立一个真实世界系统的需求奠定基础。

规模：我们根据行人的图像大小（像素高度）将他们分为三个等级：近（80个或更多像素）、中（30-80个像素之间）和远（30个或更少像素）。这种分成三个等级的划分是由分布驱动的。

在图5（a）中，我们使用对数大小的箱对数据库中350000个边框的高度进行柱状图统计。标记近/远刻度的截止线。注意到68%的三角足位于天平上，并且近/远比例对应于大约plusmn;1 平均高度的标准偏差（对数空间）。希望看到行人数量随高度的平方而减少，即与图像面积成比例。另一端的折痕小于30像素，是由于注释者难以可靠地识别小行人造成的。

高度分布（b）55 km/h时的距离与高度

图5：我们将近比例定义为包含80像素或更高的行人，中等比例定义为30-80像素，远比例定义为30像素或更低。大多数行人都是在中等尺度上观察到的，在这个尺度上人类的表现是极好的，对于汽车应用来说，检测也必须在这个尺度上进行。然而，目前大多数研究的目标都是接近规模的，即使是在中等规模的情况下，性能也很差（见第4章节）。

中等规模的检测应用对汽车来说至关重要。我们选择了能反映预期汽车应用的摄像机设置：垂直视野27，分辨率640times;480，焦距固定在75毫米。当行人高度达1.8m时，我们可以估算出与观察到的像素高度的行人之间的距离h:dasymp;1800/hm。车辆以55公里/小时（15米/秒）速度行驶，一个80像素的人只有1.5秒，当一个30像素的人在4s以外时（见5（b））。因此检测接近比例的行人可能没有足够的时间提醒驾驶员，而远比例的行人则不那么重要。

我们将使用近/中/远的方法来区别这项工作。如前所述，大多数行人在中等规模和安全系统检测也必须在这个规模。此外，人类的表现在近、中尺度上相当好，但在远尺度上却明显退化。然而，目前的大多数算法都是为接近规模而设计的，即使在中等规模下也表现不佳（见第4章节）。因此，当前的研究工作和现实世界的需求不匹配。

闭塞：在存在遮挡的情况下，几乎没有对检测性能进行过量化研究（实际数据）。如前所述，被遮挡的行人用两个边框表示可见和完整的步行范围。在图6（a）中，我们绘制了遮挡频率，即对于每个行人，我们测量了行人被遮挡的帧的分数。分布有三个明显的高峰：行人从不被遮挡（29%），在某些帧中被遮挡（53%），在所有帧中被遮挡（19%）。请注意，超过70%的行人至少包含在一个框架内。

对于每个被遮挡的行人，我们可以将被遮挡面积的分数计算为1减去总面积上可见面积的分数（根据可见和完整的边框计算）。加总后，我们得到图6（b）中的柱状图。超过80%的遮挡通常表示完全遮挡，而0%用于表示边框不能表示可见区域的范围。（例如：由于对角线封堵器）。有趣的案例发生在这两者之间，我们进一步细分为部分闭塞（1-35%的面积闭塞）和重度阻塞（35-80%的闭塞）。

最后，在图6（c）中，我们绘制了一个热图，该热图指示行人的哪些区域最可能被包括在内（通过平均遮挡获得）。行人较低的部分被遮挡，较高的部分可见，即典型的遮挡物较低。这种偏差与通常认为闭塞概率是一致的假设相反。

(a)闭塞频率（b）闭塞量（c）Occ.mask

图6:遮挡统计信息，有关详细信息，请参见文本。

位置：视点和地平面几何（图2）限制行人仅出现在图像的某些区域。我们计算预期的中心位置（超过350000边框），并在图7（a）中绘制得到的热量图，并且对数归一化。如图所示，行人通常位于水平穿过图像中心的狭窄地带（Y坐标随距离/高度变化）。请注意，当从任意视角拍摄场景时，相同的约束无效，例如在INRIA数据库中。

在收集的数据中，许多对象（不仅仅是行人）往往集中在同一区域。在图7（b）中，我们展示了使用由具有低阈值的HOG[5]行人探测器生成的边框获得的热图。大约一半的检测，包括真的和假的位置，发生在与真的阳性相同的波段。因此，在合并此约束时，将大大加快检测速度，但只会适度地提高性能。

PED的分配位置（b）HOG检测的分布

图7：（a）地面行人边框的预期中心位置路面情况和（b）HOG的检测。热量图是对数标准化的，这意味着行人的位置比直接看到的更集中。

2.3. 测试数据

我们将数据库分成训练和测试数据，并详细说明我们的评估方法。这将允许不同的研究小组直接比较他们的方法。因此，我们敦促作者坚持下面描述的三种训练和测试方案之一。

我们收集了11次测试数据，每一次都在5个城市社区中的一个拍摄。我们将数据大致分成两半，留出6个训练阶段（0-5）和5个测试阶段（6-10）。有关训练和测试数据量的详细统计信息，请参见表1的底行。

我们现在正在发布测试数据（第6-10部分）。相反，我们要求作者提交最终的、经过培训的分类标准，我们将继续评估。我们的目标是帮助防止过拟合并延长数据库的寿命。此外，它确保所有算法的评估方式完全相同。场景B允许作者在让我们使用场景C下的完整测试集进行评估之前与其他组进行比较。

在这里，我们重点评估现有的，预先培训的三角探测器。鼓励作者在我们更大的培训集中重新培训他们的系统。我们指定了三种培训/测试方案：

bull;培训任何外部数据，在第6-10课时进行测试。此处报告的结果使用此设置，因为它允许在不进行任何再培训的情况下对现有方法进行广泛调查。

bull;使用第0-5部分进行6次交叉验证。在每个阶段，使用5个培训课程和6个测试课程，然后合并验证集的结果，并报告整个培训集的绩效（第0-5部分）

bull;使用第0-5部分进行培训，第6-10部分进行测试。

2.4. 与现有数据集的比较

现有数据库可分为两种类型：（1）包含在广泛领域内处于不受约束姿势的人的“人”数据库；（2）包含直立人（站立或行走）的“行人”数据集，通常从更受限的视角观看，但通常包含运动信息和更完整的标签。最广泛使用的“人”数据库包括MIT Labelme数据[29]和Pascal VOC数据库[28]的子集。在这项工作中，我们主要关注行人检测，这与某些应用更相关，包括监控、机器人和汽车安全等。

表1提供了现有pedes-tria数据集的详细概述。行人可以在照片[5]、监控视频[26]和移动记录装置（如机器人或车辆[8]）上贴上标签。从照片中收集的数据集存在选择偏差，因为必须手动选择照片以及包含正确的行人，并且根据任意标准选择负面图像，而监控视频的背景有限。通过移动记录收集的数据库。

训练

测试

高度

性质

行人

名词短语。图像

图像的位置

行人

名词短语。图像

图像的位置

10%分位数

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[18868]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码

行人检测：基准外文翻译资料

摘要

1.介绍

2.数据库

2.1. 图像和路面情况

2.2. 数据库统计

2.4. 与现有数据集的比较

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

行人检测：基准外文翻译资料

摘要

1.介绍

2.数据库

2.1. 图像和路面情况

2.2. 数据库统计

2.4. 与现有数据集的比较

您可能感兴趣的文章

最新文档

推荐栏目