基于深度学习的自动驾驶行人检测方法研究毕业论文

2020-02-17 12:02

摘要

行人检测是自动驾驶的基本感知任务，其检测结果的准确性与时效性将对自动驾驶产生重要影响，因此本文以应用于自动驾驶的视角出发来研究行人检测以期产生一定的实际意义和应用价值。现阶段行人检测研究受到行人形态和背景因素等多方面限制，如何解决这些技术难题已经成为研究的重点，本文通过对常见的网络模型进行对比分析并在真实场景下进行验证来得到一个准确率高、时效性好的行人检测模型。

本文首先研究了传统的人工设计特征的行人检测算法，介绍了常见的图像特征与分类器，以DPM为例分析了传统算法的优劣；其次简述了深度学习的发展与Faster R-CNN网络；随后分别搭建了以VGG16和Res101为前端的Faster R-CNN网络模型并在Caltech行人数据集上进行训练与测试。实验结果表明，以VGG16为前端的行人检测模型具有更好的性能表现；然后在真实场景下成功验证了本文行人检测模型的实际应用效果与场景泛化能力；最后对全文内容进行总结，并对未来研究方向提出预测。

本文的主要创新点体现在对现有行人检测模型进行了分析对比并且做了大量的真实场景测试。

关键词：行人检测；自动驾驶；深度学习；卷积神经网络

Abstract

Pedestrian detection is the basic perceptual task of autonomous driving. The accuracy and timeliness of the detection have an important impact on autonomous driving. Therefore, this thesis studies the pedestrian detection in order to make certain practical significance and application value to the automatic driving. At present, pedestrian detection is limited by many aspects such as pedestrian form and background factors. How to solve these problems has become the key of the technology. This thesis obtains a pedestrian detection model with high accuracy and short timeliness by comparing and analyzing existing common network models and real scenes testing.

Firstly, this thesis studies the pedestrian detection algorithm based on artificial features, introduces common image features and classifiers, and analyzes the advantages and disadvantages of traditional algorithms, taking DPM as an example. Secondly, the development of deep learning and Faster R-CNN network are briefly described. Then using Caltech pedestrian dataset to train and test the Faster R-CNN network model with VGG16 and Res101 as the feature extraction network respectively. The experimental results show that the pedestrian detection model with VGG16 as the feature extraction network has better performance; In real scenes, the practical application effect and generalization ability of the pedestrian detection model are successfully verified. Finally, the content of the full thesis is summarized, and the future research directions are predicted.

The main innovations of this paper are reflected in the analysis and comparison of existing pedestrian detection models and certain real scene tests.

Keywords：Pedestrian Detection；Autonomous Driving；Deep Learning；Convolutional Neural Networks

绪论

研究背景及意义

随着科学技术的发展，众多研究领域都开始相继取得重大突破，其中人工智能无疑是近些年来一个最为火热的概念以及未来很长时间内社会关注的焦点，而计算机视觉就是其中一个重要的应用场景^[1-2]。出于军事、安全、交通、商业和医疗等多方面的需求，目标识别检测已经成为计算机视觉领域应用较为广泛的分支方向^[3]。简单来说，目标检测识别就是将图像加以分割并对其进行识别的功能，准确性和时效性是衡量目标检测与识别效果的评价指标。但是在实际场景应用时，检测效果通常会受到光照、背景、目标形态和遮挡等因素影响，这就意味着目标检测识别的发展仍有很长的一段路要走。

具体到交通领域，行人检测就是一个现阶段热议的课题。先前的行人检测通常基于传统图像处理方法，即提取人工设计特征来进行目标识别与定位，例如SIFT（尺度不变特征转换）、SURF(加速稳健特征)和HOG（方向梯度直方图)等^[4]。传统方法的本质就是通过算法获取图像中与既定特征相关的信息，然后根据提取到的人工特征训练分类器，最后再结合相应的方法定位图像中的目标对象。但是，不同的人工特征都存在着各自的缺陷如：特征描述、错配问题和局部遮挡，正是这些问题使得传统方法需要限制尺度和角度。此外，特征工程手段有很大的局限性，它的模型往往针对特定目标。即使HOG SVM的组合很大程度改善了以上问题，但是传统行人检测方法的发展还是受到了很大的限制。

与此同时机器学习开始慢慢进入大众的视野，深度学习在目标检测研究中的比例越来越高，尤其是在Hinton教授等人解决了深度学习中梯度消失的难题之后，深度学习开始掀起了一波浪潮。目前人工智能领域是深度学习的主要应用场合，其包括语音识别、目标检测和文本理解等用途^[5]。CNN（卷积神经网络）更是将深度学习与卷积运算相结合，大幅降低了检测的复杂度、错误率和漏检率，同时还具有良好的鲁棒性，在各类目标检测与识别任务中都获得了理想的结果^[6-7]。因此，深度学习开始逐渐取代传统的人工设计特征方法成为目标检测的首选。

现阶段很多国内外的知名企业都投入巨大的精力来研究自动驾驶技术，希望能抢先占领技术高地。无论是国外的谷歌、苹果、Uber还是国内的百度、华为等企业以及学校，都基本处于L3级别，只有少数样车可以达到L4级别，越高的级别在时间和精度上对行人检测系统有着越严格的要求^[8-9]。仅以Google公司的自动驾驶汽车为例，它装备了各式的传感器与检测器：红外线摄像头、激光雷达和惯性导航等，借此来感知汽车在行驶时的多变周围环境，由于高昂的成本使得其至今仍处于实验阶段无法量产。具体而言，Google公司在2009年开始启动自动驾驶汽车的研究项目，在2011年取得美国政府批准的自动驾驶牌照，随后便开始正式地上路测试。截止2017年底，其试验车共计行驶超过140万英里的里程数并保持零事故率。同期国内暂时还是百度在领跑，其最新的Apollo于2017年在美国测试时总行驶里程数为1949英里，每千英里干预次数为22.06，虽然和谷歌的0.18相比仍存在很大差距，但已经领先于同期的奔驰和博世。

行人检测在近些年已经有了一定的技术积累，CVPR 2015会议中，在Caltech数据集上漏检率的最好成绩为18.5%，然而在ECCV 2016会议中，针对同样的数据集，漏检率已经下降至9.6%。尽管基于深度学习的行人检测模型已经超过了早期的传统人工设计特征方法，但是仍存在许多需要改善的地方，比如运算成本、标签标注和区域划定等问题，所以对于行人检测深度学习算法的深入研究在学术和工程领域中都有着重要意义

国内外研究现状

在自动驾驶领域，目标检测应用最多的就是行人检测。全球每年都会召开CVPR, ECCV, PAMI和ICCV等计算机视觉方面的国际等级会议，而行人检测往往是这些会议讨论的重点议题之一^[8]。在2003年，Viola和Jones等人设计出了一个准确高效的人脸检测器叫做VJ检测器。VJ检测器使用了积分图来提取特征，这大幅提高了检测器的计算速度^[10]。在CVPR 2005上，Navneet Dalal 和Bill Triggs采用HOG来提取特征，并选取线性SVM分类器，从而达到了行人检测的功能要求。HOG的主要思想就是利用图像的梯度信息来设定特征^[11]。在2008年，Felzenswalb等人提出了DPM方法，DPM算法选取HOG特征，使用改进的SVM作为分类器，因此DPM算法在某种程度上算是HOG SVM的结合体^[12]。在2009年，有关行人检测的行业标准出台，评估方法从FPPW变化成FPP，加上Caltech行人数据集的出现，行人检测的发展进入了一个新的阶段。其中ACF方法就是典型代表，它的检测结果在当时是最佳的^[13]。

在2011年，Wu等人提出CENTRIST描述子，并且此系统能够达到实时检测的要求^[14]。在2013年，Sermanet等人提出利用全局特征和局部特征来共同训练分类器，同时用卷积稀疏编码训练滤波器^[15]。Daniel Costea等人则是将语义分割应用在行人检测上，在输入前先对图像进行语义分割以此来提高检测的效果^[16]。韩田甜等人根据行人的动态特点，提出一种新的HOG LBP行人检测方法^[17]。

卷积神经网络为行人检测技术提供了新的发展思路，尤其是在Faster R-CNN框架出现后，行人检测算法的性能得到了大幅度提升。在CVPR 2015中，传统的ACF检测器创造了最佳的漏检率（18.5%），但是在ECCV 2016中，卷积神经网络直接将行人检测的漏检率降低至9.6%。现在大部分学者都通过将传统检测的方法Boosting trees和CNN相结合的方式，将深度学习模型应用到行人检测中。在CVPR 2016中，张姗姗等人利用ICF来提取proposal，然后使用卷积神经网络再次进行评分^[18]。颜水成教授等人提出同时训练两个网络用以识别不同尺度的行人，最终将两个网络的结果进行加权融合^[19]。

在ECCV 2016会议中，林教授课题组使用RPN来提取proposal，并且利用卷积神经网络提取特征，最后再用Boosting trees分类^[20]。虽然此方法对于普通的对象检测有着不俗成绩，但是不太适用于行人检测。因此，林教授课题组提出了一种基于RPN和BF的行人检测模型，克服了尺寸过小、分辨率过低的问题。在CVPR 2017中，来自清华北大的茅佳源和肖特特等人对行人检测的extra features做了诸多分析，并且提出了HyperLearner行人检测框架，在KITTI和Caltech 等多个数据集上都表现出优良的性能^[21]。在2018年ECCV和CVPR上很多学者对遮挡问题进行了研究，周教授等人提出通过回归两个bounding boxes来分别定位全身和行人的可见部分^[22]；Zhang等人分别从loss和two stage detector中的核心操作ROI Pooling角度来解决遮挡问题^[23]；旷视科技Face 提出了一种全新的人群检测定位模型 Repulsion Loss^[24]。

现阶段研究难点

近十年间，行人检测研究保持稳步前进，并不时取得重大突破。但是现阶段的行人检测效果距离应用于真实驾驶场景还有不小的距离，鉴于行人检测的高技术门槛，现仍有众多难点等待我们去解决。

（1）行人姿态多样性：与其他静态的刚性目标检测不同，人体是一种非刚体性对象，另外行人还会表现出不同的动态行为例如：行走、站立和下蹲等。这种肢体的动作变化所形成的不同姿态是很难用单一的特征模型进行准确描述的^[25]。

（2）行人外观多样性：行人各自之间的着装和体态特征各不相同，甚至存在巨大差异。此外对于同一行人目标，不同的视觉角度也会造成行人体型在一定程度上的变形，而且着装的色彩对光照等也有着不同的折射与反射效果。这样的不确定性使得行人检测难度大幅增加。

（3）检测场景复杂性：真实场景下存在着许多不可控因素例如光照强度、道路背景以及意外事件等，而且这些因素是实时发生变化，即使是细微的变动也会对检测结果造成一定影响。

以上是毕业论文大纲或资料介绍，该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取，微信号：bysjorg。

注册

找回密码

基于深度学习的自动驾驶行人检测方法研究毕业论文

目录

绪论

研究背景及意义

国内外研究现状

现阶段研究难点

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

基于深度学习的自动驾驶行人检测方法研究毕业论文

目 录

绪论

研究背景及意义

国内外研究现状

现阶段研究难点

您可能感兴趣的文章

最新文档

推荐栏目

目录