基于深度学习的目标检测文献综述
2020-04-14 19:54:25
由于计算机技术的不断发展,人工智能逐渐走入大众的视野,深度学习逐渐成为研究的主要方向。随着各种电子设备在生产生活甚至军备技术中的广泛应用,使用者对于图像处理技术越来越重视,而目标检测作为机器视觉和模式识别领域非常重要的基础研究,研究人员在追求精确度的基础上,对于识别速度也提出了更高的要求。
目标检测着重研究的方向是如何检测识别图像中存在的物体和如何确定物体所在的位置,因此在进行目标检测的过程中,既要确定物体类别,又要确定物体在图像中的像素范围。
传统的机器学习使用统计学习的方法,是一种基于特征提取的目标识别,需要通过人工设定的方法从目标图像中提取特征参数,并将提取出的特征参数作为机器学习的方法进行建模和识别。对于这种传统的目标检测方法,主要问题在于图像所包含的数据具有复杂性,目标的特征难以提取、样本的类别不均衡或者图像中含有噪声都会影响最后的检测结果,训练样本过少或输入维度高也会导致模型不具备较好的泛化能力,从而导致识别精度低。
为解决传统物体检测方法中存在的计算冗余以及鲁棒性差的问题,研究者开始考虑讲候选区域和卷积神经网络相结合,先生成候选区域,再对生成的候选区域进行特征提取、物体类别及位置的判断。
在2014年,首先由Girshick提出R-CNN模型也是深度学习算法应用于目标检测的开端。R-CNN模型利用选择搜索网络,使用不同大小的边框分析图像,通过面积、颜色等规则将相邻像素进行合并,确定2000个候选区域,再对候选区域进行归一化输入卷积神经网络实现特征提取,利用分类器对相应类别进行预测,为达到减小候选区域和实际位置的误差的目的,将对候选区域使用线性回归方法,对边界进行补偿和修正。同时,R-CNN模型也存在一些不足,由于使用了归一化操作,可能会造成特征信息的丢失,模型的各个部分如卷积网络、分类器等都需要单独训练,占用磁盘空间大,训练速度也很慢。因此在R-CNN模型的基础上,结合SPP NET的优点提出Fast R-CNN模型,以及Faster R-CNN和Mask R-CNN,基于候选区域的两阶段深度学习检测效率不断提高,平均检测精度和速度也有大幅提升。
在2016年,以Redmon为首的科研人员又提出了YOLO算法。他将输入图像的尺寸先进行归一化处理,然后再利用卷积网络实现对特征的提取,最后通过非极大值抑制算法过滤边界框以得到最后的解。这种模型相较于之前提及的模型检测速度更快并且误判率更低,泛化能力和鲁棒性更高,但定位准确率受图像本身特征影响较大。{title}2. 研究的基本内容与方案
{title}本次研究首先需要了解目标检测技术的主要步骤:区域建议、特征表示和区域分类。在本次设计的第一部分,是要对提供的图像中目标位置的可能区域提供建议,即提供候选区,然后利用适当的特征模型获得特征表示,最后通过分类器进行判断以确定目标区域中是否有特定类型特定目标。
这次主要使用的模型是Fast R-CNN,他是基于R-CNN的优化版本,主要特点是先对整幅图像进行卷积,再从特征映射中选择候选区域,大幅度地提高了训练速度,引入相当于单层SPP NET的ROI,共享候选区域在网络的传播过程,提取候选区域的固定维度特征表示,引入多任务损失函数,将卷积网络、分类器和边框回归并入同一网络。在微调阶段, Fast R-CNN 采用了新的层级采样方法, 首先采样目标图像, 接着从采样出来的图像中对RoI进行采样, 由于同一幅图像的ROI共享计算和内存, 使训练更加高效。相较于R-CNN,Fast R-CNN提高了均值平均精度,虽然在确定候选区域上还有所欠缺,但已经是性能相对较高的算法。
在这次设计中,我希望能利用Matlab实现Fast R-CNN模型的构建,通过提供的数据库进行基本的样本训练,通过给定图像检验是否能检测出较常规的目标任务以检验设计成果。3. 参考文献[1]张慧,王坤峰,王飞跃.深度学习在目标视觉检测中的应用进展与展望[J].自动化学报,2017,43(8):1289-1305.
[2]黄凯奇,任伟强,谭铁牛.图像物体分类与检测算法综述[J].计算机学报,2014,36(6):1225-1240.
[3]Lecun Y,Bengio Y,Hinton G. Deep Learning[J].Nature,2015,521(7553):436-444.