登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 通信工程 > 正文

基于卷积神经网络的行人重识别算法研究毕业论文

 2020-02-17 09:02  

摘 要

监控摄像头在各领域的大量使用形成了海量分布式摄像网络。在大量的监测网络中,监测内容多为人类活动,因此行人识别是智能监控系统的重要内容。行人重识别(Person Re-identification)旨在从多个摄像机捕获的图像的大规模数据库中准确地检索到目标人物。目前,得益于计算机视觉领域的快速发展,行人重识别技术在智能视频分析、人机交互等领域已得到广泛应用。

由于摄像头光照视角差异,行人姿态变化及遮挡等因素的影响,在不同摄像头下,即使是同一身份的行人图像往往也可能存在较大差异。行人重识别主要包含两个关键部分,提取有效的行人特征,通过度量学习算法进行相似性度量。对于多样的识别场景和复杂的识别目标,寻找合适的前端特征尤为重要。作为一种端对端的识别方法,卷积神经网络(Convolutional Neural Network, CNN)在处理图像时,不需要进行复杂的预处理操作,能够从数据中自动学习特征。

最近的文献中证实了在行人图像特征描述方面,采用部件提供的细粒度信息对目标人物识别是有用的。使用分类的部件的先决条件是每个部件都应位于对应的位置。本文没有采用如姿态估计得到的标签信息来定位部件,而是强调部件的内容一致性,我们的目的是学习用于目标人物识别的具有辨别性局部特征信息。本文设计一种基于部分的卷积基线(Part-based Convolutional Baseline,PCB)结构,PCB结构与ResNet50的骨干网络(Backbone Network)原始全局平均池化(Global Average Pooling,GAP)层前面的结构相同,得到三维张量(Tensor)后对其按照水平方向均匀分区,各自进行平均池化,降低维度后通过全连接(Fully Connected,FC)层,Softmax进行分类。训练时每个分区对应一个交叉熵损失(Cross Entropy Loss),测试时将局部特征合并在一起计算相似度。PCB相当于进行粗略的局部划分,为保证局部特征连续性,使用精制部件池化(Refined Part Pooling,RPP)对每个分区中的异常值进行重新分配,来进一步精细划分局部,得到更好的局部特征。在Market-1501数据集上,实现了(67.4 4.2)%平均精确度(mean Average Precision,mAP)和(82.3 1.5)%rank-1准确度,达到了行人识别的目的。

关键词:行人重识别;卷积神经网络;PCB模型;精制部件池化。

Abstract

A large number of surveillance cameras in various fields have formed a massive distributed camera network. In a large number of monitoring networks, monitoring content is mostly human activities, so pedestrian recognition is an important part of intelligent monitoring systems. Person Re-identification aims to accurately retrieve a target person from a large database of images captured by multiple cameras. At present, thanks to the rapid development of computer vision, pedestrian recognition technology has been widely used in the fields of intelligent video analysis and human-computer interaction.

    Due to differences in camera illumination angles, pedestrian attitude changes, and occlusion, even pedestrian images of the same identity may have large differences under different cameras. Pedestrian re-recognition mainly consists of two key parts, extracting effective pedestrian characteristics, and measuring similarity by metric learning algorithm. For a variety of recognition scenarios and complex recognition targets, it is especially important to find suitable front-end features. As an end-to-end identification method, convolutional neural networks do not require complex pre-processing operations when processing images, and can automatically learn features from data.

Recent literature has confirmed that in the aspect of pedestrian image characterization, the use of fine-grained information provided by components is useful for target character recognition. A prerequisite for using classified components is that each component should be in the corresponding location. This article does not use tag information obtained from pose estimation to locate components, but emphasizes the content consistency of components. Our goal is to learn discriminative local feature information for target character recognition. This paper designs a Part-based Convolutional Baseline (PCB) structure with the same structure as the previous Global Average Pooling (GAP) layer of the ResNet50 Backbone Network. After obtaining the three-dimensional tensor (Tensor), it is evenly partitioned according to the horizontal direction, and each of them is averaged. After the dimension is reduced, it is classified by Fully Connected (FC) layer and Softmax. Each partition corresponds to a Cross Entropy Loss during training, and the local features are combined to calculate the similarity during the test. PCB is equivalent to rough local division. In order to ensure the continuity of local features, Refined Part Pooling (RPP) is used to redistribute the outliers in each partition to further finely partition the parts and get better. Local features. On the Market-1501 dataset, 81.6%mAP and 83.8%rank-1 accuracy were achieved, which achieved the purpose of pedestrian recognition.

Key Words: Pedestrian Recognition; Convolutional Neural Networks; PCB Models; Refinement Pooling.

目 录

摘要 I

Abstract II

第1章 绪论 1

1.1课题研究目的 1

1.2国内外研究现状 1

1.3本文的主要研究内容 2

1.4本文的组织结构 3

第2章 卷积神经网络介绍 4

2.1卷积神经网络 4

2.2卷积神经网络网络结构 4

2.2.1卷积层 4

2.2.2池化层 6

2.2.3激活函数 7

2.2.4全连接层 9

2.3损失函数 11

2.4反向传播算法 13

第3章 基于局部特征的行人重识别算法 16

3.1基于部分的卷积基线的网络构建 16

3.2 PCB结构 16

3.2.1 ResNet50结构 16

3.2.2 PCB网络重要参数及优化 17

3.3 精制部件池化 18

3.4 部件分类器的诱导训练 20

第4章 实验对比及结果分析 21

4.1 数据集和评估参数 21

4.2 参数分析 21

4.3 对比实验 22

4.4 实验结果分析 23

第5章 总结与展望 24

5.1 论文总结 24

5.2 后续工作展望 24

参考文献 26

致谢 28

第1章 绪论

1.1课题研究目的

目前,广泛的监控网络的形成极大地促进了安防刑侦领域的发展。在应用这种监控网络寻找有用的信息方面,传统方法往往需要大量的精力,而且不能确保找寻信息的准确性。因此,能够智能化匹配图像或视频的识别算法就尤为重要,也是计算机视觉领域的研究热门之一[1]

行人重识别技术就是,给定一个目标人物的图像或视频信息,在不具有重叠视角的其他摄像头中辨认出是同一个身份的过程。行人图像不清晰、动作姿态不同或被遮挡、衣着相似,摄像头下光照和角度都有较大变化等问题是计算机视觉研究中的重点和难点[2]

在处理学习任务时,通常在原始输入上训练和运行模型,而无需先手动提取任何特征[3]。因为,对原始输入进行过培训的网络可以学会自己提取这些功能,而且与手动提取特征相比,它还能够在网络改进时进一步优化功能提取。当输入是图像时,直接使用其原始像素值,但这样会带来训练参数过多的问题。为解决这个问题,使用称为卷积神经网络的不同网络架构,它可以专门用于处理图像。卷积神经网络具有的卷积结构、权值共享和池化这三个方法能够对模型进行训练学习。在局部子集进行卷积减少参数量,加速整体的训练。卷积神经元可以识别前一层输出的某些局部模式,由于识别的模式与它们在图像中的位置无关,因此所有神经元都将被迫通过使所有神经元共享一组参数来识别相同的模式。为了现在识别一个层内的多个不同特征,需要具有多个滤波器,其中每个滤波器是一组神经元,其识别图像中不同位置处的特定图案。池化能减少特征图的尺寸,从而加快网络的收敛速度,同时对图像的平移、缩放等操作具有鲁棒性。因此,如何利用卷积神经网络进行有效的行人特征提取,达到目标人物识别的目的是本文研究的重点。

1.2国内外研究现状

由于行人再识别任务中存在的行人图像分辨率低、行人外观姿态不同或被遮挡、监控场景的复杂性以及在不同摄像头下光照、角度变化等问题,导致识别困难。针对这些问题,不少研究者进行深入研究,提出了诸多方法。有学者认为,在深度学习方面,行人重识别模型按照不同的特征功能结构可以分为两类,一类是利用卷积神经网络进行特征提取,然后用度量学习算法进行排序识别。另一类是采用暹罗或者三元组结构,将特征提取和度量学习结合在一起训练。在[4]中,学者提出了一个暹罗卷积神经网络(Siamese Convolutional Neural Network,SCNN),训练SCNN以学习编码两个输入图像块之间的局部时空结构的特征描述,聚合像素和光流信息。其次,借助于梯度增强分类器将从比较的输入块的位置和大小导出的一组上下文特征与CNN输出组合以生成最终匹配概率,为匹配成对检测进行了两个阶段的学习。另外,三元组结构聚焦于分类问题中的损失函数(Loss Function)上。将输入三张两个不同身份图像输入到网络中,把其中一张图像作为候选图像,根据身份的不同将剩余图像划分为正负样本,然后使用三元组损失函数对正负样本进行约束。Cheng[5]等人沿用了三元组网络的算法理念,但对输入的图像进行了更加精细的划分,并且在相似度度量方面进行了改进。具体做法是在损失函数中加入了一个阈值z,对正样本对之间的相似度进行进一步衡量,缩小了正样本间的距离。有学者认为行人重识别的分类任务处理的对象是目标人物与数据集中图像之间的样本对,因此聚焦于距离度量算法改进。具体算法除了[4]中的欧氏距离,还有[6]中,使用加权K-means算法对特征空间的每个维度进行加权,使权重与两个相连的数据点之间的最大间隙的比率与其他间隙的平均值成比例;Zhang等人[7]使用加权的汉明距离(Hamming Distance)描述样本对之间的距离。

同时,不少学者聚焦于训练卷积网络进行特征提取,在训练模型时将其视为一个多分类问题。研究者[8]将卷积神经网络提取特征与从对象环境中提取的补充信息进行融合后得到特征描述能够适应目标的外观变化。Li等人[9]提出了一种六层的FPNN ( Filter Pairing Neural Network)神经网络,他们构造的能模拟光照变化的特殊卷积层以及新增在该卷积层后面的部分匹配层可以很好的处理图像中行人姿势和光照变化造成的行人外观差距的问题,显著的提高了行人辨别能力。虽然已提出各种优化算法和网络改进,但是对训练数据和基线网络架构的影响的评估相对较少。因此本文设计了一种新的神经网络基线架构,以期得到更好的识别效果。

1.3本文的主要研究内容

本文在卷积神经网络基础上对行人重识别算法进行研究,主要工作如下:

本文设计一种PCB结构,PCB结构与ResNet50的骨干网络在原始全局平均池化层之前的结构相同,得到激活的三维张量后对其按照水平方向均匀分区,每个分区各自进行平均池化,降维后通过全连接层,Softmax进行分类。训练时每个分区对应一个交叉熵损失,测试时将局部特征合并在一起再计算相似度。PCB相当于进行粗略的局部划分,为保证局部特征连续性,使用精制部件池化对每个分区中的异常值进行重新分配,来进一步精细划分局部,得到更好的局部特征。本文在Market-1501数据集上进行实验,同时与IDE模型进行比较,实验结果显示出了本文提出的模型的有效性。

1.4本文的组织结构

本文针对基于卷积神经网络的行人重识别算法进行研究,共四个章节,章节内容如下:

第一章为绪论。介绍了行人重识别的研究意义和使用卷积神经网络的优点,然后对国内外行人重识别算法进行简单描述,对本文主要研究算法进行概述。

第二章对卷积神经网络的基本结构作了具体介绍和理论推导,分析了卷积神经网络提取深度特征的过程以及梯度下降反向传播训练过程。

第三章提出基于局部特征提取的算法研究,首先对基于部分的卷积基线网络进行介绍,分析其网络结构及重要参数,PCB模型受益于细粒度特征提取,因此为进一步细化分类,进行精制部件池化,对分区出现的异常值进行重新分配,增强统一分区内部的一致性。

以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。

相关图片展示:

https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=3927105966,107705199amp;fm=26amp;gp=0.jpg

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图