基于孪生网络的目标跟踪算法研究毕业论文

2020-02-17 21:07:05

摘要

目标跟踪是计算机视觉领域中的一个关键问题。通常目标跟踪面临几大难点：目标事先未知，即无先验知识，难以实现训练分类器；目标外观变化，比如尺度变化、旋转、非刚体形变；场景变化，如光照、视角、遮挡、运动模糊等。主流解决思路分为两种：第一是生成式，即建立目标的联合概率密度模型，根据视频信息，建立目标的外观模型。根据外观模型进行追踪；第二是判别式，即建立目标与背景的分类器，训练分类器，根据分类器判决结果进行追踪。

从2016年起，深度学习就开始被大量运用在目标跟踪算法中。但其仍然存在训练数据的缺失的问题，深度模型的魔力之一来自于对大量标注训练数据的有效学习，而目标跟踪仅仅提供第一帧的边界框作为训练数据，也从本质上限制了他们可以学习的模型的丰富性。在这种情况下，采用端到端训练的全卷积孪生网络（Fully-convolutional Siamese network），实现了一种用于视频目标检测的基本跟踪算法。该跟踪框架对视频序列中的目标状态进行预测，利用相似性算法，学习和迁移图像特征，构建鲁棒目标表观特征。

本文在根据ILSVRC15数据集训练，尽管SiamFC非常简单，但在OTB基准测试（Object Tracking Benchmark）和VOT-2016（Visual Object Tracking）基准测试中都实现了比较先进的性能。最后，针对实验结果，总结SiamFC在测试基准测试中的实际表现，分析了SiamFC网络结构的优缺点，以及相应的孪生网络的改进和展望。

关键词：目标跟踪；孪生网络；卷积神经网络

Abstract

Object tracking is a key problem in the field of computer vision. Usually object tracking faces several difficulties: the target is unknown in advance, that is, there is no prior knowledge, it is difficult to achieve training classifier; Target appearance changes, such as scale change, rotation, non-rigid body deformation; Scene changes, such as lighting, perspective, occlusion, motion blur, etc. The mainstream solutions are divided into two types: the first is the generation formula, that is, the joint probability density model of the target is established, and the appearance model of the target is established according to the video information. Tracking according to the appearance model; The second is discriminant, that is, the classifier of target and background is established, the classifier is trained, and the classifier is tracked according to the decision result of the classifier.

Since 2016, deep learning has been widely used in object tracking algorithms. However, the lack of training data is still a problem. One of the magic of depth model comes from the effective learning of a large number of labeled training data, and object tracking only provides the boundary box of the first frame as the training data, which in essence limits the richness of the model they can learn. In this case, a basic tracking algorithm for video target detection is implemented by using the fully convolutional Siamese network with end-to-end training. The tracking framework predicts the target state in video sequence, uses similarity algorithm, learns and migrates image features, and constructs robust target apparent features.

In this paper, based on ILSVRC15 dataset training, although SiamFC is very simple, it has achieved relatively advanced performance in both OTB benchmark and vot-2016 benchmark. Finally, according to the experimental results, the actual performance of SiamFC in the benchmark test is summarized, and the advantages and disadvantages of SiamFC network structure are analyzed, as well as the improvement and prospect of the corresponding twin network.

Key Words：object-tracking; Siamese-network; convolutional neural network

第1章绪论 1

1.1 课题研究的目的 1

1.2 国内外研究现状 1

1.3 本文的主要研究内容 3

1.4 本文的组织结构 3

第2章目标跟踪及深度学习理论基础概述 4

2.1 目标跟踪分析 4

2.2 目标跟踪干扰因素与性能指标 5

2.3 深度学习简介 7

2.3.1 全连接神经网络 7

2.3.2 卷积神经网络 8

2.3.3 典型卷积神经网络简介 9

2.4 孪生网络的主要原理 10

2.5 本章小结 11

第3章基于全卷积孪生网络的目标跟踪算法设计 12

3.1 相似性学习 12

3.2 具体参数设计 12

3.2.1 训练损失函数 12

3.2.2 算法总体框架与具体实现结构 13

3.3 SiamFC网络的训练 15

3.4 SiamFC网络的跟踪过程 15

3.5 本章小结 15

第4章基于SiamFC的目标跟踪的实现和分析 16

4.1 实验环境准备 16

4.2 OTB基准 16

4.3 VOT2016基准 18

4.4 SiamFC网络分析 20

4.4.1 优缺点分析 20

4.4.2 解决思路 20

4.4.3 SiamFC网络的改进 21

4.5 本章小结 22

第5章总结与展望 23

参考文献 24

致谢 27

第1章绪论

1.1 课题研究的目的

目标跟踪是计算机视觉领域的重要研究方向和热点之一。目标跟踪问题的基本形式是在图像序列或视频流中选择人们感兴趣的对象作为目标。在后续连续帧中，可以自动找到目标的位置，并且可以获得目标的轨迹和特定形状以及相对位置。目标跟踪广泛应用于军事侦察，智能视频监控，人机交互，机器人导航等领域，具有重要的实用价值^[1]。在这些不同的应用中，人们经常需要分析图像序列或视频流中感兴趣的区域或对象。

获得目标的位置、运动轨迹和明显的变化，从而实现跟踪和机器人导航避障。从而进一步做行为分析和视频序列语义特征高级分析。然而，在实际应用中，目标跟踪仍旧面临着诸多挑战。例如，目标先验知识的缺乏，场景变化复杂，相机与目标之间的运动相对不规则，使得设计一种适用于所有场景的目标跟踪算法变得困难。

近年来，深度学习技术在目标跟踪领域得到了逐步的应用。面对复杂的跟踪场景，手工设计的浅层特征难以描述目标的变化，通过深层网络提取到的特征具有更加稳定的表征能力。但是目标的运动过程中的外观变化需要不断调整参数，这个在线学习的过程会给算法的时效性带来很大的挑战。通过离线训练一个相似性学习的全卷积孪生网络，可以避免了在线学习问题，通过比较目标模板与搜索区域的特征相似度，来拟合整个图像的相似度，从而完成模型的学习和跟踪。孪生网络是由具有相同参数和权重的两个或更多子网络组成的神经网络结构，孪生网络在涉及目标物体之间相似性的测量或两个类似事物之间的关系的任务中很受欢迎。全卷积孪生网络利用AlexNet^[2]作为孪生网络每支的结构，将目标跟踪作是匹配任务，利用第一帧目标得到的模型去匹配后续帧中的样本，进而得到目标在后续帧中的位置。

1.2 国内外研究现状

目标跟踪的主要核心方向是对场景的语义信息的特征表示以及如何才能选定下一帧目标物体的位置，对于这个领域，我们通常把目标跟踪的方法分为两种，第一是生成式方法，它注重如何提取目标物体的特征信息，通过最小化目标物体和待选区域的特征信息来定位目标，但这种方法注重目标物体的特征却忽视了背景信息，导致在实际跟踪中，当目标物体被遮挡等情况时容易出现丢失。第二是判别式方法，这种方法更加注重目标与背景的差异特征提取，将目标物体从背景特征中提取出来。深度学习方法就是属于这一范畴，深度神经网络的方法得益于大量的训练数据，能够具有较强的表述能力，在跟踪准确度上不断地刷新了记录，但是由于需要大量的运算以及在线微调，很多基于深度神经网络的跟踪方法并不具有实时性，这很大程度上限制了其转换为实际应用。

早期的跟踪算法主要是生成式算法，主流的算法包括迭代估计算法以及光流算法。比如MeanShift^[3]、ParticleFilter^[4]、L-K^[5]以及STC^[6]算法等。到2011年，针对运动目标外观变化和漂移等问题，Zdenek Kalal等人提出了TLD^[7]算法(Tracking-Learning-Detection)，它能够将在线学习和检测算法相结合，综合了检测和跟踪算法的优点，这是一种实时性一般但鲁棒性较高的判别式算法。在机器学习技术的影响下，之后的跟踪算法开始应用分类器，比如MIL^[8]、Struck^[9]等算法，根据类别标签，利用机器学习中的朴素贝叶斯分类器来计算目标集合中的最大似然概率。2012年，Henriques等人^[10]提出了一种滤波跟踪中里程碑式的算法CSK（Circulant Structure with Kernels），该算法将核方法与滤波结合起来，实现了快速跟踪，两年后又提出了KCF算法^[11]（Kernelized Correlation Filter），这是一种应用多通道HOG特征的目标跟踪算法，基于相关滤波器的跟踪方法具有较高的跟踪速度，但是受限于特征表示和边界效应，精确度比较低。不久后Danelljan等人提出了DSST^[12]跟踪算法(Discriminative Scale Space Tracker)，实现了多尺度相关滤波，弥补了KCF算法对目标尺度特征提取的不足。为了使目标遮挡、消失问题减少，Ma等人综合了TLD和DSST算法的优点，提出了LCT^[13]算法（Long-term Correlation Tracking）,该算法获取目标的最佳尺度和位置来作为分类器的样本，利用随机森林重检测定位目标位置。

另一种是基于深度神经网络的跟踪方法，这得益于其强特征提取能力。2013，第一个将深度卷积网络应用在目标跟踪的算法DLT^[14]（Direct Linear Transform），其用于解决尺度的最小二乘问题创新性的提出了网络的离线预训练以及在线微调的新思路。之后，研究人员提出了很多各方面优化的算法，比如VGG-16^[15]、MDNet^[16]、DeepSRDCF^[17]、GROTURN^[18]等，此外也有人将循环神经网络（RNN）加入跟踪系统，例如在2016年提出的RTT^[19]算法、2017年Ning等人提出的LSTM^[20]算法。

2016年，Tao R等人根据目标与模板匹配验证的思想，提出了最先采用孪生卷积网络的跟踪算法SINT^[21]，该网络采用了两支结构完全相同的网络，可采用如AlexNet或VGG网络，共享参数。在孪生网络的初始训练阶段输入两幅图像和一对正负标签，本课题设计的损失函数要能使正样本之间经特征映射后尽量大，负样本之间尽量小。在跟踪阶段我们使候选区域帧与第一帧目标物体进行比对，网络返回最匹配的结果作为跟踪结果。我们的SiamFC^[22]是根据SINT网络的基础而提出来的，SiamFC对不同的网络分支提取出特征图，进行相关运算后会有匹配得分图，将响应最大的帧乘以步长可以得到目标位置。此后，研究者又根据SiamFC网络提出了很多改进版本，如CFNet^[23]、DSiam^[24]以及SA-Siam^[25]等网络，这些网络我会在第四章详细介绍。

1.3 本文的主要研究内容

传统算法可以跟踪任何对象，但是不可能有良好的数据收集和训练有素的检测器。例如：KCF，Struck和TLD。目前，从大型监督数据集训练的深度卷积网络被广泛应用于计算机视觉的其他问题，但监督数据的稀缺性和实时操作约束阻碍了深度学习在该方法中的应用（每个视频训练一个检测模型）。最近的一些工作使用预训练的深度卷积来克服上述限制：方法1：将网络的内部表示作为特征应用于“浅层”方法（如相关滤波器），但不能充分利用端到端的训练方法; 方法2：使用随机梯度下降（SGD）微调网络的多个层。

在本文中，深度卷积网络被训练以在初始离线训练阶段解决更一般的相似性学习问题，然后在跟踪期间简单地在线评估网络。它在现代跟踪基准测试中表现良好，其速度远远超过帧速度要求。本文的主要课题是训练一个孪生网络，在更大的候选图像中定位目标，它对候选图像进行全卷积：使用计算其两个输入互相关的双线性层实现密集而有效的滑窗评估。

1.4 本文的组织结构

本文针对基于孪生网络的目标跟踪算法研究，分为五章，章节安排如下：

第一章：绪论，本章介绍目标跟踪的研究背景和意义，国内外研究现状，说明了本文主要的研究内容与本文的组织结构。

第二章：目标跟踪和深度学习相关技术简介，本章介绍目标跟踪的运作框架，对于目标跟踪的场景干扰因素，以及如何评价跟踪算法性能指标，分析了深度学习相关的理论，包括全连接神经网络和卷积神经网络，对经典的卷积神经网络做介绍分析，最后介绍了孪生网络的基本原理，为课题实验作技术准备。

第三章：基于SiamFC的目标跟踪算法研究，本章介绍了SiamFC网络的结构与原理，包括SiamFC网络的具体参数设计，训练损失函数设计，跟踪算法的总体框架与具体的实现结构，最后介绍了SiamFC的训练和跟踪过程。

第四章：基于SiamFC的目标跟踪的实现和分析，简单介绍了实验环境的准备，分析了跟踪算法在OTB基准^[26]和VOT2016基准下的性能表现，最后分析SiamFC网络的优缺点，提出了改进思路，最后简单介绍了Siamese网络的改进的CFNet等几个网络。

以上是毕业论文大纲或资料介绍，该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取，微信号：bysjorg。

注册

找回密码