基于卷积神经网络的运动目标跟踪算法研究文献综述

2020-05-02 05:05

1．目的及意义

运动目标检测与跟踪属于计算机视觉研究领域之一，也是属于当前计算机视觉研究中还没有根本解决的难点问题。运动目标跟踪可以融入目标识别与分类、目标特征提取等工作流程当中，该过程结果又可以直接影响目标行为理解和描述，以及推理决策等更高层次处理过程。近年来，随着深度学习在目标分类、目标检测任务中逐渐取得成功，并逐渐在性能上超过传统算法，目标跟踪算法也开始结合深度学习，并逐渐在性能上超过传统方法，取得了一定的突破。

基于卷积神经网络的运动目标跟踪能够在复杂的场景中对运动目标实时的检测、识别以及跟踪，并获得目标的运动轨迹和姿态，从而进行进一步处理以及分析。本文对基于卷积神经网络的运动目标跟踪算法进行了研究与探讨，不仅具有重要的使用价值，同时在大数据时代，通过深度学习的计算机视觉方法越来越具有学术研究价值。

回顾运动目标跟踪算法发展历程，在深度学习逐步进入该领域之前，手工挑选特征来构建表观模型长期在该领域占领主导地位，其主要思路是设计对遮挡、形变、光照等不利因素具有不变性的特征，从而构建对目标自身变化或外界复杂变化具有鲁棒性的表观模型。

为了使构建的模型特征针对形变、遮挡、旋转都有一定抗性，研究者最早试图通过广泛抽样获得目标数据的统计特征，Papageoriou等^[1]人提出haar小波特征，在目标窗口穷举特征以拟合目标分布。区别于使用图像统计特性的haar特征，尺度不变特征sift^[2]由David Lowe在1999年提出，其思路为提取图中兴趣点有关尺度和方向的描述子后与对比图像进行匹配。针对sift特征提取过于复杂的问题，Herber等^[3]人将其优化改良为应用于积分图和hessian矩阵的surf特征，以优化特征计算过程速率。2005年，Dalal等^[4]人提出局部梯度方向直方图特征HoG，该特征对图像平移以及旋转等变化有较好的适应能力，在计算机视觉多领域取得了一定的成功。

基于深度学习的目标跟踪过程与传统目标跟踪中关注手工特征构建表观模型相反，其强调了对网络多样性特征的恰当使用。虽然深度学习在计算机视觉其他主流领域获得大幅进步，但由于任务差距较大以及没有相应的训练数据集，从深度学习角度出发的视频目标跟踪的研究仍十分有限。

最早于2010年，Fan Jialue等^[5]提出利用CNN学习相邻两帧图像剪空间和时间特征，进而预测目标位置。到了2013年，Naiyan Wang等^[6]利用深层自学习栈式自编码器SDAE线下学习一百万张通用自然小图片，将网络的编码部分通过目标微调之后用于提取下一帧的候选目标特征，以确定目标位置。Wang并在2015年在后续工作中进一步将自编码网络替换为针对目标跟踪问题设计的卷积神经网络^[7]，提升了算法整体性能。

2015年以来，深度学习在目标跟踪领域采取了新的思路。即直接使用ImageNet大规模分类数据库上训练出的CNN网络（如VGG-Net）获得目标的特征表示，再使用观测模型进行分类获得跟踪结果。这种做法既避开了跟踪时直接训练大规模卷积神经网络时样本不足的困境，也充分利用了深度特征强大的表征能力。FCNT对ImageNet上预训练得到的CNN特征在目标跟踪任务上的性能做了深入的分析,并根据分析结果设计了后续的网络结构^[8]。然而目标跟踪任务则仅关注同一个物体，重点区分该物体和背景信息，明显抑制背景中的同类物体，但是还需要对目标本身的变化保持良好的鲁棒性。分类任务以相似的一众物体为一类，跟踪任务以同一个物体的不同表观为一类，使得这两个任务存在很大差别，因此卷积神经网络在运动目标跟踪任务上仍需要进一步研究。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码