深度学习在视频多目标跟踪中的应用外文翻译资料

2023-04-03 17:14:03

英语原文共 10 页，剩余内容已隐藏，支付完成后下载完整资料

摘要

多目标跟踪（MOT）的问题在于跟踪序列中不同目标的轨迹，通常是一个视频。近年来，随着深度学习的兴起，为这个问题提供解决方案的算法已经受益于深度模型的表征能力。本文对使用深度学习模型解决单摄像头视频上的MOT任务的工作进行了全面调查。确定了MOT算法中的四个主要步骤，并深入回顾了如何在每个阶段中使用深度学习。还提供了在三个MOTChallenge数据集上对所呈现作品的完整实验比较，确定了表现最佳的方法之间的许多相似之处，并提出了一些可能的未来研究方向。

简介

多目标跟踪(MOT)，也称为多目标跟踪(MTT)，是一项计算机视觉任务，旨在分析视频以识别和跟踪属于一个或多个类别的对象，例如行人、汽车、动物和无生命的物体，对目标的外观和数量没有任何先验知识。与目标检测算法的输出是由坐标、高度和宽度标识的矩形边界框的集合不同，MOT算法还将目标ID与每个框相关联，以区分类内对象。MOT算法的输出示例如图所示。MOT任务在计算机视觉中发挥着重要作用：从视频监控到自动驾驶汽车，从动作识别到人群行为分析，其中许多问题都将受益于高质量的跟踪算法。

最近，越来越多的此类算法开始利用深度学习(DL)的表征能力。深度神经网络(DNN)的优势在于它们能够学习丰富的表示并从输入中提取复杂和抽象的特征。卷积神经网络(CNN)目前构成了空间模式提取的最新技术，并被用于图像分类或对象检测等任务，而循环神经网络(RNN)如长短期记忆(LSTM))用于处理顺序数据，如音频信号、时间序列和文本。由于DL方法已经能够在其中许多任务中达到最佳性能，我们现在逐渐看到它们在大多数性能最佳的MOT算法中得到使用，从而帮助解决问题所在的一些子任务。

这项工作对利用深度学习模型的能力执行多目标跟踪的算法进行了调查，重点关注用于MOT算法的各个组件的不同方法，并将它们置于每种建议方法的上下文中。虽然MOT任务可以应用于2D和3D数据，也可以应用于单摄像头和多摄像头场景，但在本次调查中，我们专注于从单个摄像头录制的视频中提取的2D数据。

已经发表了一些关于MOT主题的评论和调查。它们的主要贡献和局限性如下：

罗提出了第一个专门针对MOT的全面审查，特别是行人跟踪。他们提供了MOT问题的统一表述，并描述了MOT系统关键步骤中使用的主要技术。他们将深度学习作为未来的研究方向之一，因为当时它只被极少数算法采用。

Camplani提出了一项关于多行人跟踪的调查，但他们专注于RGB-D数据，而我们的重点是2DRGB图像，没有额外的输入。此外，他们的评论不包括基于深度学习的算法。

Emami提出了将单传感器和多传感器跟踪任务的公式化为多维分配问题(MDAP)。他们还提出了一些利用深度学习来跟踪问题的方法，但这不是他们论文的重点，也没有提供这些方法之间的任何实验比较。

Leal-Taixeacute;对MOT15和MOT16数据集上的算法获得的结果进行了分析，总结了研究趋势和结果统计数据。他们发现，在2015年之后，方法已经从试图为关联问题寻找更好的优化算法转向专注于改进亲和模型，他们预测更多的方法将通过使用深度学习来解决这个问题。然而，这项工作也没有关注深度学习，也没有涵盖最近几年发布的最新MOT算法。

在本文中，基于所讨论的局限性，我们的目标是提供一项具有以下主要贡献的调查我们提供了第一个关于在多目标跟踪中使用深度学习的综合调查，重点关注从单摄像头视频中提取的二维数据，包括过去的调查和评论未涵盖的近期作品。实际上，在MOT中使用DL是最近才出现的，并且在过去三年中已经发布了许多方法。

我们确定了MOT算法中的四个常见步骤，并描述了每个步骤中采用的不同DL模型和方法，包括使用它们的算法上下文。每项分析工作所使用的技术也汇总在一个表格中，以及指向可用源代码的链接，以作为未来研究的快速参考。

我们收集最常用的MOT数据集的实验结果，以在它们之间进行数值比较，同时确定性能最佳算法的主要趋势。

作为最后一点，我们讨论了未来可能的研究方向。

调查以这种方式进一步组织。我们首先在部分描述MOT算法的一般结构以及最常用的指标和数据集。本节探讨了MOT算法的四个已识别步骤中的每一个中的各种基于DL的模型和算法。部分介绍了所提出算法之间的数值比较，并确定了当前方法中的共同趋势和模式，以及一些局限性和可能的未来研究方向。最后，部分总结了前几节的发现并提出了一些最后的评论。

MOT：算法、指标和数据集

在本节中，提供了关于MOT问题的一般描述。MOT算法的主要特征和常用步骤在章节中进行了识别和描述。通常用于评估模型性能的指标将在部分讨论，而最重要的基准数据集将在部分中介绍。

MOT算法简介

MOT算法采用的标准方法是通过检测进行跟踪：从视频帧中提取一组检测（即识别图像中目标的边界框）并用于指导跟踪过程，通常通过将它们关联在一起，以便为包含相同目标的边界框分配相同的ID。出于这个原因，许多MOT算法将任务表述为分配问题。现代检测框架确保了良好的检测质量，并且大多数MOT方法（如我们将看到的有一些例外）一直专注于改善关联；实际上，许多MOT数据集提供了一组标准检测，算法可以使用这些检测（因此可以跳过检测阶段），以便专门比较它们在关联算法质量上的表现，因为检测器的性能会严重影响跟踪结果。

MOT算法也可以分为批处理和在线方法。当试图确定某个帧中的对象身份时，允许批量跟踪算法使用未来信息（即来自未来帧）。他们经常利用全球信息，从而提高跟踪质量。相反，在线跟踪算法只能使用现在和过去的信息来预测当前帧。这是某些场景中的要求，例如自动驾驶和机器人导航。与批处理方法相比，在线方法的性能往往更差，因为它们无法使用未来的信息来修复过去的错误。需要注意的是，虽然实时算法需要以在线方式运行，但并非每种在线方法都必须实时运行。事实上，通常情况下，除了极少数例外，在线算法仍然太慢而无法在实时环境中使用，尤其是在利用深度学习算法时，这些算法通常是计算密集型的。

尽管文献中提出了各种各样的方法，但绝大多数MOT算法共享以下部分或全部步骤检测阶段：对象检测算法分析每个输入帧以使用边界框识别属于目标类的对象，在MOT的上下文中也称为“检测”；特征提取/运动预测阶段：一种或多种特征提取算法分析检测和/或轨迹以提取外观、运动和/或交互特征。可选地，运动预测器预测每个跟踪目标的下一个位置；亲和阶段：特征和运动预测用于计算检测和/或轨迹对之间的相似性/距离分数；关联阶段：相似度/距离度量用于通过为识别相同目标的检测分配相同的ID来关联属于同一目标的检测和轨迹。

虽然这些阶段可以按此处介绍的顺序依次执行（对于在线方法，通常每帧一次，对于批处理方法，对于整个视频一次），有许多算法将其中一些步骤合并在一起，或者将它们交织在一起，甚至执行他们多次使用不同的技术（例如，在分两个阶段工作的算法中）。此外，一些方法并不直接将检测关联在一起，而是使用它们来细化轨迹预测并管理新轨迹的初始化和终止；尽管如此，正如我们将看到的那样，即使在这种情况下，通常仍然可以确定许多提出的步骤。

指标

为了提供一个通用的实验设置，可以公平地测试和比较算法，一组指标实际上已被建立为标准，并且它们几乎用于每项工作。最相关的是由Wu和Nevatia定义的指标，即所谓的CLEARMOT指标，以及最近的ID指标。这些指标集旨在反映测试模型的整体性能，并指出每个模型可能存在的缺点。因此，这些指标定义如下：

经典指标

这些指标由Wu和Nevatia定义，突出了MOT算法可能产生的不同类型的错误。为了显示这些问题，计算了以下值：大多数跟踪(MT)轨迹：在至少80%的帧中正确跟踪的真实轨迹的数量。

片段：轨迹假设，最多覆盖地面真实轨迹的80%。观察一条真实的轨迹可以被多个片段覆盖。

MostlyLost(ML)轨迹：在不到20%的帧中正确跟踪的真实轨迹的数量。

假轨迹：预测轨迹与真实物体不对应（即与地面真实轨迹）。

ID切换：对象被正确跟踪，但对象的关联ID被错误更改的次数。

CLEARMOT指标

CLEARMOT指标是为2006年和2007年举办的事件、活动和关系分类(CLEAR)研讨会开发的。研讨会由欧洲CHIL项目、美国VACE项目和美国国立卫生研究院联合组织。标准和技术(NIST)。这些指标是MOTA（多目标跟踪精度）和MOTP（多目标跟踪精度）。它们作为构成它们的其他更简单指标的摘要。我们将首先解释更简单的指标，然后在它们之上构建复杂的指标。关于如何将真实对象（groundtruth）与跟踪器假设匹配的详细描述可以在中找到，因为当假设与对象相关时如何考虑并非易事，它取决于要执行的精确跟踪任务评估。在我们的案例中，由于我们专注于使用单摄像头进行2D跟踪，因此确定对象和预测是否相关的最常用指标是边界框的交并比(IoU)，因为它是在MOT15数据集的演示文稿。在执行了之前帧的匹配之后，剩余的对象会尝试与剩余的假设进行匹配，仍然使用0.5IoU阈值。不能与假设相关联的groundtruth边界框被计为假阴性（FN），不能与真实边界框相关联的假设被标记为假阳性（FP）。此外，每次地面实况对象跟踪被中断并随后恢复被计为碎片，而在跟踪期间每次被跟踪的地面实况对象ID被错误地更改被计为ID切换。然后，计算的简单指标如下：FP：整个视频中的误报数；FN：整个视频的漏报数；Fragm：分片总数；IDSW：ID开关的总数。

其中GT是地面实况框的数量。重要的是要注意分数可以是负数，因为该算法可能会犯比地面实况框数量更多的错误。通常，报告MOTA百分比而不是报告MOTA是很常见的，这只是之前以百分比表示的表达式。另一方面，MOTP计算为：

MOTA评分的主要问题是它考虑了跟踪器做出错误决定的次数，例如ID切换，但在某些情况下（例如机场安检），人们可能对奖励可以跟随的跟踪器更感兴趣一个物体尽可能长的时间，以免失去它的位置。因此，定义了几个替代的新指标，它们应该补充CLEARMOT指标给出的信息。映射不是逐帧匹配地面实况和检测，而是全局执行，分配给给定地面实况轨迹的轨迹假设是最大化正确分类为地面实况的帧数的假设。为了解决该问题，构造了一个二分图，并以该问题的最小成本解决方案作为问题解决方案。对于二分图，顶点集定义如下：第一组顶点VT对于每个真实轨迹都有一个所谓的常规节点，对于每个计算轨迹都有一个假阳性节点。第二组，VC，每个计算的轨迹都有一个常规节点，每个真实的轨迹都有一个假阴性。设置边缘的成本是为了在选择边缘的情况下计算假阴性和假阳性帧的数量（更多信息可以在中找到。执行关联后，有四个不同的可能对，关注所涉及节点的性质。如果来自VT的常规节点与VC的常规节点匹配（即真实轨迹与计算轨迹匹配），则计算一个真阳性ID。每个来自VT的假阳性都与一个常规节点匹配fromVC算作假正例ID，每个来自VT的常规节点匹配到来自VC的假负例算作假负例ID，最后，每一个假正例匹配到假负例算作真负例ID。之后，三个分数计算。IDTP是被选为真正ID匹配的边缘的权重之和（可以看作是在整个视频中正确分配的检测百分比）。IDFN是来自所选假ne的权重之和给定ID边，IDFP是所选假阳性ID边的权重之和。使用这三个基本度量，计算另外三个度量：

通常，几乎每一项工作中报告的指标都是CLEARMOT指标，主要是跟踪轨迹(MT)，主要是丢失轨迹(ML)和IDF1，因为这些指标是MOTChallenge排行榜中显示的指标（详见章节）。此外，跟踪器可以处理的每秒帧数(FPS)经常被报告，并且也包含在排行榜中。然而，我们发现这个指标很难在不同算法之间进行比较，因为一些方法包括检测阶段，而另一些则跳过该计算。此外，对所用硬件的依赖与速度有关。

基准数据集

过去的几年中，已经发布了许多用于MOT的数据集。在本节中，我们将描述最重要的部分，从对MOTChallenge基准的一般描述开始，然后关注其数据集，最后描述KITTI和其他不太常用的MOT数据集。

MOTChallenge：MOTChallenge是多目标跟踪最常用的基准。除其他外，它提供了一些目前公开可用的最大行人跟踪数据集。对于每个数据集，都提供了训练拆分的基本事实，以及训练和测试拆分的检测。MOTChallenge数据集之所以频繁提供检测（通常称为公共检测，而不是私有检测，由算法作者使用自己的检测器获得）是因为检测质量对最终的结果影响很大。跟踪器的性能，但算法的检测部分通常独立于跟踪部分，并且通常使用已经存在的模型；提供每个模型都可以使用的公共检测使得跟踪算法的比较更容易，因为检测质量是从性能计算中考虑的，并且跟踪器从一个共同点开始。通过将结果提交给测试服务器来完成对测试数据集的算法评估。MOTChallenge网站包含每个数据集的排行榜，在单独的页面模型中显示使用公开提供的检测和使用私人检测的模型。在线方法也被标记为如此。MOTA是MOTChallenge的主要评估分数，但还显示了许多其他指标，包括第1节中介绍的所有指标。正如我们将看到的，由于绝大多数使用深度学习的MOT算法都专注于行人，因此MOTChallenge数据集是使用最广泛的数据集，因为它们是目前可用的最全面的数据集，为训练深度模型提供了更多数据。

MOT15：第一个MOTChallenge数据集是2DMOT2015（通常简称为MOT15）。它包含一系列22个视频（11个用于训练，11个用于测试），从较旧的数据集中收集，具有各种特征（固定和移动相机、不同的环境和照明条件等），因此模型需要更好地泛化，以便

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[590936]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码