使用机器学习从AIS流数据中发现无监督海上航点外文翻译资料

2022-10-26 10:04:46

英语原文共 8 页，剩余内容已隐藏，支付完成后下载完整资料

使用机器学习从AIS流数据中发现无监督海上航点

摘要：提前24小时以上预测深海船只的位置对于荷兰服务提供商(LSPs)是一个重大挑战。在整个供应链网络中船舶不按计划的到来直接影响到行程和停船的等待时间。为了帮助LSPs的规划人员改进计划，我们打算用一种能够被用来预测每个船目的地和到达时间的有向图的形式捕捉特定区域（北海连接荷兰和英国的区域）的海上路径的特征。创建这种图我们需要一条有效的路径来提取出交通信息的路径点并且这个我们会在论文中提出这个问题。

随着LSPs只能使用公开可使用数据来进行估计，我们的解决方案全部基于AIS数据。从AIS数据中提取位置信息，我们探索了很多定义集群的机器学习方法。提出了DBSCAN算法并且展示了它用于AIS数据上的优点和缺点。使用共通启发式算法重复相同的过程，比较遗传算法生成的和用DBSCAN生成的修改蚁群优化生成的集群结果。最后，提出一种混合方法和发现路径点、突出已经实现的改进的功能。

为展开问题，增加两个限制。第一个是处理大量的流媒体标准的基于PC的硬件AIS数据的要求。第二个是由于接收和发送AIS数据的问题引入了地图中的“暗区”常见的情况。本算法是在这些限制条件下有效且高效地探究路径点。

CCS概念

信息系统-gt;数据分析

信息系统-gt;集群

信息系统-gt;数据流挖掘

关键字

自动识别系统，无监督机器学习，共通启发式演算法，轨迹分析

引言

为了使荷兰的物流服务提供商（LSP）提高效率，给客户服务提供一个能够支持决策过程平台而开展了SynchromodalIT工程。预测系统的未来状态提供有利建议的功能是这个平台的基本自称部分[1]。关于深海船只到达时间的不确定性被LSPs定义为主要挑战。为了在过程中将值加入到结论中，SynchromodalIT平台必须提供估计这些值的方法。

深海船舶在港口码头的驳船中有优先权。任何计划外的到达都要在整个供应链中传播。因此，驳船和卡车被推迟，并且在仓库中一个额外的会增加的LSP的运营成本的安全库存是必需的。这些延迟到达的船舶会被各种外部因素所影响，尤其是最常见的天气影响。根据Vernimmen et al. [2]由于内部和外部因素只有52%的船只能按时到达。

在本文中，我们解决“长期预测”的问题——至少提前24小时估计一个船只的将来位置。该预测必须使用可用的LSPs唯一的限制为公开的源数据来实现。自动识别系统（AIS）数据属于其中。随着LSP主要使用AIS数据作为信息源，因为他们没有自己的船，这项研究也将基于同样的输入类型长期预测。

AIS包含静态信息如船名及其唯一编号，动态数据如位置、速度和方向，还有与目的地和到达时间相关的具体航程信息。静态和动态信息是可靠的，但是具体航程部分往往是要么不使用，或包含不正确的信息[3]，导致其不适用于估计到达的时间。随着位置数据作为唯一可靠的信息来源，任何目的地和到达时间的预测必须以航道的发现开始。这些线将形成一个包含所有路由的有向图的边在内的特定区域，包括使用帆船每个边缘从一个节点一点到另一点的概率。通过在图中分配分配船只的位置，我们可以估算将在特定点到达的可能性。

创建此图的过程依赖于所谓航点的合适的隔离，即在地图上连接特定位置成航线。我们在本文的研究目的是要找到一个有效的算法，识别从大量AIS流数据的航点。由于它在现实的商业案例应用通常有未完全由AIS接收器覆盖的地区，或者接收数据不一致，我们的目的是设计一个能够容纳和处理这些矛盾的算法。通过拉梅等人完成的研究[4]表明，船只的航线受天气影响。当天气情况恶化，船舶显示选择路线的倾向于靠近海岸。所以，这意味着路径点是不固定的坐标，会因为外部因素移动。只是用AIS数据，我们并不能预测这些因素，但我们可以在行为中识别出变化。所以，我们需要可以提取实时航点的解决方案。

本文的贡献是在于处理大量的AIS数据流的新方法，实时或者接近于实时地处理数据以及提取定义路线和海上航线航点。虽然我们限制实验的AIS数据和水道，但没有应用此概念的其他交通方式的限制。

该方法遵循的一文件是Peffers设计的研究信息系统的科学研究方法[5]。

在本文的其余部分安排如下，在第二部分我们提出解决方案。以问题空间开始，我们将继续与算法航点提取，然后提出了一种混合的方法。第三部分用来评估算法，并解释优点和缺点。在第四部分，我们提出关于这一主题的相关研究。第五部分是用来总结所做的工作，并讨论未来的工作和影响。

方案设计
1. 问题空间

容器的信息，其唯一的标识符，位置，速度和航向是基于从AIS数据接收的信息。为了使模拟的环境尽可能类似于提供给LSPs的场景，我们限制在开放的可获取的AIS数据源下。在这个实验中使用的数据是从空气集线器获得，也是SynchromodalITY项目的合作伙伴之一。对LSP的最重要的区域包括主要港口荷兰附近水道。因此，我们将路径识别限制为北海的区域，包含荷兰和英国之间的主要的海运通道。

为了分析不同的算法，我们存储从26-11-201413时05分38秒收到的2014年2月12日五时25分56秒的所有AIS消息。在此期间，我们收到了大约每秒693条AIS信息。这些消息来源于连接到集线器AIS世界各地的所有接收机。在仿真过程中，我们从我们的数据库加载原始AIS信息，限制设置为每秒相同的数目的消息。一旦加载完成，我们根据消息类型进行解码和过滤。只有类型1,2和3的消息被处理了，因为只有这些类型的AIS报文包含船舶位置信息。以下是其他需要携带经度和纬度的隔离的属于指定问题空间的AIS数据。

我们希望分析出AIS数据能够从布满在线AIS接收站的地区采集。我们的问题地区全面覆盖了沿海和内陆地区，但也有时在公海区可能是不可见的。这是由于天气条件限制了可以接收到AIS消息的距离，以及一个离线的AIS基站（见图1）。所以，该地区全面覆盖的AIS有一定的时间间隔，并且时间间隔也包含了没有数据接收到的区域。图2描述了限制和全覆盖接收的数据的差异。上面的图片包含了没有信息在内的船只空白区域，而下面的则显示了带有完整信息的同样的区域。由于这是典型的LSPs场景，我们选择这种不使用任何额外调整的表示覆盖等级的算法来处理数据。

AIS是一个具有自我汇报功能的系统，意味着信息的可信度取决于船舶报告的数据，并且因此，很容易出现欺骗或者有意的非正确信息报告[6]。对于这个问题正在研究中，我们不对接收到的AIS信息进行任何分析，假设错误消息的频率低于任何可能影响我们算法的阈值。

我们的算法是在标准的PC硬件下完成的，使用Python3和NumPy，SciKit学习和Matplotlib库。典型的处理使用查询检索信息5 - 6分钟间歇，将它们存储在本地存储器缓冲区和使用它们作为开发的输入为算法。

1. 路径点提取方法

从AIS数据发现航点的过程，我们正在研究可以进行聚类的算法，容纳噪声并且能够快速处理大量数据流。

- 1. DBSCAN

DBSCAN 是一种从高密度去一中生成簇的机器学习算法[7]。Pallotta[8]在海上假定的通航密度高的区域航点进行无监督学习，而低密度区是被视为噪声。他们使用增量DBSCAN识别航点，并利用它们来绘制车道和路线。DBSCAN不像其他聚类算法，不需要提前给定簇的数目。它可以处理的噪声，并且能够产生任意形状的簇。所有这些特性使其能够很好的解决这类问题

通过scikit学习包，我们对位置数据使用DBSCAN。由DBSCAN产生的簇的数目和形状取决于由用户指定的两个变量：ε和中心点。为了确定这些参数最合适的值，我们使用不同大小的数据集用不同的ε参数进行多次测试（参见图三）。通过DBSCAN用不同的颜色标记每个集群，其中属于同一个集群的点具有相同的颜色。噪声点是黑色而且绘制成比聚点半径小的圆圈。

实验表明实验结果受海上交通的密度影响。在左上角的图片中我们观察到，使用较高的ε值和更大的数据集我们能够得到英国沿海地区的合适的簇。然而，由于更高的交通密度，尤其是在荷兰的内陆地区，DBSCAN检测出一个包含大部分路径的庞大集群。右上方的图片显示用一个较低的ε值运行相同算法具有相同数据集的结果。这导致在荷兰带标记的大多数点的缺点除去英国唯一的噪声。再回到以前的ε值，降低数据集的同时（左上方图片），我们在荷兰得到一个合适数目的集群。减少的数据集和ε（如在右下方图），结果是把大部分交通标记为噪声。

因此，我们的结论是DBSCAN算法可以识别海上航点，但仅限于在交通密度差别不大的区域。在北海观测的，相对于在英国，在荷兰附近检测到船只数目很高的地区，DBSCAN不能得到满意的结果。可能的改进方案就是详细地划分区域，并且对交通密度不同的区域调整DBSCAN的参数。

- 1. 遗传算法

遗传算法（GA）是使用选择和重组算子以在一个搜索空间中产生新的采样点的基于人口的模型[9]。发现航点的问题可归结为优化问题。如果我们假定一个航点是具有给定半径的圆，我们可以制定出能够找到数量的圆的集合位置的最大标准，使得它们包含来自数据集最大数量的点。

我们通过从数据库加载AIS消息运行实验，解码并过滤那些包含位置数据的地区。这些位置被存储在含有约为7分钟船舶存储缓冲器。在下面的论文中，我们将参考这个位置设置为帧。对于每一帧，执行的一个更新合适分数的时期，并采取最合适的染色体。实验的结果显示在图4中。船只的位置绘制成黑点，而航点是蓝色的圆圈。

左图顶部显示第一次调用函数时代后的结果。我们可以看到，大部分航点是位于高流量的领域，如鹿特丹和安特卫普。这是正常现象，因为它是一个GA的共同特点，迅速向最优解的区域收敛。运行算法70多个帧之后，我们可以看到航点移动位置。并且合适的分数有从36%到40.9的增加，GA在134帧之后达到了62.9%的最佳效果。取决于船只位置的变化频率，合适度是可以波动的，但是它持续高于53.2%（如右下图）。

1. 混合方法

第2.2每个算法都一定程度上有助于发现航点，但每一个都有缺点，这妨碍了这些算法得到满意的结果。为了克服这个问题，我们提出了一种混合的方法，结合这几种算法的优点。

GA已经显示出快速发现航点的能力，并给予更多的时间和处理能力，它可以产生很好的探测结果。我们保持对快速解决方案的能力，但由一个基本的四叉树（QT）结构我们保持能力置换GA删除随机性迅速靠拢解决方案。QT能够分解空间成可编辑的小区域，每个小区域含有最大容量[11]。使用这个功能，我们可以立即将区域划分为小区域，用GA的处理速度来处理。这也解决了DBSCAN的不同交通密度的问题，每个小区都保证有若干点低于给定的阈。对于每一个小区域，我们单独运行DBSCAN并保存发现集群。

评估

每个前一节中介绍的算法有不同的长处和短处。为了评估如何充分每个航点的提取，我们制定了以下标准：

提取品质
算法的效率
交通密度处理
噪声容限
空白区域的容差

第一个条件涉及的算法，以产生这样的导航点的能力，即它们可以被用来重建该区域的海上路由。为了评估我们创建具有明显航线（矩形的边缘）的模拟提取的质量，和比较我们可以从已发现的航点恢复矩形的百分比。算法的效率大约是速度和内存需求。良好的性能，需要该算法以相同的速度或比与该AIS数据流已被接收到的速度更快，以处理所有的输入数据。第三个标准是评价其成功提取地区导航点与不同交通密度能力的算法。噪声容限是用来表明，该算法是如何容错与路线偏差的。最后，当空白领域正在发生问题的时候，我们希望看到一个算法有多好。

为了测试这些算法我们模拟容器数据，使得我们有四个交点（见图9）四个不同车道。海上航线被表示用字母：“a”，“b”，“c”和“d”。巷道“b”中包含的流量密度大于巷“a”的五倍。航道“c”是相对的，并只包含相比“a”只有三分之一的密度。而当航行速度被设定在比较所有其他车道要快两倍的时候，

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[153999]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码