综述和大数据视角：针对具有异常值和缺失数据的工业过程建模的稳健数据挖掘方法外文翻译资料

2023-07-12 10:31:34

英语原文共 27 页，剩余内容已隐藏，支付完成后下载完整资料

附录A 译文

综述和大数据视角：针对具有异常值和缺失数据的工业过程建模的稳健数据挖掘方法

摘要

工业过程数据通常与缺失数据和异常值混合在一起，这会极大地影响传统数据驱动建模方法的统计解释能力。从这个意义上说，应该更多地关注稳健的数据挖掘方法，以便为决策研究那些稳定可靠的建模原型。本文系统地回顾了各种最先进的数据预处理技巧以及用于过程理解和监控应用的稳健主成分分析方法。之后，讨论了针对不同工艺特点的各种情况的综合稳健技术。最后，针对社区未来探索的潜在挑战和机遇，强调了大数据的观点。

关键词数据挖掘;稳健性;过程建模;统计过程监控;大数据分析;

引言

工业过程通常配备多个连接的操作流程单元和分布式计算机控制系统，以连续的化学、物理、电气或机械步骤进行操作，从而进行面向市场的产品制造。因此，为了确保有序运行并维持系统性能，数据建模和监控作为高级智能决策支持模块是必不可少的。为了体现流程运行状态，必须构建分析模型，以便对对象有全面的了解。然而，由于高度复杂，传统的基于第一原理的方法不再适用，尤其是对于那些大规模的过程。另一种选择是，社区转而更加关注统计数据驱动的方法。这是因为现在的行业正在步入物联网时代，在过去几十年中，从那些设备广泛的分布式控制系统中收集了大量数据，这使得智能数据挖掘和自动决策变得可行。本质上，基于多元统计建模和推理理论的数据挖掘方法是理解和监控各种复杂工业过程和系统的枢纽，例如化工厂、半导体制造业，机械系统、食品生产和制药工艺。

一般来说，数据挖掘方法的本质是从数据中提取有用信息用于分析。然而，数据挖掘方法的成功实施应在很大程度上依赖于底层过程数据的先决条件，如数据准确性和数据完整性。然而，在实践中，在存在缺失数据和异常值的情况下，这些假设很容易被分离。缺少或不存在条目的过程数据通常被称为坏数据或污染数据。由于测量设备、数据传输和数据管理中的数据收集错误，各种工业过程中经常发生数据污染，因此对有效的数据挖掘和统计过程监控构成了巨大挑战。例如，在化学过程中，传感器故障或传输中断可能会收集到不良数据；在制药过程中，数据污染的原因可能是信息收集的准确性和完整性难以保证。换句话说，受污染的数据违反了关于数据准确性和数据完整性的常见统计假设。因此，不准确和不完整的信息使得经典的数据挖掘方法很麻烦。在这些情况下，分析人员很难对过程数据的合理假设进行假设和深入研究，尤其是对高维和各种过程特征的过程数据。为了进行合理的分析，我们必须考虑如何提高统计数据挖掘方法的稳健性，以应对具有这些无用数据和缺乏的采样信息的低质量过程数据。

从技术上讲，稳健的数据挖掘方法考虑使用稳健的数据预处理和或直接稳健的数据模型进行分析。稳健的数据预处理流程图包括去除异常值和/或插补缺失条目，而有效的数据建模方法在处理受污染的过程数据时有意提高某些方法的稳健度。值得一提的是，这两个程序都侧重于提供用于描述工业过程的稳健统计数据和参数。例如，数据预处理方法重新移动误导性数据点，使经典数据挖掘模型产生的统计数据能够以正确的方式描述干净的多数，而稳健建模过程可以通过适当的内在稳健策略缓解负面影响，从而获得更好的实证解释。我们发现了之前的几部相关的重述作品。对化学计量学的稳健统计进行了综述，主要集中于处理异常值。Filzmoser和Todorov讨论了高维数据块中有效的校准和降维的一般思路。Khatibisepehr、Huang和Khare的工作对推理传感器的稳健设计进行了一些讨论，Xu等人在数据清理方面引入了密集的稳健技术。最近，Kodamana等人的工作展示了概率框架下鲁棒模型识别的观点。请注意，这些工作要么提供关于特定问题的见解，要么提供针对特定工业应用的特定解决方案。对于最先进的健壮数据挖掘技术，以及它们在不同工业背景下的应用条件，仍然缺乏系统的分类。在文献中，关于稳健的统计数据挖掘方法有大量的工作，大部分是在过去的二三十年中发展起来的。在此期间，统计分析的稳健增强在异常值检测、缺失数据处理和稳健统计建模方面取得了巨大发展。其中一些方法已成功应用于各种工业过程场景。因此，本次调查的目的是为了解具有异常值和缺失值的复杂工业过程的最先进的稳健统计数据挖掘方法提供全面概述。这项工作的其余部分组织如下。在第2节中，以标准形式介绍并讨论了有关缺失数据和异常值的数据挖掘和分析的一些基础知识。在第3节中，介绍了处理具有缺失数据和异常值的稳健数据预处理问题的经典技术。之后，第4节详细回顾了稳健的统计数据挖掘方法。在第5节中，从大数据的角度提出了一些观点和未来具有挑战性的研究课题。最后得出结论。

2.概念和概述

2.1.异常值和缺失数据

离群值通常指的是那些远离主要数据量的采样点，从统计角度来看，它们通常不显示与其他采样点一致的行为。根据原因，异常值出现在两个主要的实际方面。一方面，测量/记录误差偶尔会导致异常值；另一方面，由于大的过程噪声，一些过程会产生重尾数据点。应该提到的是，对于异常值没有严格的定义。为了区分异常值和正常数据，有关稳健子空间恢复的文献将数据划分为被称为内点和异常值的成分.特别是，内联线指的是位于或接近低维空间的数据指数，离群值以环境方式分散。根据位置，还存在行或列异常值和元素异常值（婆罗门、舍、李、李和吴，2018）。尽管有各种分类，但对一个或多个数据样本是否应被视为异常值进行经验判断，在很大程度上应该是主观的。事实上，异常值是数据分析过程中经常遇到的一部分，在各种实际采样场景中几乎无法避免。在许多工业过程中，异常值是臭名昭著的。然而，由于“一个人的噪音可能是另一个人的信号”，异常值并不总是被丢弃的。在交通流、信用卡欺诈、网络入侵检测、医学分析和视频监控等监控场合，异常值实际上是需要检测和提取以进行进一步统计分析的主要问题。缺失数据是指数据库中观察到的变量有一个或多个不完整的数据项的情况。在某些特殊情况下，质量变量的多速率采样和通过检测删除的外围条目也可能导致条目丢失。事实上，处理缺失数据实际上可以被视为相当常规的做法，而不是化工等行业的例外。用于过程建模和监控的传统统计推断研究假设没有缺失数据。因此，缺失数据问题降低了数据样本的代表性，并可能导致不舒服的统计推断。

2.2. 数据挖掘的稳健统计方法

尽管过程数据收集不准确且不完整，但数据科学家仍应找到一些可靠的方法，用统计数据或模型最好地表示过程信息。换句话说，这种稳健的统计数据和稳健的统计模型在大多数情况下不应受到不可预测的缺失数据和异常值的过度影响。然而，包括均值和方差在内的经典统计数据对异常值很敏感，而用于多元统计过程建模（MSPM）方法的经典数据挖掘模型，如主成分分析（PCA）和因子分析（FA），实际上将采用清洁过程数据的基本假设。因此，对于质量较差的过程数据，这些方法通常性能较差。一般来说，稳健的统计数据挖掘模型应该能够抵抗假设错误，并提供无害的估计和预测。以离群值为例，离群值对多变量统计分析有副作用，可能导致模型误判。不用说，那些错误指定的模型可能不适合进一步的工业过程监控应用。作为替代方案，对异常值不敏感的统计数据（如中值）将继续很好地描述主要人群。同样，这些具有自包含方案的抗离群值方法将过滤或降低过程离群值的权重，以便为过程分析做出稳定可靠的估计或预测。缺失数据的情况与异常情况类似，只是其目的是通过删除、插补或推断来处理这些缺失元素。因此，如果统计数据挖掘方法能够在存在异常值/缺失数据时提供合理的统计推断，我们将其称为稳健的。

2.2.这项工作的概述

根据以上分析，稳健数据挖掘的主要方法可分为两个独立的部分：用于数据预处理的稳健挖掘（稳健预处理）和用于统计建模的稳健挖掘（稳健数据挖掘）。前一种方法非常关注通过清理作为预处理来显式处理异常值和遗漏数据。通过这种方式，可以使用一些传统的数据挖掘技术进行建模（Ge等人，2013年）。在本分支中，这些最先进的数据预处理方法将在整体分类中重点介绍和概述，包括异常值检测和数据正常化。特别地，还将从稳健建模的角度考虑数据规范化问题。之后，人们将专注于稳健的数据挖掘，它将使用统计技术直接理解那些不完美的数据。对于这个子领域，我们将在PCA的框架中开始稳健挖掘问题，并将讨论许多稳健的解决方案。其中，PCA的最新稳健发展将在非概率和概率框架中进行阐述和讨论。这两个健壮原型的差异和关系都将显示出来。除了对稳健主成分分析进行深入系统的综述外，还将根据不同的过程特征，对其他广泛应用的稳健数据挖掘方法进行综述。图1为本文的系统概述。

图1这篇调查文章的概述。每个盒子底部有2-3个典型的解决方案。

3.1 数据整理

此背景下，将重点关注单变量/多变量异常值检测、遗漏数据处理技术，以便检测或纠正那些不准确/不完整的记录。

离群值检测统计方法的离群值检测（或离群值挖掘）通常假设离群值属于低相似度/密度区域，因此可以从正常数据聚类中识别离群值。换句话说，离群点检测任务可以看作是对具有高度相似性或密度的正常数据轮廓的搜索和描述。如上所述，异常值的定义在很大程度上属于主观问题，在实践中应取决于工业数据集。在文学上，虽然有广泛的外部检测方法，但应该提到的是，没有普遍适用的方法。从这个意义上讲，选择合适的异常值检测方法也取决于特定的数据集和应用。在不丧失通用性的情况下，我们将关注那些流行的单变量和多变量异常值检测方法。

单变量异常值检测方法。从技术上讲，单变量异常值检测方法通常依赖于统计判断，而统计判断是基于对异常数据分布的特定假设的违反。根据定义的密度函数，正常数据预计位于密度较高的区域。最常用的方法应该是三西格玛规则和箱线图。三西格玛规则：三西格玛规则可能是数据分析中最著名的异常值检测规则。该规则也称为68–95–99.7规则，用于记住位于平均值1、2和3标准偏差（SIGMA）范围内的数据百分比。例如，如果我们使用三西格玛范围，数据x_n从正态分布n（mu;，sigma;2）中采样，那么x_n可以被识别为异常值，如果| x_nminus; mu;| gt; 3 sigma; . 三西格玛规则最吸引人的优点是简单且易于实施。然而，这种规则不能很好地适用于多变量异常值，因为这些异常值可能无法在三西格玛区域中很好地分配。在本例中，由于所有异常值都在正常范围内，因此三西格玛规则无法从任一坐标中检测到任何异常值（表示为圆）。

箱线图：箱线图是一种基于图形的方法，用于通过上四分位数/下四分位数和延伸触须进行数据可视化。这些潜在的异常值用单独的点来描述。，框的上侧是上四分位q3（或第三个四分位）从其余数据中分离出最高25%的数据，而框的下侧是下四分位q1（或第一个四分位）从最低25%的数据中分离出来。Q 2=Q 1 Q 3 2（或第二个四分位数）是方框内的红线，四分位数范围随后计算为IQR=Q 3minus; 问题1。对于正态分布等对称分布，两侧的晶须将扩展到1.5 IQR的覆盖范围。异常值是指位于胡须范围之外的点，即[Q 1]minus; 1.5 IQR，Q 3 1。5 IQR]。可以推测，箱线图对于数据可视化和异常检测都很方便。然而，就像三西格玛规则一样，对于多元异常值，箱线图可能表现不好。除了三西格玛规则和箱线图外，还可以找到单变量异常值检测的其他测试或标准，如格鲁布斯测试、乔维内标准和皮尔斯标准，可以参考相关研究进行详细分析（Ross，2003）。

3.1.1.2. 多元异常检测方法

由于本质上的高度复杂性，工业过程数据通常具有高维性，而单变量方法将变得缓慢，因为多元条件下的异常值可能在整个空间中不典型地分散，而同时，它们在每个单坐标中显示出不正常的行为（例如，见图4a）。因此，将考虑多变量异常值检测方法。这些广泛使用的方法包括基于距离的方法、基于密度的方法和基于接近度的方法（Han、Pei和Kamber，201 1）。基于距离的方法。该策略试图通过计算马氏距离将多变量孤立点挖掘问题转化为单变量域。让Xisin; rntimes;D表示收集的数据矩阵，N表示样本数，D表示变量数。让x=x1x2表示样本协方差，那么样本Xn的马氏距离可以计算为MD（Xn）=（Xnminus; “x”？minus;1（x nminus; x）T（1）我们将以图2中的数据为例，所有数据的马哈-拉诺比距离如图4所示。我们可以判断，使用单变量技术可以很容易地检测到异常值（用红星表示）。然而，基于马氏距离的界只能描述高斯簇的轮廓。更糟糕的是，对于一些非线性/非高斯多变量情况，距离度量可能是鲁莽的，例如图5 a中分散的二维数据集。该数据集由两个单独的密集高斯簇和一个稀疏香蕉形簇组成，离群值在中间部分以红星分布。图5b显示了相应的马哈-拉诺比距离，从中很难区分潜在的异常值。一般来说，在数据挖掘文献中，多变量外部检测问题可以被视为有监督或无监督的任务，这取决于专家知识是否可以用于离群值标签（Hodgeamp;Austin，2004）。然而，由于过程数据通常具有高维和大容量，这些异常值标签很难得到。从这个意义上讲，我们范围内的异常值检测通常被称为无监督数据挖掘。对于高维数据，异常值检测类似于大海捞针（Agyemang、Barker和Alhajj，2006）。通常，在各种多元离群点挖掘爆炸中，可以找到适合这些情况的基于密度的方法和基于邻近度的方法。对于基于密度的方法，首先对潜在的数据分布进行适当的估计，然后从这些低密度分布区域中剔除异常值。基于邻近度的方法将特定度量作为数据对象相似性的度量。离群值是从与相邻邻域相似性较低的观测值中检测出来的。基于密度的方法。基于密度的方法可以概括为参数方法和非参数方法。对于非参数方法，广泛应用的离群点挖掘技术应包括Parzen窗方法和C-均值方法，而常用的参数方法是高斯混合模型（GMM）。Parzen窗口：Parzen窗口直接估计给定窗口函数以及win-dow宽度的数据分布（Kwakamp;Choi，2002）。窗口函数定义以单位超立方体为中心的原点，而宽度决定估计分布的平滑度。一旦获得分布，低密度区域就可

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[604239]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码