异常值检测外文翻译资料

2022-08-08 07:08

英语原文共 12 页，剩余内容已隐藏，支付完成后下载完整资料

异常值检测

引言：动机、定义和应用

在许多数据分析任务中，记录或采样了大量变量。获得连贯分析的第一步是检测支出的观测值。尽管离群值通常被认为是错误或噪声，但它们可能携带重要信息。检测到的离群值是异常数据的候选者，否则可能会导致模型错误指定，参数估计有偏差以及结果不正确。因此，在建模和分析之前识别它们很重要（Williams等，2002； Liu等，2004）。

异常值的精确定义通常取决于有关数据结构和应用的检测方法的隐藏假设。然而，一些定义被认为是通用的，足以应付各种类型的数据和方法。霍金斯（Hawkins，1980）将异常值定义为与其他观测值有很大差异的观测值，以至引起人们怀疑它是由不同的机制产生的。Barnet和Lewis（1994）指出，离群观测值或离群值似乎明显偏离其发生于样本的其他成员，Johnson（1992）同样将离群值定义为数据集中的离群值似乎与该组数据的其余部分不一致。其他特定案例的定义如下。

异常检测方法已被建议用于许多应用，例如信用卡欺诈检测，临床试验，投票违规性分析，数据清理，网络入侵，恶劣天气预测，地理信息系统，运动员表现分析以及其他数据挖掘任务（Hawkins 1980年，Barnett和Lewis，1994年，Ruts and Rousseeuw，1996年，Fawcett和Provost，1997年，Johnson等，1998年，Penny和Jolliffe，2001年，Acuna和Rodriguez，2004年，Lu等，2003年）。

异常值检测方法的分类

异常值检测方法可以分为本领域早期工作中提出的单变量方法和通常构成当前研究主体的多变量方法。离群值检测方法的另一种基本分类法是在无模型的参数（统计）方法和非参数方法之间（例如Williams等，2002）。统计参数方法要么假设观测值的已知基础分布（例如，Hawkins，1980； Rousseeuw和Leory，1987， Barnett和Lewis，1994），要么至少基于未知分布参数的统计估计值（Hadi，1992，Caussinus和Roiz，1990年）。这些方法将偏离模型假设的观察结果标记为离群值。在没有先验基础数据分布知识的情况下，它们通常不适用于高维数据集和任意数据集（Papadimitriou等，2002）。

在非参数离群值检测方法类别中，可以将数据挖掘方法（也称为基于距离的方法）分开。这些方法通常基于局部距离测量并且能够处理大型数据库（Knorr和Ng，1997，2 1998，Fawcett和Provost，1997，Williams和Huang，1997，DuMouchel和Schonlau，1998，Knorr等，2000，2001，Jin等，2001，Breunig等，2000，Williams等，2002，Hawkins等，2002，Bay和Schwabacher，2003）。另一类离群值检测方法是基于聚类技术的，其中小规模的聚类可以视为聚类离群值（Kaufman和Rousseeuw，1990，Ng和Han，1994，Ramaswamy等，2000，Barbara和Chen，2000， Shekhar et al。，2001，2002，Acuna and Rodriguez，2004）。 Hu and Sung（2003）提出了一种识别高密度和低密度模式聚类的方法，进一步将该类划分为硬分类器和软分类器。前者将数据划分为两个非重叠的集合：离群值和非离群值。后者通过为每个数据分配一个反映其离群程度的离群分类因子来提供排名。另一类相关的方法包括空间异常值的检测技术。尽管这些观察结果与整个人群可能没有显着差异，但这些方法都可以寻找关于邻近值的极端观察结果或局部不稳定性（Schiffman等，1981，Ng和Han，1994，Shekhar等，2001，2002； Shekhar和Chawla，2002，Lu等，2003）。

下面将进一步讨论一些上述类。离群值检测方法的其他分类可以在Barnett和Lewis（1994），Papadimitriou等（2002），Acuna和Rodriguez（2004），Papadimitriou等（2002），Hu and Sung（2003）中找到。

单变量统计方法

用于离群值检测的大多数最早的单变量方法都依赖于数据的基础已知分布的假设，该分布被认为是相同且独立分布的（i.i.d.）。此外，许多用于检测单变量离群值的不一致测试还假设分布参数和预期离群值的类型也是已知的（Barnet和Lewis，1994）。不用说，在现实世界中的数据挖掘应用程序中，经常会违反这些假设。

基于统计的离群值检测方法的中心假设是生成模型，该模型允许从与目标分布F不同的分布G1，...，Gk中随机抽取少量观测值，该目标分布F通常被视为正态分布N(mu;,sigma;²)，（Ferguson，1961；David，1979；Barnett和Lewis，1984，Gather，1989，Davis和Gather，1993）。然后将离群值识别问题转换为识别位于所谓离群值区域中的那些观测值的问题。这导致了以下定义（Davis和Gather，1993年）：

对于任意置信系数alpha;，0lt;alpha;lt;1，N(mu;,sigma;²)的alpha;离群区。分布由以下因素定义:

， (1)

其中z_q是N(0,1)的q个五分之一。如果，则数x是关于F的一个alpha;离群值。尽管传统上将正态分布用作目标分布，但可以轻松地将此定义扩展到具有正密度函数的任何单峰对称分布，包括多元情况。

注意，离群值定义并未识别出哪些观测值受到污染，即是由分布G1，...，Gk引起的，而是指出了位于离群值区域内的那些观测值。

3.1 单步程序与顺序程序

Davis和Gather（1993）在单一步骤和顺序过程之间对离群值进行了重要区分。单步过程可以一次识别所有异常值，而不是连续消除或添加基准。在顺序过程中，在每个步骤中，都要测试一个观察值是否为异常值。

关于方程式（1），通过以下步骤给出了用于在单步标识符中查找离群区域的通用规则：

， (2)

其中n是样本的大小；和是基于样本的目标分布的估计均值和标准偏差；alpha;_n表示对多个比较测试进行校正后的置信系数；g(n,alpha;_n)，定义了异常区域的极限（标准偏差的临界数量）。

传统上，和分别通过样本均值和样本标准偏差S_n。由于这些估计值受异常值的影响很大，因此许多程序通常将其替换为第3.3节中讨论的其他更可靠的估计值。同时执行多个统计检验时，将使用多重比较校正。虽然给定的alpha;值可能适合于确定单个观察值是否位于异常区域（即单个比较），但对于一组多个比较却不是这种情况。为了避免虚假的正值，需要降低alpha;值以考虑已执行比较的次数。最简单最保守的方法是Bonferroni校正，它通过将每个比较的alpha;值都等于alpha;/ n来将整个n个比较的集合中的alpha;值设置为alpha;。另一个流行且简单的校正是使用。注意，当观测值独立时，传统的Bonferroni方法是“准最优”的，这在大多数情况下是不现实的。临界值g(n,alpha;_n)通常由数值程序指定，例如针对不同样本量的蒙特卡洛模拟（例如，Davis和Gather，1993）。

3.2向内和向外程序

顺序标识符可以进一步分类为向内和向外程序。在向内测试或向前选择方法中，在该过程的每个步骤中，都要测试“最极端的观察”，即具有最大的离群值度量的那个值。如果声明为离群值，则将其从数据集中删除并重复该过程。如果声明为非异常观察，则过程终止。在Hawkins（1980）和Barnett和Lewis（1984）中可以找到一些内向过程的经典例子。

在外向测试程序中，首先将观测值样本减少为较小的样本（例如，减少两倍），然后将移除的观测值保存在存储库中。根据减少的样本计算统计量，然后以相反的顺序测试储层中移除的观测值，以表明它们是否是异常值。如果观测值被声明为离群值，则将其从水库中删除。如果某个观测值被宣布为非异常观测值，则将其从储层中删除，添加到减少的样本中，重新计算统计量，并使用新观测值重复该过程。当储层中没有更多观测值时，终止向外测试程序。在Rosner（1975），Hawkins（1980）以及Barnett和Lewis（1984）中可以找到关于内向过程的一些经典示例。

向内和向外程序的分类也适用于多元离群值检测方法。

3.3单变量稳健测度

传统上，如果样本均值和样本方差不受异常值的污染，则可以很好地估计数据位置和数据形状。当数据库被污染时，这些参数可能会偏离并严重影响异常值检测性能。

Hampel（1971，1974）引入了故障点的概念，以衡量估计值对异常值的鲁棒性。击穿点定义为可以导致估计量采用任意大值的异常值的最小百分比。因此，估算器具有的击穿点越大，则其越稳健。例如，样本均值的击穿点为1 / n，因为一次大的观测可以使样本均值和方差跨越任何边界。因此，Hampel建议使用中位数和中位数绝对偏差（MAD）作为位置和传播的可靠估计。通常发现Hampel标识符实际上非常有效（Perarson，2002； Liu等，2004）。Tukey（1977）提出了另一项解决稳健估计的问题的工作。Tukey引入了Boxplot作为图形显示，可以在其上显示异常值。Boxplot是基于分布象限而被广泛使用的。第一象限和第三象限Q₁和Q₃用于获得均值和标准偏差的稳健度量。

获得稳健度量的另一种流行解决方案是用中位数代替平均值，并基于数据点的（1-alpha;）百分比计算标准偏差，通常alpha;lt;5％。 Liu等（2004年）基于Martin和Thomson（1982年）的早期工作提出了一种抗离群值的数据过滤器清洁器。拟议中的数据过滤器清洁器包括过程模型的在线抗离群值估计，并将其与改进的卡尔曼滤波器组合以检测和“清除”离群值。所提出的方法不需要先验的过程模型知识。它可以在线检测并替换离群值，同时保留数据中的所有其他信息。作者证明，所提出的过滤器清洁器可以有效地对自相关甚至非平稳过程数据进行异常值检测和数据清洁。

3.4统计过程控制(SPC)

统计过程控制（SPC）领域与单变量离群值检测方法密切相关。它考虑的情况是，单变量度量表示随机过程，并且需要在线检测异常值。 SPC方法已应用了半个多世纪，并在统计文献中进行了广泛的研究。

Ben-Gal等（2004年）通过两个主要标准对SPC方法进行了分类：i）独立数据方法与依存数据方法；ii）特定于模型的方法，而不是普通模型的方法。特定于模型的方法需要对过程特征进行先验假设，通常由基础分析分布或闭式表达式定义。模型通用方法尝试使用最小先验假设来估计基础模型。

传统的SPC方法，例如Shewhart，累计总和（CUSUM）和指数加权移动平均值（EWMA）是特定于模型的独立数据。注意，尽管在实践中经常违反独立性假设，但这些方法已在工业中广泛实施。

依赖数据的大多数特定于模型的方法都是基于时间序列的。通常，这些方法的基本原理如下：找到最能捕获自相关过程的时间序列模型，使用该模型过滤数据，然后将传统SPC方案应用于残差流。特别是，ARIMA（自回归综合移动平均线）模型家族广泛用于过程自相关的估计和过滤。在某些假设下，ARIMA模型的残差是独立的并且近似正态分布，可以将传统SPC应用于该残差。此外，通常认为ARIMA模型（主要是简单模型，如AR（1））可以有效地描述各种各样的行业过程（Box和Jenkins，1976， Apley和Shi，1999）。

依赖数据的特定于模型的方法可以进一步划分为需要显式估计模型参数的依赖参数的方法（例如，Alwan和Roberts，1988，Wardell等，1994，Lu和Reynolds，1999， Runger和Willemain，（1995年，Apley和Shi，1999年），以及无参数方法，其中模型参数仅隐式导出（如果有的话）（Montgomery和Mastrangelo，1991年，Zhang，1998年）。

信息理论过程控制（ITPC）是Alwan等人（1998）提出的用于独立数据的模型通用SPC方法的示例。最后，Ben-Gal等人（2004）提出了一种用于相关数据的模型通用SPC方法。

多元离群值检测

在许多情况下，当每个变量被独立考虑时，不能将多变量观测值检测为离群值。仅当执行多元分析并且在数据类别内比较不同变量之间的相互作用时，才可以进行异常值检测。在图1中可以看到一个简单的示例，该图显示了在二维空间上具有两个度量的数据点。左下角的观察值显然是多变量离群值，而不是单变量。当分别考虑值在x和y轴上的散布时，我们可以看到它们接近单变量分布的中心。因此，离群值的测试必须考虑两个变量之间的关系，在这种情况下，这两个变量看起来是异常的。

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[240310]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码