基于模糊聚类分析的天气数据挖掘外文翻译资料

2022-12-05 16:54:25

英语原文共 15 页，剩余内容已隐藏，支付完成后下载完整资料

基于模糊聚类分析的天气数据挖掘

Zhijian Liu and Roy George

美国陆军信息科学研究中心计算机科学系

克拉克亚特兰大大学

亚特兰大，GA 30314

电子邮件：rkavil@bellsouth.net

摘要

分析所收集的大量天气数据的需求导致了新的数据挖掘工具和技术的发展。挖掘这些数据可以对天气，气候和环境趋势产生新的见解，具有科学和现实意义。本章讨论了天气数据库带来的挑战，并探讨了模糊聚类分析在分析这些数据中的用途。它提出了模糊K-Means聚类算法的扩展来说明天气数据的时空特性。它引入了一种基于模糊K-均值的无监督模糊聚类算法，并定义了一个聚类有效性指标，用于确定最优聚类数。这些技术在美国中南部的天气数据和全球气候数据（海平面气压）上得到验证。可以看出该算法能够识别和保存天气数据中的有趣现象。

引言

卫星，气象站和传感器正在广泛的参数上收集大量的地理空间数据。这种地理空间数据的例子包括描述时空现象的地球科学数据，地理区域中图像的多维序列，自然现象的演变等。然而，尽管这种地理空间数据集的重要性，但直到最近才有努力开发适合数据分析的数据库工具和技术中适当的数据挖掘和知识发现。

时空域是复杂的（Gahegan 2001），并且具有大量数据的特征。例如，几个全球土地覆盖/土地利用图有TB级的信息，需要计算密集的分析技术。有趣的信号和数据常常被局部效应（如季节变化）引起的较强信号所掩盖。全球不同地区之间的耦合也引入了行为的复杂性。这些影响使得难以分析这些数据。数据收集和采样中的不一致性有时需要间接测量和插值，这导致了模型伪像的引入。制定地理知识并将其应用于知识发现和数据挖掘也很困难。这种复杂程度在数据挖掘和数据库技术知识发现中显而易见，这些数据库技术涵盖了广泛的模型和技术（Roddick and Spiliopoulou 1999）。这些技术从视觉导向方法（Openshaw 1984），地理关联规则和序列规则的生成（Koperski和Han 1995），聚类（Steinbach et al.2003; Smyth et al.2000）到组合方法（Gahegan et al。 2001）。

模糊逻辑技术在天气领域的数据挖掘和知识发现中的应用有几个优点。这个领域的不精确性和不确定性存在于多个层面。当类成员不完整或不清楚时，会发生属性歧义。遥感数据中的属性模糊是一个严重的问题（Mohan 2000），例如航空摄影，这经常被解释为不一致。当采样分辨率不够精确，无法准确识别边界位置，类之间发生渐进性变化，或者存在位置不确定性时，会出现空间模糊。聚类是一种通过定义具有类似属性的区域来帮助分析这种大型数据集的技术。然而，传统的硬聚类（Steinbach et al。2003）在面对天气数据测量的模糊性时是不适当的。数据通常不完整或者存在测量误差，这些数据所特有的空间和属性含糊不清会给分析带来更多困难。对于这些数据来说，模糊聚类更适合于自然结合这些现实世界的问题。产生软边界的能力可以提高解释能力。

这项研究工作有几个有趣的应用。在区域尺度上，这些聚类技术可以识别微气候区域。这些地区的知识可以用来改善运营计划和决策支持。即使对领域专家来说，这种微气候区域的存在也是主观的。与硬分区相比，模糊聚类技术更适合为这些解释提供基础。聚类技术的使用对调谐天气预报模型也很有用。这些模型虽然是长期天气的良好预测因素，但在预测短期天气模式（例如圣安娜风）方面却显着失败。在这些模型中，地形和昼夜加热效应不能有效地模拟，识别这种天气异常的能力可以用来修正天气模型预测的结果。数据库技术中数据挖掘和知识发现的发展可以导致对这些影响的理解和预测。

聚类技术已被广泛用于数据库中的数据挖掘和知识发现，并且理想用于理解天气数据。模糊聚类是经典聚类技术的扩展，已经被用于解决模式识别和模糊模型识别领域的许多问题（MacQueen 1967）。已经提出了各种模糊聚类方法，其中一些方法基于距离标准。模糊K均值聚类已被广泛用于理解模式，特别是在群集可能重叠的地方。它已被应用于土地利用/土地覆盖分类（Mohan 2000），基因簇识别（Gash and Eisen 2002）和水化学数据分类（Guler et al。2002）。第5.2节给出了时空域中的聚类概述。第5.3节描述了将模糊K-Means聚类应用于时空数据作为数据挖掘技术和非监督模糊K均值（UKFM）聚类的新算法。结果表明，UKFM聚类技术能够捕捉区域天气领域和全球气候领域的气候数据中的有趣特征（表明该算法具有良好的可扩展性）。 5.4节将检查未来的方向并结束本章。

5.2 时空域中的聚类

聚类是将特征向量分组为聚类的过程。给定一组数据点，每个数据点都带有一组特征向量，聚类将数据点分组为集群，这样一个集群中的数据点彼此相似，而不同集群中的数据点彼此不相似。聚类过程是基于相似性度量将特征向量分配到聚类中。聚类中心（或原型）的选择对聚类过程至关重要。相似性度量应该区分距离聚类中心较远的特征向量，以支持更接近的向量。各种作者已经引入了几种不同的聚类技术。但是，挑战在于将它们应用于特定领域的问题，尤其是确定适合问题的相似性度量。在这项工作中，我们报告了K-Means聚类技术及其模糊变化在时空域中的应用。

5.3 K-means聚类

K-Means聚类算法被广泛用于将数据点划分为不同的簇（Forgy 1965; MacQueen 1967）。 K均值算法假定存在K个相干群集。该算法可以概括为：

步骤1：随机选择k个点作为簇的初始质心。

步骤2：将所有数据点分配给质心最相似的群集。

步骤3：重新计算每个群集的质心。

步骤4：如果质心确实改变，则转到步骤2; 否则停止。

该算法的实现可以随着相似性（或距离）的度量的不同选择而变化。

在时空域中，每个数据点（在空间中）可以被视为一个矢量由时间序列参数组成。这个领域的相似性可以通过皮尔森相关系数p通过使用Pearson距离|1-p| (Luke n.d.). 来测量。对于变量（向量）X和Y，Pearson相关系数定义为

(5.1)

，分别是变量X和Y的均值，是所有有序对的乘积之和; n是有序对（数据点）的数量。是变量X的所有值的平方和，是变量Y的所有值的平方和。

5.3.1模糊K-means聚类

经典的K-Means聚类对数据执行硬分区（0或1）。模糊K均值（deGruijter和McBratney 1988）是一种更富表现力的聚类技术。它计算集群中数据点的隶属度（[0,1]）。对于时空域，这允许灵活地解释处于群集外部边界的区域。硬分区可以被视为一个真值为0（假）或1（真）的模糊分区。

模糊K均值聚类尝试在下列条件下尽量减少平方误差函数的聚类和：

,i=1,2,hellip;hellip;n

(5.2)

,k=1,2,hellip;hellip;c

是隶属函数, ,c是簇号。它由以下目标函数定义：

(5.3)

其中n是数据点的数量，c是簇的数量，是表示聚类k的质心的向量，是表示单个数据点i的向量, 是根据选定的距离定义的在和的平方距离，为简单起见，表示为，是模糊指数，范围从1到，它决定了最终解决方案的模糊程度，即组间重叠程度。当=1时，该解决方案是一个硬分类。随着接近无穷大，解决方案接近其最高程度的模糊性。

目标函数J的最小化为成员函数提供了解决方案。

(5.4)

(5.5)

模糊K均值算法由以下初始化：

a：选择群集数量：c，1 lt;c lt;n。

b：为模糊指数选择一个值，其中gt; 1。

c：在变量空间中选择距离的定义。

d：为停止标准e选择一个值（e = 0.001可以得到较好的收敛性。）

K-Means算法的步骤如下：

步骤一：用随机成员或来自硬K-Means分类的成员来初始化M={}=

步骤二：用it = 1开始迭代。

步骤三：用方程式[5]和计算C=

步骤四：用方程式[4]和计算M=

如果接近或等于0时的数值发生溢出，被设置为1。

步骤五：将和比较，如果,则停止；否则it=it 1，执行步骤3。

由于被聚类的数据是时空的，Pearson Distance | 1-p |在初始化步骤c中使用。隶属度函数矩阵M的初始化对所得到的聚类有影响，因此当使用随机初始化时应执行多次聚类运行。

这项研究工作的时空领域是天气数据。海军作战全球大气预报系统（NOGAPS）（Baker等，1988）是全球天气预报模型。 NOGAPS使用常规观测（地表，原始探空，飞机和飞机）以及各种形式的卫星观测。除了来自对地静止卫星的各种运行处理中心的风观测外，NOGAPS还利用高密度多光谱风观测。数据粒度为1度times;1度，每日4次。这项工作使用了美国南部四年的数据子集。

天气信息可被视为空间时间序列数据。测量的频率和密度使这些数据源变大。这些数据主要受季节影响（例如，夏季温暖，冬季寒冷），在开采数据以获取有趣的非季节性模式之前必须将其删除。有几种技术可以用于去除季节性模式（Steinbach et al。2003） - 这项工作使用每月Z分数转换。所有的天气数据首先标准化为每个月，即获得月平均值和标准偏差，所有的数据参数从它们的相应方法中减去并除以标准偏差。由此产生的数据是一个时间序列，删除了季节性模式的影响。图5.1和5.2分别显示了温度和降水数据的模糊K均值聚类结果（为了简洁起见，后面的讨论只有降水结果）。数据挖掘的结果使用ARCINFO地理信息系统进行显示。

从一个领域的角度来看（美国气候地图集，1931 - 1960年），这些集群对应着已知的天气特征。佛罗里达海岸的天气主要由称为百慕大高地的永久性气团控制。这改变了佛罗里达州的天气，区别于墨西哥湾沿岸。阿巴拉契亚山脉（高海拔）会在天气中产生变化，但范围的西南部分除外，这通常受海湾地区的影响。内部的天气由多个星团组成，但其意义尚未完全了解。这些多个聚类是聚类技术的一个假象，apriori决定数据中有5个聚类。更好的解决方案是使用无监督聚类方法，其中使用独立于域的方法或通过使用群集确定领域知识确定聚类的数量。这两种技术都要求对集群进行验证，前者通过有效性措施进行验证，后者通过主题专业知识进行验证。非监督模糊K均值聚类技术是使用独立于域的方法开发的。

5.3.2 无监督模糊K-means聚类（UFKM）

K-Means聚类（包括模糊版本）的一个问题是聚类的数量k必须先确定。这就产生了一个问题 - k值很小，会聚集许多自然群集，隐藏所需的特征。另一方面，更大的k值会导致创建几个不重要的群集。在任何一种情况下，聚类都不会导致对所有关注特征的最佳检测，从而让用户猜测显示所有重要特征的最少数量的聚类。无监督聚类可以消除猜测聚类数量的需要。该算法最初假定一个大的初始k个群集。该算法消除了微不足道的聚类，并合并了每一步都相似的聚类。重复这些步骤，直到聚类数量为“最小”。一个有效性指数是在每一步计算出来的，用来决定后验先验的聚类阶段，能够保存模式信息。

谢和贝尼（Baker et al。1988）提出了一个紧密度 - 分离有效性指数，它与团簇数量无关。有效性指数定义为：

(5.6)

其中是聚类中每个点与质心的距离，是j和k簇的质心之间的距离。有效性指数是一种紧密度分离度量，它使用聚类中心之间的最小距离来评估聚类的分离度。

通过引入Pearson距离，扩展了谢贝尼有效性指数以适应数据的时空性。该指数重新拟定为：

(5.7)

其中是和的皮尔逊系数，是和的皮尔逊系数。

S的较低值表示更好的聚类。

无监督模糊K均值算法如下：

a 选择群集的初始数量

(是一个很好的猜想，其中n是数据点)

b 使用Fuzzy K-Means开发一个聚类

c 合并那些满足以下规则的集群：

Pearson相关系数的虚拟质心，pgt; 0.5

d 计算有效性指数。

e 重复步骤b和c，直至达到停止条件。

虚拟质心是聚类的计算质心，即它不一定对应于实际测量点。对于几乎为空的集群，相应的成员函数将被赋值为0.0，并且原始值将被添加到其他集群之一的成员函数中。获得一组聚类方案，聚类数量范围从k0到2，并且可以基于有效性指标来选择最优聚类。可以将与域相关的信息为特征的附加规则结合到算法中，以保留感兴趣的簇，即使它们是基于域独立方法的合并候选。

簇的初始数量选择为11（图5.4），并且UFKM算法迭代地减少该数量。具有8个簇的结果（图5.5）给出了最优的有效性指数 - 但是，向气象专家显示的结果不容易解释。 8个聚类可能仅通过一个复杂的分析显示出可区分的区域，这种聚类分析的能力超过解释它们的能力。（在哲学层面上，这些“混乱”的发现是数据挖掘的基础，其中一个组成部分是重新发现已知现象，发现其他未知或未被识别的现象，但最终可能是重要的）图5.6显示由UFKM算法确定的4个群集情况。图5.3显示了不同数量簇的有效性指数值。请注意，当度量值最小时，会获得最佳聚类。这些集群对应于上一节讨论的美国选定地区的重要气候区域。

5.3.3 U

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[21399]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码