基于集成学习的无监督聚类算法研究开题报告

 2020-02-10 11:02
1.目的及意义(含国内外的研究现状分析)

1 研究背景

1.1 研究目的及意义

随着聚类技术及相关算法在近些年来发展迅猛,聚类分析在各种领域中发挥着重要作用,如:模式识别,图像处理,商业智能,数据挖掘,文档分析,市场研究,生物学和用户推荐。在过去聚类算法几十年的发展历程中,已经针对各个不同的用用场景开发了相应的聚类算法。目前,人们提出了许多聚类算法,例如,k-means算法,k-modes算法,FCM算法等等。但相对地,往往,一种聚类算法在某一领域或者某类数据集中展现出较好的特性,在另一类为问题中,表现却差强人意。有的聚类算法可以发现任意形状的簇类;而有的聚类算法则只能发现单一形状的簇类。并且,这些算法不同的初始条件和参数往往会导致不同的聚类结果。因此,找到一种可应用于所有数据集的聚类算法是非常困难的,因此改进了各种聚类算法,并提出了不同的聚类算法。为了解决这个问题,有学者在2003年提出了聚类集成的概念。

在聚类集成中,一般选择使用一致性度量来评估和选择个体聚类结果,通过对选择的个体聚类结果进行集成, 可以提高最终结果的准确性、稳定性。聚类集成往往包含4个组成部分:生成、评价、选择和组合。首先, 通过使用不同的聚类算法或重复一种算法生成多个聚类结果, 这些结果可以在每次运行时随机产生;其次, 一个共识度量 (如归一化互信息) 来评估产生的结果;再次, 通过阈值选择评估结果;最后, 通过聚类集成机制,设计一个共识函数,得到最终的聚类结果。

在聚类集成算法中有三大问题亟待解决,首先是生成策略,之后是度量评价,最后是阈值生成。因此,为了解决这些问题,进而探索一些性能优异,稳定的无监督学习的聚类集成算法。

1.2 国内外研究现状分析

关于聚类的探索能够追溯到 20 世纪 40 年代,Driver 和 Kroeber 在 1932年,第一次运用聚类分析的思想来研究人类学,随后 Robert Tryon 在 1939 年把聚类思想应用到了心理学的研究领域中。直至现在,聚类得到了人们的广泛关注,经过 80年的努力提出了许多聚类算法,并且在很多领域中得到重要应用。

针对聚类分析这个广阔的研究领域,目前人们的研究重点主要集中在以下几

个方面:(1)在大规模数据的聚类过程中,如何为聚类提供有效地分析方法;(2)何提高聚类方法的有效性和可扩展性;(3)如何对高维数据进行聚类分析。

与国外相比,我国的聚类研究起步较晚,最早的研究项目是在1993年时才首次提出的,该研究项目是在国家自然科学基金的支持下,由中科院合肥分院着手。近年来,国内对于数据挖掘和聚类方面的研究逐渐增多,呈现出蓬勃发展的趋势,有关这方面的论文也是层出不穷。与此同时,我国多次举办了有关数据挖掘方面的国际会议,例如,ACM SIGSOD 国际数据管理会议等。这些均充分显示了学者们对数据挖掘这一领域的研究热忱,也充分显示了我国对这一领域的重要关注。

Alexander Topchy等人于2005年提出引入多个聚类的统一表示,并且在聚类空间中使用多项式形式的概率模型,并且用EM算法找到组合分区对应最大似然问题的解决方案,另外使用广义交互信息定义了一个与经典的类内方差标准相关的新的共识函数。最后,验证了了使用数据投影和随机数据分割的弱聚类算法生成的组合分区的效果。

您需要先支付 5元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,微信号:bysjorg 、QQ号:3236353895;