基于集成学习的无监督聚类算法研究开题报告

2020-02-10 23:37:35

1. 研究目的与意义（文献综述）

1 研究背景

1.1 研究目的及意义

随着聚类技术及相关算法在近些年来发展迅猛，聚类分析在各种领域中发挥着重要作用，如：模式识别，图像处理，商业智能，数据挖掘，文档分析，市场研究，生物学和用户推荐。在过去聚类算法几十年的发展历程中，已经针对各个不同的用用场景开发了相应的聚类算法。目前，人们提出了许多聚类算法，例如，k-means算法，k-modes算法，fcm算法等等。但相对地，往往，一种聚类算法在某一领域或者某类数据集中展现出较好的特性，在另一类为问题中，表现却差强人意。有的聚类算法可以发现任意形状的簇类；而有的聚类算法则只能发现单一形状的簇类。并且，这些算法不同的初始条件和参数往往会导致不同的聚类结果。因此，找到一种可应用于所有数据集的聚类算法是非常困难的，因此改进了各种聚类算法，并提出了不同的聚类算法。为了解决这个问题，有学者在2003年提出了聚类集成的概念。

在聚类集成中，一般选择使用一致性度量来评估和选择个体聚类结果，通过对选择的个体聚类结果进行集成, 可以提高最终结果的准确性、稳定性。聚类集成往往包含4个组成部分：生成、评价、选择和组合。首先, 通过使用不同的聚类算法或重复一种算法生成多个聚类结果, 这些结果可以在每次运行时随机产生;其次, 一个共识度量 (如归一化互信息) 来评估产生的结果;再次, 通过阈值选择评估结果;最后, 通过聚类集成机制，设计一个共识函数，得到最终的聚类结果。

在聚类集成算法中有三大问题亟待解决，首先是生成策略，之后是度量评价，最后是阈值生成。因此，为了解决这些问题，进而探索一些性能优异，稳定的无监督学习的聚类集成算法。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

2 研究方向概况

2.1 研究基本内容

基于上述文献的研究，探索非监督性聚类集成算法的可行方案。首先，研究学习经典的聚类算法，对数据集利用经典的聚类算法进行聚类分析，了解相关算法的特性；其次，将相关论文提到的算法进行复现工作，测试其相关的性能以及对相关结果进行比较。最后，根据上述的实验结果，探索出一种评价度量，生成方略以及共识函数，得到共识度量。进而得到一种效率高，鲁棒性好，拓展性强的无监督聚类集成算法。

大致研究方案如下：利用集群级别的集合多样性，将集群的不确定性和有效性整合到局部加权方案中，以提高共识性能。群集可被视为在相应的基本群集中的本地区域。在不需要访问数据特征的情况下，基于熵的标准，针对整个集合中的聚类标签估计每个聚类的不确定性。特别地，对于给定的一个聚类，通过考虑如何将该聚类内的对象分组到多个基本聚类中来研究其不确定性。基于聚类不确定性估计，然后利用集合驱动的聚类索引来测量聚类的可靠性。另外，集合中不同群集的群体可以为评估每个群集提供有效的指示。通过集合驱动的聚类索引测量对集合中的聚类进行评估和加权，根据信息论的相关内容，提出一种局部证据共识函数，它将局部自适应性结合到传统的联合关联矩阵中，并作为不同聚类集合的总结。

2.2 研究目标

对于多种应用场景以及多种形式的数据集，探索出一种集成学习的无监督聚类算法，该算法能够适用于这些实际情况，且相较于经典的聚类算法，以及聚类集成算法，效果更加突出。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

3 进度安排

因为此研究需要较为扎实的聚类算法基础，因此在前两周，我会在阅读相关文献之余，学习《机器学习》中经典的算法，以及利用代码实现常见典型的聚类算法。之后的5~7周同样地为了打牢基础，我会对集成算法有一个系统的学习，特别是如何进行局部赋权，以及如何利用共识函数将不同集群整合起来等问题进行更加细致的研究。在之后8~10周，复现一些典型的集成聚类算法，并找到一些数据集，进行试验。在11~12周我会将设计无监督集成聚类算法的相关细节如局部加权方案，以及集群不确定性估计，共识函数等。并且将该算法利用matlab实现出来，利用实际数据测试算法的性能，观测算法的效率以及在多种场景中的适用性。在之后的13~15周，我会开始撰写毕业论文，并且在此期间不断尝试不同的方案对算法进行改进，以达到更好的聚类效果。具体流程见下表：

3~4周	学习经典的聚类算法
5~7周	学习典型的集成算法
8~10周	复现集成聚类算法
11~12周	设计算法细节，利用实际数据进行试验
13~15周	改进算法，撰写毕业论文

4. 参考文献（12篇以上）

4 参考文献

[1] strehl a, ghosh j. clusterensembles---a knowledge reuse framework for combining multiple partitions[j].journal of machine learning research, 2002, 3(dec): 583-617.

[2] huang d, wang c d, lai j h. locallyweighted ensemble clustering[j]. ieee transactions on cybernetics, 2018, 48(5):1460-1473

[3]. zhou z h, tang w. clustererensemble[j]. knowledge-based systems, 2006, 19(1):77-83.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码