基于Spark 的大数据k-means并行聚类算法应用研究开题报告

2022-01-04 21:04:34

全文总字数：2537字

1. 研究目的与意义及国内外研究现状

随着大数据时代的到来,从海量数据中获取有价值信息的需求日益增加,迫切需要一些新的方法来处理海量数据。聚类分析作为数据挖掘中的重要组成部分,对数据挖掘技术的发展有着重要意义。

聚类分析不仅可以单独对数据集进行处理,获得需要的数据分布情况,还能够作为其他数据挖掘算法的数据前期预处理操作。针对传统方法在解决现有问题上的不足,和更好的对海量数据进行处理,发现数据集中隐含的有价值信息,以及能更全面、更高效的满足实际应用需要,亟需对相关聚类方法进行深入研究。

为有效处理大规模数据聚类的问题,提出一种先抽样再用最大最小距离进行k-means并行化聚类的方法。基于抽样的方法避免了聚类陷入局部解中,基于最大最小距离法使得初始聚类中心趋于最优化。大量实验结果表明,无论是在单机环境还是集群环境下,该方法受初始聚类中心的影响降低,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

聚类分析是一个无监督学习 (unsupervised learning) 过程, 一般是用来对数据对象按照其特征属性进行分组，经常被应用在客户分群，欺诈检测，图像分析等领域。k-means 应该是最有名并且最经常使用的聚类算法了，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。k-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量v最优分类，使得评价指标j最小。算法采用误差平方和准则函数作为聚类准则函数，其原理比较容易理解，并且聚类效果良好，有着广泛的使用。

本文是对并行聚类算法k-means的研究。首先介绍了k-means算法在单个计算机上的聚类算法的设计思想,其次重点对k-means算法在集群环境下聚类算法的设计思想进行具体阐述。k-means聚类算法在面对海量数据时,时间和空间的复杂性已成为k-means聚类算法的瓶颈。本文在充分研究传统 k-means聚类算法的基础上, 提出了基于的并行 k-means聚类算法的设计思想, 给出了其加速比估算公式。并通过实验证明了该算法的正确性和有效性。

关键字：k-means；并行；聚类；集群环境

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 实施方案、进度安排及预期效果

本课题的实行方案：前期研究设计目的和意义、进行需求分析、相关文献和实例的研究、搭建环境；中期进行代码优化；后期进行具体编程实现、调试和测试。

目前进度：进行了前期的各项进度，总体结构设计正在进行中。

预期效果：能够对一个大型数据进行分析，并将分析结果呈现出来。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

[1]周润物，李智勇，陈少淼，陈京，李仁发．计算机应用.面向大数据的并行优化抽样聚类k—means算法，2016，2：311-315．

[2]何婷婷，戴文华，焦翠平，基于混合并行遗传算法的文本聚类研究[j].中文信息学报，vol.21:55-60,2007.

[3]袁冬，基于海量文本的语义构造方法研究[d].山东：中国海洋大学，2012.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码