登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 计算机科学与技术 > 正文

基于Spark 的大数据k-means并行聚类算法应用研究开题报告

 2022-01-04 09:01  

全文总字数:2537字

1. 研究目的与意义及国内外研究现状

随着大数据时代的到来,从海量数据中获取有价值信息的需求日益增加,迫切需要一些新的方法来处理海量数据。聚类分析作为数据挖掘中的重要组成部分,对数据挖掘技术的发展有着重要意义。

聚类分析不仅可以单独对数据集进行处理,获得需要的数据分布情况,还能够作为其他数据挖掘算法的数据前期预处理操作。针对传统方法在解决现有问题上的不足,和更好的对海量数据进行处理,发现数据集中隐含的有价值信息,以及能更全面、更高效的满足实际应用需要,亟需对相关聚类方法进行深入研究。

为有效处理大规模数据聚类的问题,提出一种先抽样再用最大最小距离进行k-means并行化聚类的方法。基于抽样的方法避免了聚类陷入局部解中,基于最大最小距离法使得初始聚类中心趋于最优化。大量实验结果表明,无论是在单机环境还是集群环境下,该方法受初始聚类中心的影响降低,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

聚类分析是一个无监督学习 (unsupervised learning) 过程, 一般是用来对数据对象按照其特征属性进行分组,经常被应用在客户分群,欺诈检测,图像分析等领域。k-means 应该是最有名并且最经常使用的聚类算法了,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。k-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量v最优分类,使得评价指标j最小。算法采用误差平方和准则函数作为聚类准则函数,其原理比较容易理解,并且聚类效果良好,有着广泛的使用。

本文是对并行聚类算法k-means的研究。首先介绍了k-means算法在单个计算机上的聚类算法的设计思想,其次重点对k-means算法在集群环境下聚类算法的设计思想进行具体阐述。k-means聚类算法在面对海量数据时,时间和空间的复杂性已成为k-means聚类算法的瓶颈。本文在充分研究传统 k-means聚类算法的基础上, 提出了基于的并行 k-means聚类算法的设计思想, 给出了其加速比估算公式。并通过实验证明了该算法的正确性和有效性。

关键字:k-means;并行;聚类;集群环境

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 实施方案、进度安排及预期效果

本课题的实行方案:前期研究设计目的和意义、进行需求分析、相关文献和实例的研究、搭建环境;中期进行代码优化;后期进行具体编程实现、调试和测试。

目前进度:进行了前期的各项进度,总体结构设计正在进行中。

预期效果:能够对一个大型数据进行分析,并将分析结果呈现出来。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1]周润物,李智勇,陈少淼,陈京,李仁发.计算机应用.面向大数据的并行优化抽样聚类k—means算法,2016,2:311-315.

[2]何婷婷,戴文华,焦翠平,基于混合并行遗传算法的文本聚类研究[j].中文信息学报,vol.21:55-60,2007.

[3]袁冬,基于海量文本的语义构造方法研究[d].山东:中国海洋大学,2012.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图