基于hadoop的频繁项集算法的实现文献综述

2020-05-11 23:39:39

一. 选题依据 1.课题背景如今我们生活在一个信息爆炸的时代，信息爆炸的背后是数据量以惊人的几何式速度增长。

根据IDC(International Data Corporation)的数字宇宙 (Digital Universe) 研究报告显示，2006年全球数据总量为0.18ZB ，2011年增长至1.8ZB，而到2020年，这个数字预计将增长到惊人的40ZB。

并且届时，约有33%的数据将包含有价值的信息。

随着电子设备种类和数量的快速增加，数据的来源也变得更加多种多样，小到纪录运动信息的穿戴设备，大到探寻宇宙起源的巨型射电望远镜，无不在源源不断的产生数据。

数据量的增长即使机遇，也是挑战。

我们拥有海量的，多的处理不完的数据，而这也为存储和分析这些数据，挖掘其中的有用信息的方法提出了一个难以达到的要求。

数据挖掘技术，正是以大数据为主题，将人工智能、统计学、信息检索、数据可视化神经网络、数据可等知识想结合的新型技术旨在从大量的、复杂的、异构的、有噪声的数据中挖掘出具有科研或商业价值的信息，以形象、直观的方式展示出来。

关联规则作为数据挖掘过程的重要内容，其挖掘的过程主要包括两步：（1）根据给定的最小支持度生成频繁项集；（2）在频繁模式的基础上，根据给定的最小置信度产生用户要求的强关联规则。

其中生成关联规则相当简单，显然，影响关联规则挖掘性能主要是频繁项集的求解过程。

因此提高关联规则的挖掘效率主要着重频繁项集挖掘算法的研究上，由此取得的任何进展都将对关联规则以至于其它数据挖掘任务的效率产生重要影响。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付