基于Hadoop的分类算法的实现文献综述

2020-05-11 23:40:02

1.课题背景今天，互联网的应用、商业智能数据分析、科学数据处理等具有海量数据挖掘需求的应用变得越来越普遍，如何高效管理、分析这些海量数据成为当前急需解决的问题：本文基于Apache的开源云计算平台，运用分布式文件系统、并行编程模型以及并行执行引擎实现了数据分类挖掘算法：贝叶斯算法。

并运用设计好的分类器，做了简单的文本分类程序。

从结果分析来看，并行计算的优势得到了充分体现。

我们生活在一个信息爆炸的时代，信息爆炸的背后是数据量以惊人的几何式速度增长。

根据IDC(International Data Corporation)的数字宇宙 (Digital Universe) 研究报告显示，2006年全球数据总量为0.18ZB (1ZB=1,000EB=1,000,000PB=1,000,000,000TB)，2011年增长至1.8ZB，而到2020年，这个数字预计将增长到惊人的40ZB。

并且届时，约有33%的数据将包含有价值的信息。

随着电子设备种类和数量的快速增加，数据的来源也变得更加多种多样，小到纪录运动信息的穿戴设备，大到探寻宇宙起源的巨型射电望远镜，无不在源源不断的产生数据。

数据量的增长即使机遇，也是挑战。

我们拥有海量的，多的处理不完的数据，而这也为存储和分析这些数据，挖掘其中的有用信息的方法提出了一个难以达到的要求。

曾经一次偶然的机会，我在网络上了解到了World Community Grid这个科学计算项目，让我第一次了解到了分布式计算（Distributed Computing），并对此产生了兴趣。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码