基于hadoop的聚类算法的实现文献综述

2020-05-11 23:39:37

文献综述

一. 选题依据

1.课题背景

随着当今社会的科技高速发展，我们人类社会也步入了数据时代。对比以前的人们依赖报纸或者广播甚至口耳相传来获得信息，现代社会的人们随时随地拿起手机，打开电脑，点开网页就可以获得信息甚至有些信息还会主动地被推送到我们的手机上。这些信息也是一种数据，所以互联网和手机的普及使得数据更加容易产生，数据的传递也变得更加迅速，这导致我们身边的数据以几何式的倍率在增涨着。根据IDC(International Data Corporation)的数字宇宙 (Digital Universe) 研究报告显示，2006年全球数据总量为0.18ZB (1ZB=1,000EB=1,000,000PB=1,000,000,000TB)，2011年增长至1.8ZB，而到2020年，这个数字预计将增长到惊人的40ZB。虽然我们身边的数据以如此惊人的速度在增长着，但是我们身边的这些数据对我们来说并不一定都是有用的，其中只有33%的数据包含着有价值的信息。随着电子设备种类和数量的快速增加，数据的来源也变得更加多种多样，小到纪录运动信息的穿戴设备，大到探寻宇宙起源的巨型射电望远镜，无不在源源不断的产生数据。数据量的增长既是机遇，也是挑战。我们拥有海量的，多的处理不完的数据，而这也为存储和分析这些数据，挖掘其中的有用信息的方法提出了一个难以达到的要求。随着大数据时代的来临，我们需要从这些庞大的数据中进行分析和计算，找出其中有价值的数据，为我们所用。

如今，许许多多的公司都开始重视大数据的云化和数据分析，比如淘宝、百度、移动等等，他们从用户的数据中分析出用户的习惯，为用户提供更适合的套餐，为公司带来更大的盈利。可见数据分析是如此的重要。为了应对日子增长的数据，hadoop应运而生了。Hadoop原来是Apache Lucene下的一个子项目，它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。

为了跟上大数据时代的节奏，了解当前科技的发展，我选择了基于Hadoop聚类算法的实践作为我的毕业设计课题，一方面我觉得一个作为计算机科学与技术专业的学生，我们不能仅仅局限于会对着书本敲代码、写程序，我们更应该能将我们的技术与时代的需求与社会实践相结合，我们不能仅仅满足于读万卷书，我们也要行千里路。另一方面我实习的公司也运用到了Hadoop技术，所以我想借此机会学习Hadoop技术，让这次毕业设计帮助我完成从校园学习到社会实践的过度。

2.课题的目的和意义

（1）学习Hadoop的安装与配置，以及独立模式、伪分布式模式及完全分布式模式三种模式的集群建立，来单机测试Hadoop，或在多台主机上进行并行计算。

（2）学习Map/Reduce相关概念、工作原理及其实现方法，建立HDFS文件系统并实现对它的监控与维护，进一步了解这一种分布式文件系统的特点对Hadoop分布计算的重要性。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码