基于hadoop的频繁项集算法的实现任务书

2020-05-14 22:14:35

1. 毕业设计（论文）的内容和要求

hadoop实现了一个分布式文件系统（hadoop distributed file system），简称hdfs。hdfs有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。hdfs放宽了（relax）posix的要求，可以以流的形式访问（streaming access）文件系统中的数据。

hadoop的框架最核心的设计就是：hdfs和mapreduce。hdfs为海量的数据提供了存储，则mapreduce为海量的数据提供了计算。

要求基于hadoop实现频繁项集算法，主要完成以下工作：

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 参考文献

[1]万川梅, 谢正兰.hadoop应用开发实战详解[m]. 北京：中国铁道出版社, 2013.

[2]tom white. hadoop 权威指南[m]. 清华大学出版社, 2010.

[3]王宏宇. hadoop 平台在云计算中的应用[j]. 软件, 2011, 32(4): 36-38.

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 毕业设计（论文）进程安排

起讫日期	设计（论文）各阶段工作内容	备注
12.9-12.15	学生与导师见面，布置学生查阅文献确定选题	2015年
12.16-1.4	导师下达任务书、攥写开题报告	2016年
1.4-1.15	检查、修改开题报告
1.15-2.4	学习Hadoop相关知识
2.5-3.2	学习Map/Reduce相关知识
3.3-3.24	建立一个Hadoop集群
3.25-4.16	实现频繁项集挖掘算法
4.17-5.8	实现基于Hadoop的频繁项集挖掘算法
5.9-5.16	算法测试以及最后修改
5.17-5.25	攥写论文
5.26-6.5	论文修改、打印、装订、答辩

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码