基于Hadoop的分类算法的实现任务书

2020-05-14 22:14:59

1. 毕业设计（论文）的内容和要求

今天，互联网的应用、商业智能数据分析、科学数据处理等具有海量数据挖掘需求的应用变得越来越普遍，如何高效管理、分析这些海量数据成为当前急需解决的问题：本文基于apache的开源云计算平台，运用分布式文件系统、并行编程模型以及并行执行引擎实现了数据分类挖掘算法：贝叶斯算法。并运用设计好的分类器，做了简单的文本分类程序。从结果分析来看，并行计算的优势得到了充分体现。

hadoop是一个分布式系统基础架构，由apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。在hadoop中实现了google的mapreduce算法，它能够把应用程序分割成许多很小的工作单元，每个单元可以在任何集群节点上执行或重复执行。此外，hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据，并提供了对数据读写的高吞吐率。

要求基于hadoop实现聚类算法，主要完成如下工作：

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 参考文献

[1]拉姆. hadoop实战[m]. 人民邮电出版社，2011　　

[2]韩家炜，堪博.数据挖掘概念与技术[m]. 机械工业出版社，2007

[3]王宏宇. hadoop 平台在云计算中的应用[j]. 软件, 2011, 32(4): 36-38.

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 毕业设计（论文）进程安排

起讫日期	设计（论文）各阶段工作内容	备注
12.9-12.15	学生与导师见面，布置学生查阅文献确定选题	2015年
12.16-1.4	导师下达任务书、攥写开题报告	2016年
1.4-1.15	检查、修改开题报告
1.15-2.4	学习Hadoop相关知识
2.5-3.2	学习Map/Reduce相关知识
3.3-3.24	建立一个Hadoop集群
3.25-4.16	实现基于Hadoop的分类算法
4.17-5.8	实现基于Hadoop分类算法的程序
5.9-5.16	算法测试以及最后修改
5.17-5.25	攥写论文
5.26-6.5	论文修改、打印、装订、答辩

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码