Spark与MapReduce2.0在异构环境下的性能对比与分析研究开题报告

2021-12-18 21:56:59

全文总字数：2353字

1. 研究目的与意义及国内外研究现状

spark是基于内存计算的大数据并行计算框架。spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性。mapreduce作为经典的分布式大数据处理框架，已经被人熟知，尤其随着yarn的兴起，mapreduce诞生了2.0版本。然而，在大数据处理方面，2个框架都是性能比较好的框架。但是诸多开发者很少能清楚的分辨出两者在不同环境下的性能优劣，所以spark与mapreduce2.0在异构环境下的性能对比与分析有其必要性。

从上面的论述来看，本课题研究的目的在于理解spark和mapreduce框架的运行流程，找出两者的异同点。这样当我们需要搭建一个大数据运行框架的时候，可以对搭建的框架的用途进行详细的分析，从而选择适合的大数据处理的框架。这样可以达到事半功倍的效果。

研究意义在于理解大数据框架，搭建测试床，多个异构环境的建立，这样对于数学建模的方法也可以得到锻炼。

国内外研究现状

在过去几年，apache spark的采用以惊人的速度增加着，通常被作为mapreduce后继，可以支撑数千节点规模的集群部署。在内存中数据处理上，apachespark比mapreduce更加高效已经得到广泛认识；但是当数据量远超内存容量时，我们也听到了一些机构在spark使用上的困扰。因此，国内外spark社区一起，投入了大量的精力做spark稳定性、扩展性、性能等方面的提升。既然spark在gb或tb级别数据上运行良好，那么它在pb级数据上也应当同样如此。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

熟悉大数据处理框架的相关知识，包括spark和mapreduce的核心技术以及现今国内外的研究的热点问题；

学习linux系统的使用，这是实现平台模拟的关键，还包括一些实用工具的学习；

搭建两个测试环境，建立数据测试床以及异构环境的搭建，测试分析；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 实施方案、进度安排及预期效果

2015.12-2016.2，前期大量的阅读文献包括Spark和MapReduce架构的文章，熟悉Linux操作系统的操作，同时也要提高自己的编码能力；

2016.2-2016.3，中期搭建两个大数据框架，同时建立测试床，在完成整个实验平台的搭建之后，详细分析，建立异构环境分析比较两个框架；

2016.3-2016.5，后期论文的撰写，修改。

4. 参考文献

[1] d. hall. a scalable language, and a scalable framework.http://www.scala-blogs.org/2008/09/scalable-language-and- scalable.html.

[2] rajendra bose, james frew, lineage retrieval for scientific data processing: a survey, acmcomputing surveys (csur), v.37 n.1, p.1-28, march 2005 [doi10.1145/1057977.1057978].

[3] c. t. chu, s. k. kim, y. a. lin, y. yu, g. r. bradski, a. y. ng,and k. olukotun. map-reduce for machine learning on multicore. in nips 06,pages 281-288. mit press, 2006.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码