spark和flink计算框架应用对比开题报告

2022-01-09 22:00:28

全文总字数：2616字

1. 研究目的与意义及国内外研究现状

世界正在快速改变，今天的it已经在向dt（数字科技）时代快速跨越。it科技和数据科技不仅仅是不同的技术，而是人们思考方式的不同，人们对待这个世界的方式不同。dt时代是一个数据更充分流动的时代，会更加透明，利他，更注重责任和体验。

在未来，经济将不再是石油驱动，而是数据驱动。dt时代的工具突出表现为“云计算大数据”， spark和flink是当前大数据最流行的计算框架，spark是基于内存计算的大数据分布式计算框架，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将spark部署在大量廉价硬件之上，形成集群。apache flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个flink运行时（flink runtime），提供支持流处理和批处理两种类型应用的功能。

基于spark和flink特性，研究spark和flink在不同实验环境下性能表现，对比分析两种计算框架的优缺点，对实际应用两种框架解决具体实际问题有重大意义，同时也为针对具体问题，选择合适的计算框架提供指导，更有利于充分发挥spark与flink的性能，实现问题的最优解。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

本次研究主要通过实验的方式在Spark和Flink框架上实现应用算例，根据实验结果结合参考文献，主要从性能对比、流式计算比较、SQL支持、迭代进程、内存管理、语言实现、API、与外部数据源的整合几个方面来研究和分析Spark与Flink计算框架。

3. 实施方案、进度安排及预期效果

实施方案：本次研究主要以实验的方式进行，通过在linux系统上分别实现spark和flink的部署，并以伪分布式的方式进行算例实现，对比分析实验结果，并根据实验结果结合参考资料撰写论文。

进度安排：

1.准备阶段：

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

[1] 黎文阳. 大数据处理模型apache spark研究［j］. 现代计算机（普及版），2015,0(3)：1-6

[2] 王家林，孔祥瑞.spark零基础实战[m].北京：化学工业出版社，2016.10

[3] 于禁，向海.spark核心技术与高级应用[m].北京：机械工业出版社，2015.12

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码