登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 软件工程 > 正文

基于Storm的分布式流数据聚类算法及其实现开题报告

 2021-03-24 11:03  

1. 研究目的与意义(文献综述)

作为数据库领域的一个分支,数据流处理技术一直属于研究热点。流式大数据作为大数据的一种重要形态,在商业智能、市场营销和公共服务等诸多领域有着广泛的应用前景,并已在金融银行业、互联网、物联网等场景的应用中取得了显著的成效。随着大数据时代的到来,面向大数据的数据流处理技术不断完善和革新,新的流处理模型被不断提出。

早期的数据流处理系统是一种集中式的架构,而集中式数据流处理系统的缺点在于,一旦部署查询的节点出现资源饱和,最终结果的输出时间就会延长。针对这一问题,分布式数据流处理系统被提出,但一个节点的负载高峰仍极大地影响最终输出时间。为进一步降低负载突然变化产生的影响,并行分布式数据流处理系统诞生了。storm是个并行分布式的数据流处理系统,其设计重点放在分布式、并行和故障容错上,至于元组的处理则由用户定义。适用于无需先存储,可以直接进行数据计算,对实时性要求很严格,但数据的精确度要求稍微宽松的应用场景。

为提高流数据聚类效率,可基于经典流聚类算法knn的思想和storm的计算架构,采用阿里数据集,来设计了一种分布式实时流聚类算法。既可以研究提高聚类精度的方法,又可以研究提高聚类算法计算效率的方法,并基于实时流计算平台storm对聚类算法knn进行了实现。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

一、基本内容与目标

1. 了解目前分布式数据流系统的发展现状和基本原理;

2. 了解storm平台的设计原理、详细流程和使用方法;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1~3周 查阅文献;分析题目研究现状,学习基本理论;

第4周 阅读文献、撰写开题报告,英文文献翻译;

第5周 了解面向大数据的流处理技术现状以及各技术的特点;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]孙大为,张广艳,郑纬民. 大数据流式计算:关键技术及系统实例[j]. 软件学报,2014,04:839-862.

[2] 南海京. 一种基于storm的交通流数据实时处理系统设计与实现[d]. 北方工业大学, 2015.

[3]崔星灿,禹晓辉,刘洋,吕朝阳. 分布式流处理技术综述[j]. 计算机研究与发展,2015,02:318-332.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图