登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 计算机科学与技术 > 正文

Aproiri并行算法的应用研究开题报告

 2020-04-26 11:04  

1. 研究目的与意义(文献综述)

数据挖掘是一个知识发现的过程,通过一定的算法获取隐藏于数据背后的规律。在互联网行业盛行的今天,大公司积累的数据量巨大,例如国内百度已经达到数十 pb 的规模。单机串行挖掘已经逐渐退出企业级应用的舞台,海量数据挖掘系统成为了新的发展趋势,这样才能为企业提供更好的决策支持。

在国外,angoss 公司开发了一款数据挖掘软件名为 knowledge studio,其特点在于快速获取到频繁集合并可以引入外部数据挖掘模型。由于响应时间短,模型便于理解,很快得到市场认可。ibm 公司开发了新一代数据挖掘软件名为 ibm intelligent miner,其主要优点为完整展现数据挖掘中的数据选择、格式转化、模型挖掘以及结果展示的过程。spss 作为最成熟的统计软件之一,深受到数据分析师和研究学者的偏爱,其后期融入的数据挖掘工具 clementine,由于整合了常见的智能算法,操作性和可视性也较高,因此收到了业界的一致好评。

在国内,阿里巴巴集团率先采用 hadoop 框架处理电商交易的后台数据

。百度则使用 hadoop 框架离线处理网页访问日志以及对搜索日志进行数据挖掘。中科院计算所利用开源 hadoop 框架,独立自主开发了一个名为 pdminer 的数据挖掘平台。它是国内最早基于云计算模式的数据挖掘系统,并与移动公司进行技术合作,应用于实际项目,成功地挖掘了高达 tb 级别的业务数据。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2.1研究目标
课题面向web数据挖掘领域,为了应对海量的web数据针,深入研究传统数据挖掘算法apriori算法,对hadoop平台的关键技术——mapreduce并行化的编程模型进行分析,探寻apriori算法的改进和并行化策略,预计实现以下几个目标:

(1)优化经典的传统apriori算法,改进运算过程中单机处理数据集、数据库频繁 io,候选集合生成繁多的问题,提升算法运行效率。

(2)深入学习mapreduce分布式并行运算技术,建立基于mapreduce分布式优化的apriori并行算法。
2.2研究内容

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

3月1日-3月15日

完成开题报告和翻译

阅读15篇相关的论文,并写好每一篇论文的心得体会和摘要

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1] 基于hadoop的关联规则挖掘算法分析_黄剑

[2] 基于aproiri算法的频繁项集挖掘优化方法_吴学雁

[3] hadoop平台上apriori算法并行化研究与实现_郝晓飞

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图