1. 研究目的与意义（文献综述）

数据挖掘是一个知识发现的过程，通过一定的算法获取隐藏于数据背后的规律。在互联网行业盛行的今天，大公司积累的数据量巨大，例如国内百度已经达到数十 pb 的规模。单机串行挖掘已经逐渐退出企业级应用的舞台，海量数据挖掘系统成为了新的发展趋势，这样才能为企业提供更好的决策支持。

在国外，angoss 公司开发了一款数据挖掘软件名为 knowledge studio，其特点在于快速获取到频繁集合并可以引入外部数据挖掘模型。由于响应时间短，模型便于理解，很快得到市场认可。ibm 公司开发了新一代数据挖掘软件名为 ibm intelligent miner，其主要优点为完整展现数据挖掘中的数据选择、格式转化、模型挖掘以及结果展示的过程。spss 作为最成熟的统计软件之一，深受到数据分析师和研究学者的偏爱，其后期融入的数据挖掘工具 clementine，由于整合了常见的智能算法，操作性和可视性也较高，因此收到了业界的一致好评。

在国内，阿里巴巴集团率先采用 hadoop 框架处理电商交易的后台数据

。百度则使用 hadoop 框架离线处理网页访问日志以及对搜索日志进行数据挖掘。中科院计算所利用开源 hadoop 框架，独立自主开发了一个名为 pdminer 的数据挖掘平台。它是国内最早基于云计算模式的数据挖掘系统，并与移动公司进行技术合作，应用于实际项目，成功地挖掘了高达 tb 级别的业务数据。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

2.1研究目标
课题面向web数据挖掘领域，为了应对海量的web数据针，深入研究传统数据挖掘算法apriori算法，对hadoop平台的关键技术——mapreduce并行化的编程模型进行分析，探寻apriori算法的改进和并行化策略，预计实现以下几个目标：

（1）优化经典的传统apriori算法，改进运算过程中单机处理数据集、数据库频繁 io，候选集合生成繁多的问题，提升算法运行效率。

（2）深入学习mapreduce分布式并行运算技术，建立基于mapreduce分布式优化的apriori并行算法。
2.2研究内容

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

3月1日-3月15日

完成开题报告和翻译

阅读15篇相关的论文，并写好每一篇论文的心得体会和摘要

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

[1] 基于hadoop的关联规则挖掘算法分析_黄剑

[2] 基于aproiri算法的频繁项集挖掘优化方法_吴学雁

[3] hadoop平台上apriori算法并行化研究与实现_郝晓飞

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码

Aproiri并行算法的应用研究开题报告

1. 研究目的与意义（文献综述）

2. 研究的基本内容与方案

3. 研究计划与安排

4. 参考文献（12篇以上）

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

Aproiri并行算法的应用研究开题报告

1. 研究目的与意义（文献综述）

2. 研究的基本内容与方案

3. 研究计划与安排

4. 参考文献（12篇以上）

您可能感兴趣的文章

最新文档

推荐栏目