相关性分析及其在特征选择中的应用研究开题报告

1. 研究目的与意义及国内外研究现状

互联网的迅速发展，给世界带来革命的同时，也带来了一些新的问题，那就是庞大的数据。如何处理数据，将数据转变为资源，成为当今世界迫切需要解决的问题之一。随着大数据相关技术的发展，数据挖掘成为了当今世界研究的一大热题。“冰山只露出它的一角”，对于大数据亦是如此，信息的传播速度之快以及传播的手段之多，对数据挖掘的工作提出了挑战。得益于各类数据挖掘相关的算法，我们得以对这些数据进行分析利用，然而这个过程中，有效的数据质量，优秀的分析引擎，合适的分析算法，对未来合理的预测，以及数据结果的可视化缺一不可。

数据挖掘的目的就是从现有的繁杂的，不确定的一系列数据中，通过一些特定的算法，来挖掘到一些有用的信息，并通过这些信息，了解到数据背后的关联和意义，从而判定或预测即将要发生的事情。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

本文主要通过研究一个较为简单的，经典的数据挖掘案例，包括数据的预处理，数据的相关性挖掘以及多种算法的使用，来探索鸢尾花数据集之中的相关性，以及特征值的选择。其中我们通过均值和方差来研究这组数据的集中和分散程度，通过相关系数计算方法来计算其相关性，去除其中的重复项造成的影响。

之后采用kmeans来对数据进行聚类分析，得出数据的分类结果，后可用贝叶斯分类器对要预测的数据做出预测。最后综合上述，多组特征数据，以及组内的多个特征值，通过决策树算法，训练决策树，使得计算机在非人工干预的情况下对数据进行分类。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 实施方案、进度安排及预期效果

实施方案：

本文从以下几个方面对基于该数据集的特征和相关性进行分析：（1）数据的收集（2）对数据进行相关的预处理（3）数据分析（4）建立模型（5）测试数据。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

（1）周志华《机器学习》，清华大学出版社, 2016年1月.

（2）martin odersky, lex spoon, bill venners《scala 编程》.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码