登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 理工学类 > 自动化 > 正文

基于决策树的鸢尾花分类开题报告

 2022-01-14 08:01  

全文总字数:3628字

1. 研究目的与意义及国内外研究现状

数据挖掘是信息技术自然演化的结果,是指从大量数据中抽取挖掘出来隐含未知的、有价值的模式或规律等知识的复杂过程。在这一过程中,对数据的分类是数据挖掘领域研究的重要课题。目前用于分类的方法有很多种,如决策树方法,关联规则、贝叶斯网络、遗传算法、神经网络、粗糙集方法等等。决策树分类方法以其算法的基础理论清晰、易被人们理解以及容易转换成分类规则等优点而被广泛研究与应用。

决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则,在机器学习、数据挖掘、智能控制等人工智能领域有着相当重要的理论意义与实用价值。

国内外研究现状

j.r.quinlan在上世纪80年代提出了id3(iterative dichotomiser 3)算法,该算法奠定了日后决策树算法发展的基础。这种算法的提出得益于,香农(shannon c e.)在信息论中提出的信息熵的概念,其表示离散随机事件出现的概率。id3算法最核心的思想,就是以信息增益作为分裂属性选取的依据,信息增益表示某个属性能够为分类系统带来多少“信息”,信息越多,则通过该属性对数据集的分类更为准确。id3算法适用于大多数据集的分类问题,分类速度和测试速度都比较快。但该算法在设计之初未考虑如何处理连续属性、属性缺失以及噪声等问题。之后,随后j.r.quinlan针对id3算法的不足设计了c4.5算法,引入信息增益率的概念。它克服了id3算法无法处理属性缺失和连续属性的问题,并且引入了优化决策树的剪枝方法,使算法更高效,适用性更强。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

1、首先要了解鸢尾花分类的基本原理即决策树的相关内容,再根据给定数据分析数据的分布规律。

其中iris数据集是常用的分类实验数据集,也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(setosa,versicolour,virginica)三个种类中的哪一类。

通常情况下,决策树利用损失函数最小的原则建立模型,然后再利用该模型进行预测。决策树学习通常包含三个阶段:特征选择、树的生成,树的修剪。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 实施方案、进度安排及预期效果

实施方案:

一、首先要了解鸢尾花分类的基本原理即决策树的相关内容,再根据给定数据分析数据的分布规律;

二、根据数据的分布选择合适的决策树;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1]张棪,曹健,面向大数据分析的决策树算法[j].计算机科学,2016,0(s1):374-379 383.

[2]李荣雨,程磊,基于svm最优决策面的决策树构造[j].电子测量与仪器学报,2016,30(3):342-351.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图