基于主成分分析的决策树剪枝算法开题报告

2022-01-06 21:02:52

全文总字数：6005字

1. 研究目的与意义及国内外研究现状

随着当今社会人工智能领域的发展，作为人工智能领域基础的机器学习(machine learning, ml)也得到了越来越多的关注。机器学习是一门多领域交叉学科，涉及了概率论、数据分析等多门数学学科，它是一门用来研究计算机怎样模拟或实现人类的学习行为以使计算机获取新的知识或技能的学科。

决策树是机器学习这门学科中使用的最广泛而基础的算法之一，它用来从给定训练数据集学得一个模型用以对新实例进行分类，恰似人类在面临决策时的一种很自然的处理机制^[1]。例如，我们要在没有足够经验的条件评价一个西瓜的好坏，而影响西瓜好坏的因素有很多，包括：色泽、根蒂、敲声、纹理、脐部、触感、密度、含糖率等等，每一项属性都对一个瓜是好是坏产生的影响，这种情况下，我们要想能够较为准确的判断出所给出瓜的好坏问题，必须进行大量的采样，即使所列出的几种属性每种只有两个取值，为了能够包含所有的情况，我们至少需要进行次有效采样，采样次数极大，严重影响了效率并造成了极大的浪费；而决策树算法很好的解决了这个问题，决策树可以在所给定的训练数据集中数据较少的情况下，根据各属性的重要性得出一个树，树的叶节点对应于决策结果，其他每个节点对应一个属性测试，从根节点到每个叶节点的路径对应了一个判定测试序列^[1]，从所得的树中可以直观且较为准确的判定所给样本的好坏。

决策树算法主要分为三个主要部分。第一是划分，即如何选择最优划分属性，构造出决策树并使决策树的分支节点所包含的样本尽可能属于同一类别，通常我们使用的是信息增益、增益率、基尼指数等来进行度量；第二是剪枝处理，是防止将训练样本拟合的“太好”以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合，通过主动去掉一些分支来降低过拟合风险，通常使用的是预剪枝与后剪枝两种方法；第三是连续值与缺失值的处理，用来处理连续属性（如上所说的含糖率）与属性缺失的问题。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

第一章绪论

1.介绍决策树算法以及剪枝算法研究的意义及研究背景，它们是机器学习中非常基础且重要的算法，这两种算法都要放在人工智能领域的快速发展的现状来进行分析

2.决策树算法与剪枝算法的产生过程

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 实施方案、进度安排及预期效果

大量阅读国内国外有关决策树剪枝算法的论文，从中学习了解他们的思想，利用本科时所学的专业课知识，提出自己有关剪枝的新算法，并从理论上加以证明

在三月份对学年论文进行完善并加强对自己研究方向的了解，四月份时开始大量阅读外文论文，分析并结合自己的专业课知识，提出符合自己专业方向的决策树剪枝算法并尽可能用matlab进行验证，五月份时对论文进行最后完善

提出符合自己专业方向并且尽可能简单的决策树剪枝算法，从理论上证明他的可行性，并尽可能利用matlab对其复杂度进行比较

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

[1] 周志华. 机器学习. 清华大学出版社. 2016. 73~74

[2] mingers. “an empirical comparison ofselection measures for decision-tree induction”. machinelearning,1989,3(4):319~342

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码