登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 理工学类 > 数学与应用数学 > 正文

Python机器学习应用-鸢尾花分类识别毕业论文

 2021-12-17 11:12  

论文总字数:14966字

摘 要

在植物学领域,自然花卉的分类识别是一项重要的基础工作,然而手工分类不但效率低而且消耗人的时间与精力。随着科学技术的发展,通过机器学习算法的支持,我们把花朵分类识别问题看作机器学习中的多类分类问题,自然花卉种类识别的相关算法提高了识别分类的效率与准确率,取得了不少研究性成果。

本研究将机器学习应用于鸢尾花品种分类,根据鸢尾花型的特点,采用CART算法识别鸢尾花品种,该方法利用训练数据集的基尼指数来构建分类模型。通过PCA降维处理后,提取了鸢尾花的2个新特征,然后训练出CART与随机森林模型,将其应用于鸢尾花分类识别,得到的精度分别为95.3%与97.3%。实验结果表明,本文的方法可对鸢尾花进行快速分类识别,并对其他花朵品种的分类有借鉴意义。

关键词:机器学习;决策树算法;鸢尾花分类;随机森林

Application on Machine Learning Based on Python - Classification and Recognition

of Iris

ABSTRACT

In the field of Botany, it is basic that the classification of natural flowers takes a lot of manpower. With the development of science and technology, we regard flower classification and recognition as a multi class classification problem in machine learning with the support of machine learning algorithm. The related algorithm of natural flower classification has achieved a lot of research results,with the progress in recognition and classification.

In this study ,we apply existing related algorithms to classify the species of Iris. According to the characteristics of the species of Iris, CART is used to identify the species of Iris. In this method, Gini index of training data set is used to build classification model. After dimension reduction by PCA, two new features of iris are extracted, and then cart and random forest model are trained, which are applied to classification and recognition of Iris. The accuracy is 95.3% and 97.3% . We find that the above method can be used for rapid classification and recognition of iris, and it can be used for reference to other flower varieties.

Key words: machine-learning;Classification and Regression Trees(CART);species classification of iris;random fores

目录

摘要 2

第一章 绪论 5

1.1研究背景及意义 5

1.2研究现状 5

1.3主要研究内容 7

1.4论文结构 7

第二章 机器学习基础理论及工具 8

2.1 Python与机器学习 8

2.2主成分分析法 8

2.3决策树 9

2.4 随机森林 11

2.5 本章小结 11

第三章 机器学习建模及实验 12

3.1概述 12

3.2 实验环境 13

3.3数据预处理 14

3.4 构建模型 17

3.5 实验结果分析 20

3.6 本章小结 22

第四章 总结 23

参考文献 24

致谢 26

附录 27

部分代码: 27

第一章 绪论

1.1研究背景及意义

在植物学领域,自然花卉的分类识别是一项重要的基础工作。随着科学技术的发展,我们对于花卉分类识别的工作效率与精度有了更高的要求,然而手工分类会消耗大量的人力与时间。为了适应花卉的数据庞大于复杂的特点,使用机器学习的方法处理花卉分类识别问题是近些年的热点。我们把花朵品种分类问题看作机器学习中的多类分类问题,应用相关多类分类算法,取得了不少研究性成果。目前已经有花卉识别商用软件,帮助我们解决生活中经常碰到各种花卉但不知道其名字的问题,但是相关应用在识别的准确率等方面还要进一步研究。

本文将基于Python构建解决鸢尾花分类问题的机器学习模型,关注两个核心问题:(1)选择合适的分类算法构建学习模型;(2)选择适当的特征构建特征集。

1.2研究现状

1.2.1多类分类方法研究现状

解决鸢尾花分类这种多类分类问题的常见算法有:支持向量机(SVM)算法、K最近邻(KNN)分类算法、决策树算法。

目前常见的SVM多类分类算法有:“一对多”方法、“一对一”方法、有向无环图方法。利用SVM算法解决鸢尾花分类识别这类多类分类问题时,SVM核函数及其参数的选择是关键步骤,决定着学习模型的性能。通常,为解决鸢尾花数据这类在原始空间中线性不可分的数据,可利用核函数在高维空间中找到一个能实现对数据进行分类超平面。

KNN算法处理多类分类问题时,本身需明确包括两方面:(1)最邻近样本数目k;(2)测量相似性的函数。在传统KNN算法中,为了确定测试样本的类别,需逐个计算测试样本和训练样本之间的相似度。除此之外,最近邻的k个样本的类别作为判断待分类样本的类别的依据。如果近邻数k过小,则降低分类精度;如果近邻数过大,则扩大噪声数据的影响,且因k个特征的作用相同,算法对噪声特征敏感。

以往的研究表明,SVM算法可解决小样本情况下的机器学习问题、受不平衡数据集的影响较小,但有时很难找得到合适的核函数以及对于核函数的高维映射解释力不强。KNN算法的k值在一定程度上影响了准确率,属性同权重也影响了准确率,在分类时,计算开销大、需要大的存储开销,样本不平衡时,预测偏差比较大。

1.2.2决策树算法研究现状

构建决策树模型分为三步:特征选择;生成学习模型;对模型进行剪枝处理。我们在选择特征时,通常有二种不同的依据,分别为:信息熵与基尼指数。ID3算法[21]是一种采用信息增益进行特征选择的方法,C4.5算法使用信息增益比来选择特征构造决策树。还有一种决策树算法为分类与回归树(CART)算法[14],对于分类问题,使用的是基尼指数最小化准则来进行特征选择,整体上与C4.5建树过程类似。

在常见的决策树生成算法中,ID3决策树分类算法, 该算法将海量数据进行分类预测, 取得了较好的效果,但不能有效处理具有连续属性的数据;C4.5决策树分类算法, 该算法有效改进了ID3决策树算法的缺陷, 但算法建树过程复杂; CART算法,该算法能处理具有连续属性的数据,处理连续属性的过程与C4.5算法类似,两者都能够完成对连续属性的离散化处理。

请支付后下载全文,论文总字数:14966字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图