登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 计算机科学与技术 > 正文

基于F-measure系数的聚类质量衡量系统设计与实现

 2023-04-19 05:04  

论文总字数:13004字

摘 要

随着计算机技术的发展,人们在生产和生活中积累了大量的数据,如何从这些数据中提取对人们有价值的信息成为迫切需要解决的问题。数据挖掘的出现为这一问题的解决提供了帮助,聚类作为数据挖掘的基础功能,直接影响挖掘结果的有效与否,因此不同聚类算法聚类质量的度量就很重要,本课题设计基于F-measure的聚类质量衡量系统。

论文主要工作:

(1)介绍了当前应用较为广泛的聚类算法,指出了它们各自的优缺点,同时介绍了几种常用的聚类质量衡量算法,重点介绍了F-measure方法。

(2)用Matlab语言实现了F-measure方法,对其中出现的问题进行了处理。

(3)用Matlab设计了聚类质量衡量系统的界面,对异常输入进行了处理,通过实验验证了本系统的有效性,最后对代码进行了解释。

关键词:聚类质量衡量,F-measure方法,聚类分析

Abstract

As the development of the computer technique, people accumulated plenty of data in the process of production and life. How to extract valuable information from these data becomes the urgent problem to be addressed. The appearance of data mining provides some help to solve the problem. As a fundamental function of data mining ,clustering analysis can directly affect the effectiveness of the result. Thus it"s of great importance to measure the quality of various clustering algorithm. Our topic designs a system measuring clustering result based on F-measure method.

Main task in this paper:

(1)It introduces widely used clustering algorithm ,pointing out there pros and cons. Meanwhile it introduces the frequently-used algorithms on clustering quality evaluation and pays much importance to the F-measure method.

(2)It implements F-measure method on Matlab language and solves the problem occurred.

(3)It designs the interface of the clustering quality evaluation system ,addresses the abnormal input and proves the effectiveness of our system .Finally it gives some explanation on the codes.

Keywords: clustering quality evaluation; F-measure method; clustering analysis

目录

摘要 1

Abstract 2

目录 3

第一章 绪论 5

1.1 研究背景 5

1.2 主要研发内容 5

1.3 本文结构安排 5

第二章 聚类质量衡量系统相关问题研究 6

2.1 聚类算法概述 6

2.1.1 层次聚类算法 6

2.1.2 分割聚类算法 6

2.1.3 机器学习中的聚类算法 7

2.2 聚类质量衡量系统概述 7

2.2.1 F-measure聚类质量衡量算法 7

2.2.2 Rand Index度量和Jaccard系数 8

2.2.3 Cophenetic 相关系数 9

2.3 本章小结 9

第三章 聚类质量衡量算法设计 10

3.1 聚类接口设计 10

3.2 聚类函数设计 10

3.2.1 算法描述 10

3.2.2 问题处理 11

3.3 本章小结 11

第四章 聚类质量衡量系统界面设计与实现 12

4.1 界面设计 12

4.1.1 打开聚类样本 12

4.1.2 聚类结果展示 13

4.1.3 聚类质量衡量结果展示 14

4.1.4 界面设计代码解释 16

4.1.5 打开当前聚类结果的代码解释 16

4.2 有效性分析 17

4.3 本章小结 19

第五章 总结与展望 20

5.1 工作总结 20

5.2 未来展望 20

致谢 21

参考文献 22

绪论

研究背景

随着计算机技术的发展,人们在生产和生活中积累了大量的数据,如何从这些数据中提取对人们有价值的信息成为迫切需要解决的问题。数据挖掘的出现为这一问题的解决提供了帮助,它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。聚类分析是数据挖掘中的一个重要研究领域。它在图像处理、入侵检测和生物信息学等方面有着极为重要的应用。数据挖掘是从大量数据中提取出可信、 新颖、 有效并能被人理解的模式的高级处理过程。 其目标是从数据库中发现隐含的、有意义的知识。聚类分析作为一个独立的工具来获得数据分布的情况,是数据挖掘的一个重要研究分支。

聚类作为数据挖掘的基础功能,直接影响后续挖掘的效果。不同聚类算法对数据集进行聚类可能有不同的效果,因此聚类算法有效性的度量在现实世界有着重要的实用价值。针对该问题,本文基于F-measure设计开发聚类质量衡量系统,实现对不同聚类算法聚类质量的度量。

F-measure方法简单易于实现,因此得到较为广泛的应用,本文则为该算法设计了一个简单的软件,用某聚类算法与标准聚类算法的相似性来估计该聚类算法的好坏。

主要研发内容

本文的主要研究内容是:研究当前流行的F-measure聚类质量衡量算法以及设计一个软件实现该算法。本文需要设计出界面简单可靠,显示简洁明了的系统,具体内容如下。

(1)用Matlab语言实现F-measure方法,解决编程中可能出现的问题。

剩余内容已隐藏,请支付后下载全文,论文总字数:13004字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图