登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 软件工程 > 正文

关联规则挖掘算法的研究及应用毕业论文

 2021-11-21 04:11  

论文总字数:20945字

摘 要

本文主要是对关联规则算法及其应用的研究。数据挖掘使从大量的数据中挖掘出可以用于实际应用的数据成为可能,关联规则分析是数据挖掘中的一个重要研究课题,它可以在各个领域应用。首先介绍了本文的研究背景及意义,以及交通事故的国内和国外的研究状况,说明了研究的整体思路以及内容结构;然后,介绍了关联规则的基础知识以及一些定义概念,并且简要描述了如何进行关联规则挖掘和衡量算法的性能的标准。

在关联规则中的一个重要算法是Apriori算法,本文主要研究了Apriori算法的实现,并且使用了Python编程语言进行编程实现,然后分析了Apriori算法的缺陷,同时对该算法进行优化改进,并且使用实例将未改进的Apriori算法和两种优化的Apriori算法进行了执行时间的对比。

关于关联规则挖掘算法的应用,主要通过对交通事故数据集的研究来对Apriori算法应用。首先,对于交通事故数据集进行数据预处理,利用Apriori算法得到影响交通事故发生的因素的置信度和关联规则;然后对实验结果进行比较分析,得到了治理交通安全的决策性支持,为道路交通的改善提供数据支持。

关键词关联规则;Apriori算法;数据挖掘;交通事故

Abstract

This paper focuses on the study of association rule algorithms and their application. Data mining makes it possible to mine data from a large amount of data that can be used for practical applications, and association rule analysis is an important research topic in data mining, which can be applied in a variety of fields. Firstly, the research background and significance of this paper, as well as the domestic and foreign research status of traffic accidents are introduced, the overall idea of the research and the content structure are explained; then, the basic knowledge of association rules and some definitional concepts are introduced, and the criteria for how to conduct association rule mining and measure the performance of the algorithm are briefly described.

An important algorithm in the association rule is the Apriori algorithm, and in this paper we study the implementation of the Apriori algorithm and use the Python programming language for the programming implementation, then we analyze the defects of the Apriori algorithm and make optimization improvements to the algorithm, and we compare the execution time of the unimproved Apriori algorithm with two optimized Apriori algorithms using examples.

Regarding the application of the association rule mining algorithm, the application of the Apriori algorithm is mainly done through the study of the traffic accident data set. First, data pre-processing was performed for the traffic accident data set, and the confidence and association rules of the factors affecting the occurrence of traffic accidents were obtained using the Apriori algorithm; then the experimental results were comparatively analyzed, and the decisional support for governing traffic safety was obtained to provide data support for improving road traffic.

Keywords: Association rules ; Apriori algorithm; data mining; traffic accident

目录

摘要 3

Abstract 3

1、绪论 5

1.1研究背景及意义 5

1.2国内外研究现状 5

1.3论文的主要内容及结构 6

2、关联规则挖掘理论知识 7

2.1引言 7

2.2关联规则挖掘理论 7

2.2.1关联规则挖掘算法相关定义 7

2.3关联规则挖掘算法 9

2.3.1关联规则的挖掘过程 9

2.3.2主要的关联规则挖掘算法 10

2.3.3关联规则挖掘算法的性能衡量 10

2.4小结 10

3、经典Apriori算法分析及改进 11

3.1Apriori算法实现过程步骤 11

3.2Apriori算法局限性分析 12

3.3Apriori算法的改进优化 13

3.3.1基于压缩的Apriori算法 13

3.3.2基于散列的Apriori算法 13

4、关联规则挖掘在交通事故方面的应用 13

4.1应用背景 13

4.2数据准备与预处理 14

4.3交通事故应用的关联规则挖掘分析与结果 15

4.3.1交通事故应用的关联规则挖掘结果分析 15

4.3.2交通事故应用的关联规则挖掘对算法的验证 16

4.4小结 17

5、总结与展望 17

参考文献 18

致谢 19

绪论

1.1研究背景及其意义

随着现代化技术和计算机的迅速发展,信息化时代已逐渐进入我们的视线,数字化和信息化时代面临许多的重大挑战,其中“数据过剩、信息爆炸”是尤为重大的挑战。在大量的信息和数据中隐藏着巨大的发展潜力,如何从爆炸的数据中得到需要的信息,并且能够通过发现未知的、有价值的事物来预测不同的行为活动、推测未来事件的发展趋势,并能够解决实际问题,这是我们需要研究和判断信息时代的发展过程。与此同时,对于数据的应用领域也在不断扩大,数据有了更高效的管理和采集,数据库的规模和范围也在不断扩大。学校、医院、政府机关、商业购物等领域都产生了大规模的数据库,并且随着各领域的发展,通过互联网进行信息数据的交换,人们将面临着覆盖大部分领域的信息数据的海洋。面对如此庞大的数据库,要想从中获取隐藏的、有用的数据信息,无异于大海捞针。随着数据库的不断发展扩大,传统的简单数据录入、查询和统计等操作很难从数据库中的隐含数据中获取有用的信息。在这种情形下,数据挖掘技术产生了,它是为了从庞大的数据库中挖掘出对实际应用领域有用的数据。

数据挖掘技术是为了从大量的数据中挖掘出对实际应用领域有用的数据信息。关联规则挖掘解释了两个事物之间的关系,它可以揭示出数据中项集之间的潜在关联或依赖关系,从而利用现有的数据信息来对未来事件的发展进行预测。它可以为企业带来巨大的竞争优势,也可以为社会创造更大的价值。目前针对关联规则挖掘技术的应用得到了各行各业的广泛关注,其中在银行、市场、税务等方面的应用较为普遍,现在关联规则挖掘也开始广泛应用于其他领域,例如对于旅游业,可以进行基于游客行为偏好的智能化旅游推荐;对于公安系统,警方可以通过分析线索之间的关联,找到破解案件的隐含信息;对于医学,医学研究者通过寻找大量的现有的疾病病例,从而从中找到某种疾病病历潜藏的共性,能够为治愈该疾病提供潜在帮助。同时,关联规则挖掘具有巨大的发展空间,关于如何挖掘出更有用的数据信息,如何根据不同的需求挖掘出更好的数据信息,如何研究出更为高效的关联规则挖掘算法,这些都是需要我们进一步进行研究的。

1.2国内外研究现状

交通管理的概念最早起源于英国,1868年在伦敦国会大厦门前的道路上安装了一盏红色煤气灯和一盏绿色煤气灯,红色表示禁止通过,绿色表示允许通行。20世纪80年代,英国将道路安全纳入了城市道路规划,建立了交通安全预防体系[1]。经过多年的实践观察,这一措施的有效性得到了验证。因为美国经济发达,机动车数量庞大,道路复杂,导致交通事故发生的频率较高,所以相关人员广泛的研究了交通事故发生率与驾驶时间是否相关,其中发现开车10个小时,休息8个小时,既能保证安全,又能保证驾驶时间。研究发现,传统的统计方法在确定事故率方面存在较大的误差,来自丹麦和英国的专家对道路安全进行了计算机仿真模拟,通过分析得到,车流量越大、车速越快,血液中酒精含量越高,事故率越大。很多西方发达国家都存在道路安全问题,政府主要是通过限制车速、改善道路建设、严禁酒后驾驶等方式来预防交通事故的发生。由于社会经济的不断发展,美国、日本等第一世界国家在智能交通体系的研究走在了世界前列,并且逐渐形成了相对完整的体系,取得了许多实践性成果[2]。日本的智能交通系统包括交通信息导航、自动电子收费、危险信号预警、辅助驾驶、行人引导系统、公交辅助系统、车辆紧急救援系统等等[3]。

鉴于我国交通拥堵,道路交通事故发生率高,传统的事故统计方法已不能满足管理我国交通安全的诸多危害性的要求。而且由于与西方国家的社会经济相比,我国的社会经济发展相对比较晚,所以在交通领域的研究也起步比较晚。近些年来,许多相关人员已经开始将数据挖掘技术引入到交通管理系统中,这很大程度上推动了我国交通安全水平的提高。在《基于数据挖掘技术的智能交通信息分析与决策研究》中,作者针对国内外当前在交通信息处理和决策支持方面的不足,研究出了较为完善的模型[4]。王亚琴深入研究了当前国内数据挖掘技术在智能交通领域的应用空间,致力于挖掘道路交通流空间分布的情景[5]。作者孙亚等人对交通流信息进行挖掘,在挖掘步骤的基础上提出了模式识别算法,从海量数据中提取可利用的知识[6]。针对当前的交通状况和未来的发展趋势,刘莉论述了在智能交通系统实施的背景下,对交通状况的预测和管理有赖于交通信息的获取[7]。

1.3论文的主要内容及结构

数据挖掘是将传统的对数据进行分析的方法与对大量数据进行处理的算法结合起来,它的一个重要研究内容就是关联规则挖掘。本文主要是对关联规则挖掘算法及其应用的研究。基于关联规则挖掘的研究及其应用,首先对Apriori算法进行了研究,并且通过对Apriori算法的缺陷分析后,优化了Apriori算法,对其应用领域的相关研究,主要是英国交通事故的数据集进行处理,通过运用该算法,得到了造成交通事故发生的因素的置信度和关联规则,获得了决策交通安全治理的相关支持,并且,还通过系统的数据实验证明优化改进的Apriori算法对于关联规则挖掘的运行性能上有了显著的提高。本文内容主要分为五章进行阐述,每个章节结构如下:

请支付后下载全文,论文总字数:20945字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图