登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 计算机科学与技术 > 正文

基于机器学习的位置大数据特征提取毕业论文

 2022-01-27 03:01  

论文总字数:24159字

摘 要

伴随无线通信网络和全球定位系统(GPS)技术的迅猛发展,海量GPS数据的收集和传输成为可能,大量的历史移动轨迹能够被持久化保存,形成了时空轨迹数据。这些数据详细刻画了个体或群体的时空动态性,蕴含着活动对象的行为信息,对交通导航、城市规划、车辆监控等应用具有重要的价值。通过对轨迹数据的处理分析,能够有效地提取轨迹数据价值。

本文主要运用机器学习的方法对现有轨迹数据根据出行方式进行分类,以达到运动特征提取的目的。课题所采用的轨迹数据集产生于微软亚洲研究院的Geolife项目,这个数据集包含了182名用户超过三年的轨迹记录。具体研究工作如下:

首先,广泛了解现有轨迹数据处理技术,深入理解经典的机器学习分类算法原理、性能以及相关评价指标。其次,选择随机森林、逻辑回归、SVM、KNN四种分类算法对轨迹数据进行分类模型训练,并以得出的模型进行轨迹特征预测,对比实际轨迹特征对四种分类算法的分类效果进行横向比较,结果表明随机森林算法对于所用数据集的分类效果最优。最后,对kNN算法进行改进,实现了分类性能的提升,并对现有随机森林算法进行参数调整,以达到更加准确的分类结果。

关键词:轨迹数据 机器学习 随机森林 性能分析

Feature Extraction of Position Data based on Machine Learning

Abstract

The rapid development of wireless communication networks and Global Positioning System (GPS) technologies enable the collection and transmission of massive GPS data. Persistent storage of massive data forms spatio-temporal trajectory data, which describe in detail the spatio-temporal dynamics of individuals or groups, and contain the behavioral information of active objects. It is of great importance for emerging applications such as traffic navigation, urban planning, and vehicle monitoring. By processing and analyzing the trajectory data, the value of the trajectory data can be effectively extracted.

The objective of this thesis is to use the machine learning methodology to classify the existing trajectory data by the travel mode to extract motion feature. The trajectory data set used in this work was collected in (Microsoft Research Asia) Geolife project by 182 users in a period of over three years. The specific research work is as follows:

This work begins with extensive understanding of existing processing technology for trajectory data and the principles, performance, and related evaluation indicators of classical machine learning classification algorithms. Secondly, four kinds of classification algorithms including random forest, logistic regression, SVM and kNN are selected to train the trajectory data. The trajectory feature is predicted by the obtained model, and compared with the actual trajectory features to compare the classification effects of the five classification algorithms. It is shown that the random forest algorithm has the best classification effect for the data set used. Finally, the kNN algorithm is improved to achieve the improvement of the classification performance, and the existing random forest algorithm is adjusted to achieve more accurate classification results.

Keywords: trajectory data; machine learning; random forest; performance analysis

目录

摘 要 I

Abstract II

第一章 绪论 1

1.1课题背景及意义 1

1.2国内外研究现状 2

1.3课题研究内容 3

1.4论文结构 4

第二章 相关工作 5

2.1轨迹数据处理技术 5

2.1.1数据清洗 5

2.1.2轨迹分段 6

2.1.3轨迹压缩 6

2.2分类算法 7

2.2.1随机森林 7

2.2.2逻辑回归 8

2.2.3支持向量机 9

2.2.4 kNN算法 10

2.3模型评估 11

2.3.1 混淆矩阵 12

2.3.2 准确率 13

2.3.3 精确率和召回率 13

2.3.4 F1值 14

2.4本章小结 15

第三章 轨迹分类模型建立与分析 16

3.1 相关概念 16

3.1.1大圆距离 16

3.1.2数据清洗 17

3.2轨迹数据预处理 18

3.2.1计算对象运动属性值 18

3.2.2轨迹数据清洗 19

3.3轨迹数据分类算法 19

3.3.1随机森林算法 19

3.3.2 kNN算法 20

3.4 模型评估 22

3.5本章小结 25

第四章 分类算法改进与参数调整 26

4.1数据分析 26

4.2 kNN算法的改进 27

4.2.1卡方距离 27

4.2.2 基于加权卡方距离的kNN算法 27

4.2.3 算法改进后的结果分析 28

4.3随机森林参数调整 29

4.3.1 数据简化处理 29

4.3.1 参数调整 30

4.4本章小结 31

第五章 总结与展望 32

5.1本文主要工作 32

5.2进一步的展望 33

参考文献 34

致谢 36

第一章 绪论

1.1课题背景及意义

空间轨迹是由地理空间中的运动物体产生的轨迹,通常由一系列时间顺序的点表示,例如p1 →p2 → · · · → pn,其中每个点包括地理空间坐标集和时间戳,如p = (x, y, t)。

位置采集技术的进步产生了无数的空间轨迹,代表了各种移动物体(如人,车辆和动物)的移动性。这些轨迹为我们提供了前所未有的信息来了解移动物体和位置,促进了基于位置的社交网络[1],智能交通系统和城市计算领域的广泛应用[2]。这些应用的流行又要求对于新的计算技术的深入研究,从而从大量轨迹数据中发现有价值的信息。在这种情况下,轨迹数据挖掘已经成为越来越重要的研究课题,引起了计算机科学,社会学和地理学等众多领域的关注。

请支付后下载全文,论文总字数:24159字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图