登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 地理科学类 > 地理信息科学 > 正文

随机森林回归模型的建立及其在流域面积预测中的应用毕业论文

 2020-02-28 11:02  

摘 要

本文使用R语言对影响武汉市市内范围长江、汉江流域过水面积变化的潜在因素进行了分析讨论,并使用随机森林算法建立了可以用于预测流域过水面积的回归模型,通过与多元线性回归模型和支持向量回归模型的比较验证,探讨了随机森林算法在流域过水面积预测问题中的可行性。

研究结果表明,影响武汉市市内主要流域长江、汉江过水面积年际变化的主要因素有年地表水资源量、总水资源量、年降水量和水域面积等。通过模型分析,得到随机森林回归模型的拟合优度为94.38%,结合从遥感影像提取出的原始面积数据,计算出模型拟合的平均绝对误差为2.181km2。与多元线性回归模型(92.74%,2.214 km2)和支持向量回归模型(90.49%,2.985 km2)相比,拟合精度更高,解释能力更强,证明随机森林算法在流域过水面积预测问题中具备良好的适应性。

关键词:随机森林回归(RFR);流域过水面积;多元线性回归(MLR);支持向量回归(SVR);R语言

Abstract

This paper first use the R language to analyze and discuss the potential factors affecting the changes in watershed area of the Yangtze River and Han River that flow through Wuhan. Then use the random forest algorithm to establish a regression model that can be used to predict the watershed area, combined with the comparison and evaluation with multiple linear regression model and support vector regression model to explore the feasibility of the random forest algorithm in predicting watershed area.

The research results show that the main factors affecting the annual watershed area changes of the Yangtze River and Han River that flow through Wuhan include annual surface water resources, total water resources, annual precipitation and water area, etc. Through model analysis, the R2 of the RFR model is 94.38%. Combining the original area data extracted from remote sensing images, the MAE of model fitting is calculated to be 2.181 km2. Compared with MLR model (92.74%, 2.214 km2) and SVR model (90.49%, 2.985 km2), the fitting accuracy of RFR is higher and its explanatory ability is stronger, which proves that random forest algorithm has good adaptability in the watershed area prediction problem.

Key Words:Random Forest Regression; Watershed Area; Multiple Linear Regression; Support Vector Regression; R Language

目 录

第1章 绪论 1

1.1 课题背景及意义 1

1.2 国内外研究现状 1

1.3 本文研究方法及主要内容 2

1.3.1 研究内容 2

1.3.2 研究方法 3

第2章 资料收集与数据分析 4

2.1 研究区域概况 4

2.1.1 地理概况 4

2.1.2 气候概况 4

2.1.3 社会经济概况 4

2.1.4 水资源概况 4

2.2 基础资料收集与分析 5

2.2.1 遥感影像数据收集 5

2.2.2 流域过水面积数据收集 5

2.3 流域影响因素数据收集与分析 5

2.3.1 自然因素数据统计 6

2.3.2 土地利用情况分析 6

2.3.3 社会经济数据统计 7

2.3.4 水资源利用情况调查 8

第3章 流域过水面积预测模型构建 10

3.1 R语言简介 10

3.2 随机森林回归算法简介 10

3.2.1 决策树算法简介 10

3.2.2 随机森林算法简介 11

3.2.3 随机森林算法原理 12

3.2.4 随机森林算法在分类与回归中的应用 12

3.3 流域过水面积影响因素分析 12

3.3.1 数据正态性检验 13

3.3.2 土地利用数据筛选 13

3.3.3 影响因素分析 15

3.4 随机森林回归流域预测模型建立 18

3.4.1 重要参数mtry和ntree确定 18

3.4.2 随机森林回归模型建立 19

3.4.3 模型拟合结果 20

第4章 案例分析及方法对比 21

4.1 多元线性回归流域预测模型构建 21

4.1.1 因素相关性分析 21

4.1.2 因素多重共线性检查 22

4.1.3 多元线性回归模型建立 22

4.2 支持向量回归流域预测模型构建 25

4.2.1 支持向量机算法简介 25

4.2.2 回归类型及核函数选择 25

4.2.3 支持向量回归模型建立 26

4.3 模型对比分析 26

4.3.1 模型精度验证 26

4.3.2 模型评价对比 28

第5章 结论与不足 31

5.1 结论 31

5.2 不足与建议 31

参考文献 32

附 录 35

附录A 土地利用面积数据统计表 35

附录B R语言建模分析代码说明 42

致 谢 45

第1章 绪论

1.1 课题背景及意义

水是人类生命中不可缺少的重要资源。随着社会经济的发展,河流水系的面积和形态都受到了不小的影响。因此,研究流域过水面积变化对于水资源的保护利用及合理分配来说具有重要意义。

备受关注的人工智能,其核心的机器学习算法,由于在各领域表现出良好的拟合性和极低的误差,使它们成为数据挖掘领域的热点话题。本文尝试将随机森林算法与地学问题结合,通过建立流域过水面积预测模型的过程,来研究随机森林算法在回归模型预测中的应用,探析其为地学研究提供新思路的可行性。

生态环境的动态变化导致河流水系被众多外界因素所影响,本文将结合气象、地形、人文等因素,剖析影响流域过水面积变化的主要因素;并结合随机森林算法,建立能够用于预测流域过水面积的方法模型;通过与其他算法的对比,分析机器学习算法的优劣,从而为河流水系的生态研究提供基础。

1.2 国内外研究现状

传统的河流水系监测工作通常是监测流量变化,属于实地监测。近年,随着3S技术的疾速发展,3S动态监测流域变化为流域和流域土地利用监测工作提供了新的思路,国内学者也进行了相关研究工作。郑义、王发良等通过对不同分辨率的遥感影像进行依次抽样,分别计算各样本的河流面积调整系数,来探索不同月份河流覆盖面积之间的关系,从而提出了将不同时相影像中提取出的河流面积修正成统一时点的方法[1]。李石华、周峻松等以抚仙湖流域为例,用遥感影像提取流域土地利用信息,结合社会经济数据,采用多元回归和主成分分析等方法探索了流域土地利用时空变化的驱动机制[2]。胡义涛、朱颖等以天目湖流域遥感、土地利用及DEM 数据为基础,对天目湖流域林地的动态变化进行了定量分析[3]。查阅文献发现,关于流域过水面积变化驱动因素的相关研究比较少。

众多机器学习算法中,最为传统的人工神经网络算法最受青睐,在多个科研领域被应用于模型预测问题中。赵亮等用BP 神经网络模型结合相关分析和灰色预测方法,对影响三江平原湿地面积变化的因素进行了分析,并预测了三江平原未来多年的湿地面积[4]。于洋、迟道才等用BP 神经网络模型结合EMD(经验模态分解法)建立了旱灾预测模型,以凌河流域为例进行了旱灾预测,并与普通BP神经网络的预测结果进行了对比[5]

随机森林算法是一种近年逐渐被诸多学者关注的机器学习算法。因其准确率较高,对误差值有一定的包容性,在高光谱遥感训练学习方面表现优异,所以常被研究人员应用到农业和林业遥感中,特别是与生物量相关的问题。姚雄、余坤勇等用福建省西部森林样地的LAI 数据,结合遥感影像计算植被指数,探讨了各样地实测LAI 数据和相应植被指数之间的关系,进而使用随机森林算法构建了林地LAI 估算模型[6]。孙雪莲、舒清态等以思茅松人工林为研究对象,在Landsat TM影像及森林资源调查数据的基础上,结合思茅松单木生物量模型,提取出植被指数作为自变量,建立了思茅松随机森林回归遥感估测模型[7]。岳继博等以陕西省杨凌区的冬小麦生物量和对应的雷达、光谱数据为基础,用随机森林算法分别结合相关分析、OOB重要性和灰色关联分析,构建了3种冬小麦估算模型并进行了对比[8]。Li'ai Wang、Xudong Zhou等以江苏试验田小麦HJ-CCD影像为基础,结合随机森林回归算法,建立了小麦生物量遥感估算模型,并与支持向量回归和人工神经网络进行了对比,得出了随机森林遥感估算模型准确率最高的结论[9]。李欣海通过3个案例,分别介绍了随机森林在昆虫种类的判别分析、有无数据的分析和回归分析上的应用[10]

此外,随机森林算法也开始被许多学者用于其他领域研究中。崔东文以万元GDP 用水量及万元工业增加值用水量为自变量,建立了基于随机内插构造样本的随机森林回归年污水排放量预测模型[11]。梁慧玲、林玉蕊等以大兴安岭塔河地区森林火灾发生数据为基础,用二项逻辑斯蒂回归模型和随机森林算法,分析了塔河地区森林火灾发生与气象因子之间的关系,证明了随机森林算法在林火预测中具有更高的预测精度[12]。顾娟等用随机森林算法进行了军械器材需求预测研究[13],李丽辉等用随机森林算法进行了高速铁路短期客流预测研究[14],陈世鹏等用随机森林算法进行了房价预测研究[15]等。充分说明,随机森林算法对于变量共线性不敏感和预测精度高等优势让它逐渐成为机器学习算法中的另一种热门算法。

1.3 本文研究方法及主要内容

1.3.1 研究内容

本文将以随机森林算法为核心,以武汉市2002至2016年共15年的各项因素数据为基础,通过相关性分析、随机森林特征重要性检测等方法探究武汉市市内范围长江、汉江流域过水面积年际变化的影响因素,结合对各项因素的定量分析,建立具有普适性的随机森林回归流域过水面积预测模型;并通过与多元线性回归模型和支持向量回归模型的误差比较,探究随机森林算法在流域预测问题中的可行性,具体的技术路线如图1.1。

首先,在实验分析之前需要进行资料数据的查阅收集,通过对数据的初步收集和处理,可以得到汇总的因素数据;其次,对收集得到的影响因素数据进行正态性检验、相关分析、重要性排序和多重共线性检查,从而确定回归模型的输入变量;最后,使用随机森林算法建立预测模型,与其它算法模型共同评价和验证,比较各类算法的优劣。

图1.1 研究总体技术路线图

1.3.2 研究方法

本文使用了监督分类、缓冲区分析等多种数据分析和建模方法,具体如下:

监督分类是遥感和土地覆盖/利用研究领域常用的基础方法,通过ENVI5.1软件对收集到的遥感影像进行样本选取、影像分类,可以快速地获取一定区域内土地覆盖/利用的基本信息,避免了使用传统矢量化方法而耗费大量时间、精力。

缓冲区分析是空间分析方法中的一种,它通过以研究对象为中心建立缓冲区,从而获取一定范围内影响研究对象的因素信息和数据,为因素分析和模型构建提供数据基础。

重要性排序是随机森林算法中特有的变量选择方法,它通过计算袋外数据误差(OOB)来度量自变量对因变量的影响程度,从而得知某个变量对整个预测过程的重要性。

正态性检验是一种度量数据是否符合正态性分布的方法,正态性检验的结果决定了样本数据在建模分析过程中的处理方法。

相关分析和多重共线性检查是建立多元线性回归模型时常用的筛选自变量的方法,它们通过检验变量之间的相关性和共线性来筛选自变量和因变量,共线性分析还可以精简自变量,从而达到用最少的自变量最大程度地解释因变量的目的。

第2章 资料收集与数据分析

2.1 研究区域概况

武汉市水资源充沛,且流经流域较多,因此选择流经武汉市的主要流域长江和汉江为研究对象,探究影响两条主要流域过水面积年际变化的潜在因素。

2.1.1 地理概况

武汉市位于长江中下游平原,江汉平原东部,东经113°41′-115°05′、北纬29°58′-31°22′之间,是中国经济地理的中心。全区被长江、汉江分割成三块,汉口、武昌、汉阳三镇鼎立而生。

2.1.2 气候概况

武汉属于亚热带季风性湿润气候区,具有雨量充沛、日照充分、四季分明,夏季气温高、降水多,冬季气温低,较湿润等气候特征。年均气温一般在17℃左右,一年中平均气温1月最低,7月最高,夏季约为135天,春秋两季均为60天左右;雨水一般集中在初夏梅雨季节,年均降水量约为1256mm。

2.1.3 社会经济概况

武汉是湖北省省会,也是中部地区的中心城市。全市共有13个市辖区,总面积为8494.41km2。至2017年年底,常住人口达1091.4万人,高新技术企业共2827家。

2017年,武汉市地区生产总值(GDP)共13410.34亿元,比上年增长8.0%。按常住人口计算,全市人均地区生产总值达到123831元,相比前一年增长6.6%。

2.1.4 水资源概况

武汉水资源充沛,现有水面面积共2117.6km2,占全市总土地面积约四分之一。其中,市内河流长度在5km以上的有165条,水面面积共471.31km2;全市有166个湖泊被列入保护目录,湖泊水面面积共803.17 km2,居全国所有城市第一位。

长江、汉江是武汉市居民主要的生活用水来源。据《2017年武汉市水资源公报》统计,截至2017年年底,武汉市共有18个饮用水供水厂从长江和汉江取水,全年供水共13.52亿m3,占全市当年供水总量(34.61亿m3)的39.06%。

如此可见,长江、汉江流域的动态变化与武汉市居民的日常生活和全市水资源的分配与保护密切相关。

2.2 基础资料收集与分析

本次研究需要收集的主要数据有遥感影像数据、流域过水面积数据、各项因素数据等,数据主要来源于网络。

2.2.1 遥感影像数据收集

影像数据方面,选取湖北省武汉市2002-2016年共15年的遥感影像作为基础数据,用于获取流域土地覆盖/利用数据,数据来源于影像数据共享网站“地理空间数据云”(http://www.gscloud.cn/)。在数据选取时,为了避开河流汛期(5-9月),尽量选择秋冬季影像,部分年份因数据缺失,选择了春季影像,基本信息见表2.1。

表2.1 遥感影像数据信息统计表

年份

数据类型

2004、2009

Landsat5 TM

2002-2003、2005-2008、2010-2016

Landsat7 ETM

2.2.2 流域过水面积数据收集

为了获取流域的过水面积数据,用ArcGIS10.2软件对收集到的遥感影像数据进行流域提取、矢量化等操作,得到每一年长江、汉江的过水范围,计算流域过水面积,结果见表2.2。可以看到,2010和2016年过水面积最大,这可能与相应年份洪涝灾害的出现有关。

表2.2 2002-2016年武汉市主要流域(长江、汉江)过水面积

年份

过水面积(km2)

年份

过水面积(km2)

2002

170.70

2010

193.46

2003

160.92

2011

169.17

2004

176.07

2012

163.11

2005

166.68

2013

167.56

2006

158.56

2014

168.62

2007

168.28

2015

181.80

2008

179.03

2016

197.87

2009

189.95

2.3 流域影响因素数据收集与分析

结合相关文献资料,影响流域过水面积变化的因素大致可以分为自然因素和人为因素两类,自然因素指地理、气候等导致流域过水面积变化的因素;人为因素是指人类各项活动间接导致流域过水面积变化的因素,包括社会经济、土地利用和水资源利用等。

以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图