登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 理工学类 > 自动化 > 正文

基于随机森林算法的个人信用风险预测分析毕业论文

 2022-05-24 09:05  

论文总字数:26569字

摘 要

近年来,银行个人贷款业务的迅猛发展,对社会和经济的发展具有重要作用和意义。但是在银行追求盈利的同时,个人的不良贷款情况屡有发生且有增加的趋势,我国个人信用风险预测领域亟需针对个人信用状况建立一套科学高效的信用风险预测体系,使得能够科学、客观、全面地对个人信用状况进行预测评述,并且具有一定的准确性和高效性,从而缓解银行业个人贷款不良贷款的现状。

本文首先通过调研某些商业银行、信贷公司等金融机构对个人信用评价现状,并参考国内外的文献及评价机构,初步建立起适用于我国个人的信用评价指标体系。

其次介绍了决策树算法和随机森林算法的基本原理特点,通过程序选出合适的模型参数,再利用筛选出的参数建模得到各特征指标的重要度排序。

最后,以我国某银行个人信用数据为数据来源,针对具有完整信息的1000笔数据样本,分别采用随机森林算法、Logistic方法、决策树方法、支持向量机进行分类和预测,实验结果表明随机森林算法无论在精度还是在稳定性方面,都优于其他算法,从而证明了该算法具有较好的分类和预测性能。

关键字:信用评估 随机森林 特征选择

ABSTRACT

The loan customer credit evaluation is scientific and reliable, soundness, relates to the success or failure of commercial Banks. How effective evaluation before granting loans and identify potential borrowers default risk, calculate the probability of default by the borrower, is the foundation of modern financial institutions to credit risk management and the important link, is also a number of research focus in the field of economics, finance, etc.

This paper through the investigation of a commercial bank and other financial institutions, credit company, about the present situation of personal credit evaluation and reference documents and evaluation institutions at home and abroad, a preliminary establish suitable for China's personal credit evaluation index system.

Secondly introduces the random forest algorithm, by rearranging the characteristic value of index data outside the bag, and according to the classification accuracy of difference before and after rearrangement, get each feature index of the rearrangement of important degree. Surface of the experiment, random forests can effectively calculate the rearrangement importance of personal credit evaluation index, and on the basis of the importance of the evaluation index from high what sort.

Finally, taking a bank credit data as data sources, with full information of 1000 data, respectively, using the algorithm of random forest Logistic method, decision tree method, support vector machine (SVM) to classify and forecast, the experimental results show that random forest algorithm in both the accuracy and stability, are better than the other algorithms, which proves that the algorithm has good performance.

Key words: credit assessment; random forests; feature selection

目 录

摘要 I

ABSTRACT II

第一章 绪论 1

1.1 研究背景及意义 1

1.1.1 研究背景 1

1.1.2 研究意义 1

1.2 国内外研究现状 1

1.2.1 国外研究情况 2

1.2.2 国内研究情况 3

1.3 本文研究的思路和主要内容 4

1.3.1 存在的问题及解决思路 4

1.3.2 主要研究内容 5

1.3.3 论文章节安排 5

第二章 随机森林算法简介 8

2.1 决策树 8

2.2 随机森林原理 9

2.3 OOB误差佑计 11

2.4 变量重要性的计算 12

第三章 个人信用评价指标体系设计 13

3.1 个人信用风险简述 13

3.1.1 个人风险信用评估概述 13

3.1.2 个人信用风险评估的意义 13

3.2 个人信用评价指标体系的构建原则 14

3.3 个人信用评价指标初选 14

3.3.1 国内外判别个人信用评价指标体系 15

3.3.2 影响个人信用的因素分析 16

3.4 本章小结 18

第四章 基于随机森林的个人贷款违约预测模型 20

4.1 数据预处理 20

4.1.1 数据来源 20

4.1.2 缺失值处理 20

4.1.3 数据转换 21

4.2 模型参数选择 22

4.2.1 特征选择 22

4.2.2 RF模型参数选择 23

4.3 计算指标重要程度 25

4.4 基于随机森林的个人信用风险预测分析 26

4.5 四种模型对比 28

4.6 本章小结 30

第五章 总结与展望 31

5.1 总结 31

5.2 研究展望 31

参考文献 32

致谢 34

附录A本文中实证结果的R程序 35

第一章 绪论

1.1 研究背景及意义

1.1.1 研究背景

随着经济的发展,尤其在08年经济危机之后,世界很多银行都把个人贷款业务作为业务重点。然而,虽然目前我国个人信贷业务发展比较迅速,信贷模块也不断扩大,但是不良贷款也随之增加。与国外信用风险研究相比,我国在个人信贷领域的发展尚处于入门阶段。鉴于我国对个人进行信用风险评估时,相关行业大都采用的是国外的信用风险指标。然而国外与我国的经济发展差异以及文化素养差异,我国在处理个人贷款信用风险评价时还存在着指标过多,指标属性繁多,数据重叠等问题,这些给建立科学的个人信用风险评价模型造成一定困难。

1.1.2 研究意义

对于银行而言,我国银行和个人之间信息不对称是导致出现不良贷款的主要原因,因此建立一套科学、客观、全面的个人信用风险评价体系是很有必要的,可以使银行对个人的资产、负债以及还款意愿和还款能力做出一个较为准确的判断,从而降低不良贷款率,促进银行个人贷款业务的健康发展。本文通过构建个人信用风险指标体系,并引入随机森林算法预测判断精度,得出随机森林算法能够提高预测的精度和预测的稳定性,并且能很好地能够被引入银行个人贷款预测中。

1.2 国内外研究现状

信用评估是在搜集客户大量个人信息的基础上,运用当前比较流行的数据挖掘或统计分析方法,找出客户是否会违约的影响因素,然后建立起特定的预测模型,判断出客户的个人信用风险等级,最后判断是否可以贷款给客户。在整个经济的发展过程中,个人信用风险评估不断处于发展中,很多分类技术被应用到信用评估领域,信用评分模型层出不穷,并在实际应用中不断得到改进。这些技术包括传统的参数统计方法、非参数统计方法以及一系列的人工智能模型。

1.2.1 国外研究现状

西方信用评价技术起源于20世纪50年代以前,都是要早于中国的风险研究。1936年Fisher[1]最早提出按照不同的特征划分为不同的分组思想。1941年David Durand[2]意识到在个人信用评估中可以用类似的方法来区分“好”的贷款和“坏”的贷款,以此来评估预测个人的信用状况。

1966年Beaver[3]对20多个指标进行了研究,运用单变量分析法对个人贷款的违约进行研究,通过对样本的分析找到影响个人贷款违约较为重要的影响因素。

请支付后下载全文,论文总字数:26569字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图