登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 理工学类 > 自动化 > 正文

基于数据挖掘的电信客户流失预测分析毕业论文

 2022-01-26 12:01  

论文总字数:24583字

摘 要

近年来,移动网络市场趋于饱和。老用户可能因为种种因素而流失。如果企业能够抑制流失现象,那么这个企业就能获取高额利益。在电信客户流失预测与分析中,研究难点和重点集中在以下两个方面。第一,如何恰当地进行数据预处理、如何选择数据特征十分关键。第二,选取有效的电信客户流失预测分析模型也是处理流失预测问题的重点问题。

首先,用SMOTE方法进行数据平衡化。本文对电信客户数据进行了包括数据缺失值处理,离散化处理等预处理操作,采用SMOTE方法进行数据平衡化。该算法能有效地改进过拟合问题。验证了数据平衡化对分类模型的准确率有帮助。

然后,用随机森林进行特征选择。介绍了随机森林算法(Random Forest)的基本步骤,而后应用了随机森林算法与对电信客户数据进行特征选择。先对特征重要度进行排序,然后逐一加入特征,输入分类模型,同时观察其预测准确率变化,最终得到本实验进行所需的最优特征子集。

最后,用GBDT模型预测电信客户流失倾向。用网格搜索找到GBDT的最优参数。并通过对比实验,验证了GBDT相比于Logistic回归、朴素贝叶斯、支持向量机等在处理这类问题上分类结果更加准确,有利于电信客户的流失预测分析。

关键词:电信客户流失预测;SMOTE算法;随机森林;GBDT模型

Prediction and Analysis of Telecom Customer Loss Based on GBDT

Abstract

In recent years, the mobile network market has become saturated. Old users may be lost due to various factors. If the enterprise can restrain the phenomenon of loss, then the enterprise can obtain high profits. In the prediction and analysis of telecom customer churn, the research difficulties and emphases focus on the following two aspects. First, how to properly doing

data preprocessing and how to select data features are very important. Secondly, choosing an effective prediction and analysis model of telecom customer churn is also a key issue to deal with the problem of churn prediction.

Firstly, SMOTE method is used to balance data. In this paper, the telecom customer data are pre-processed, including missing data processing, discretization processing and so on. SMOTE method is used to balance the data. The algorithm can effectively improve the over-fitting problem. It is verified that data balancing is helpful to the accuracy of classification model.

Then, random forest is used for feature selection. This paper introduces the basic steps of Random Forest algorithm, and then applies Random Forest algorithm to feature selection of telecom customer data. Firstly, the importance of features is sorted, then features are added one by one, and the classification model is input. At the same time, the change of prediction accuracy is observed. Finally, the optimal feature subset for this experiment is obtained.

Finally, GBDT model is used to predict the rate of telecom customer churn. The optimal parameters of GBDT are found by grid search. Through comparative experiments, GBDT is proved to be more accurate than Logistic regression, Naive Bayesian, Support Vector Machine in dealing with such problems, which is conducive to the loss prediction and analysis of telecommunication customers.

KEYWORDS: telecom customer churn prediction; SMOTE algorithm; random forest; GBDT model

目 录

基于GBDT的电信客户流失预测分析 I

摘 要 I

第一章 绪论 1

1.1 研究背景以及意义 1

1.2 研究现状综述 1

1.3 存在问题及解决思路 3

1.4 研究内容与研究重点 3

1.4.1研究内容 3

1.4.2 4

1.4.3 工作流程 4

1.5 本文组织结构 5

第二章 基于SMOTE的电信客户数据平衡化处理 6

2.1 数据预处理概述 6

2.1.1 缺失值处理 6

2.1.2 数据泛化 6

2.1.3 标准化处理 6

2.2 数据平衡化处理 7

2.2.1 SMOTE算法概述 8

2.2.2 对比实验验证SMOTE算法的性能 9

2.3数据介绍及本章实验结果 9

2.3.1 验证实验结果 9

2.3.2 电信客户数据介绍 11

2.3.3 电信客户数据预处理结果 11

2.4 本章小结 13

第三章 基于随机森林的电信客户数据特征选择 14

3.1 特征选择方法概述 14

3.2 随机森林方法 14

3.3 K折交叉验证 17

3.4 基于随机森林的电信客户数据特征选择 17

3.5 本章小结 18

第四章 基于参数优化的GBDT的电信客户流失预测 19

4.1决策树算法介绍 19

4.1.1决策树结构 19

4.1.2决策树的生长 19

4.1.3决策树的剪枝 20

4.2 GBDT模型介绍 20

4.2.1 集成学习方法 20

4.2.2 分类与回归树 21

4.2.3 梯度提升树 21

4.3 GBDT参数寻优 22

4.4 GBDT模型性能评价 23

4.4.1 混淆矩阵 23

4.4.2 ROC曲线以及AUC值 24

4.5 基于GBDT模型的电信客户流失预测评估 25

4.5.1参数寻优过程 25

4.5.2 参数寻优结果 25

4.5.2 电信客户流失评估 25

4.6 本章小结 27

第五章 总结与展望 28

5.1 工作总结 28

5.2 工作展望 28

参考文献 30

第一章 绪论

1.1 研究背景以及意义

近年来,物联网以及大数据等技术蓬勃发展。信息产业在很多国家的经济贡献率上越来越大。我国通信行业增速超越全球[1],成为世界基础电信行业发展的主要支柱。然而,随着我国电信行业的不断发展,移动通信行业经过多年以来的竞争和淘汰,移动,电信,联通三个运营商并存。根据北京商报发表的数据[2],到2016年5月31日为止,移动通信用户规模已有亿。电信用户占亿,联通用户占亿,移动用户占4.09亿。

然而,激烈的市场竞争使得运营商们大力投资网络建设方面,加大了营销成本。随着竞争事态的不断发展,客户的稳定性越来越差。客户,尤其是高价值客户流失现象愈加严重。2008年移动某公司客户流失率达4.6%[3]。2013年四月,移动公司3G增加了500余万的用户,但是流失用户超过138万人。2017年,联通月流失人数达百万人。

请支付后下载全文,论文总字数:24583字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图