基于贝叶斯的机器学习系统设计毕业论文

2020-04-25 19:46:53

摘要

现在的金融市场越来越复杂，投资者们面临着更大的问题——怎么选择合适的股票进行投资可以以最小的风险获取更多的收益。单从数据挖掘领域看，选择股票实质上就是找到股票的各项指标数据与股票收益之间的某种映射。贝叶斯分类是贝叶斯统计理论的一个重要应用，特别是随着机器学习和数据挖掘的兴起，它得到了更广泛的应用。目前，它已成功地进入工业、计算机等许多应用领域，但在国内经济领域中还比较少见。

本研究结合中国股市的特点，即上海和深圳A股市场的实际运作，研究贝叶斯分类技术在分类股票选择中的应用。目前上市公司的股票分为优势股、同步股和劣势股。为了降低模型复杂度，利用主成分分析（PCA）在不降低分类精度的前提下，对高维大样本库存数据进行降维，从而尽可能多的反映原始变量，同时得到的主成分相互独立，这符合朴素贝叶斯分类方法的前提条件。为了方便量化选股后续的高频交易等工作，本研究是使用当下流行的Python语言来完成分类器。

面对高维大样本数据进行分类时，降维后朴素贝叶斯分类方法可以提供较高的分类精度。更重要的是在实际问题中，这种方法的解释相对简单明了。

关键词：股票分类，朴素贝叶斯分类方法，主成分分析

System design based on Bayesian machine learning

-- stock classification system

Abstract

As financial markets become more complex, investors are faced with a bigger problem -- how to choose the right stocks to invest in in order to get more returns with the least risk.From the perspective of data mining, stock selection is essentially to find some mapping between various index data and stock returns.At present, it has successfully entered many application fields such as industry and computer, but it is rare in domestic economic field.

This study combines the characteristics of China's stock markets, namely the actual operation of Shanghai and Shenzhen a-share markets, to study the application of Bayesian classification technology in stock classification selection.At present, the stocks of listed companies are divided into dominant stocks, synchronous stocks and inferior stocks.In order to reduce the complexity of the model, principal component analysis (PCA) is used to reduce the dimensionality of high-dimensional large sample inventory data without reducing the classification accuracy, so as to reflect as many original variables as possible.In order to facilitate the follow-up high-frequency trading of stock selection, this study USES the popular Python language to complete the classifier.

In the face of high-dimensional large sample data classification, reduced dimensional naive Bayes classification method can provide higher classification accuracy.What's more, in the real world, the explanation is relatively straightforward.

Keywords: Stock classification, naive Bayes classification method, PCA

第一章绪论 4

1.1 研究背景 4

1.2 研究目的及意义 5

1.3 国内外研究现状 6

1.4 本文结构 7

第二章基本理论知识 7

2.1 数据挖掘技术 7

2.1.1数据挖掘概述 7

2.1.2数据挖掘过程 8

2.1.3 对股票市场研究的适用性 10

2.1.4 分类的过程 10

2.2 贝叶斯网络方法 11

2.2.1 贝叶斯概率的重要公式 11

2.2.2 贝叶斯网络理论 12

2.2.3 朴素贝叶斯分类器 12

第三章数据预处理 13

3.1 主成分分析 13

3.1.1 适用性检验 14

3.1.2 主成分求解 16

3.2 离差标准化 17

3.3 数据清理 17

第四章基于贝叶斯的股票分类系统设计 18

4.1数据集处理 18

4.1.1提取个股属性 18

4.1.2数据集特征 19

4.1.3 确定个股类别 21

4.2 数据与处理 21

4.2.1 离差标准化 21

4.2.2 利用主成分分析降维 22

4.3 基于主成分的朴素贝叶斯股票分类系统 26

4.3.1 处理数据 27

4.3.2 提取数据特征 27

4.3.3 预测 29

4.4 实验结果分析 32

第五章结束语 33

5.1 工作总结 33

5.2 工作展望 34

参考文献 35

致谢 36

附录 37

绪论
1. 研究背景

随着中国的经的迅猛发展，越多的投资者选择将资产投资于金融市场，希望通过金融市场抵消近年来通货膨胀的压力，获得经济效益。当前，全球信息已进入快速发展阶段，计算机等技术得到了迅速发展和升级。这导致了人类社会信息总量的逐渐扩大，如金融领域各种信息的出现，使得迫切需要一个高效的数据分析平台来挖掘和处理出有价值的信息数据。

股票作为现代市场经济的重要组成部分，它对金融市场具有重要的意义和影响。这几年，中国上市公司数量正在快速增长，机构投资者产生了的新问题——怎么样在庞大数量的上市公司的股票中选择出具有优势投资目标。目前，中国的量化选股还处于发展阶段，并且具有很大的发展前景。量化投资的目的是帮助投资者以更小的风险获得更多的投资回报。因此，提出基于中国股票市场，即沪深A股的股票分类模型用来选择股票，这对中国股票市场的发展具有重要价值。

1. 研究目的及意义

10个最具影响的算法中，与数据挖掘分类相关的算法就包括：K-最近邻算法、朴素贝叶斯算法、决策树算法、支持向量机算法等，由此可见分类在数据挖掘领域中是一个非常重要的研究方向。在像分类股票这种高维大数据样本进行分类时，通过比较研究这几种分类算法，贝叶斯分类方法是具有较高的预测精度和较高的计算速度，并且对它的解释是更让人们所接受的。

无论是证券部门的标准划分，还是各类金融媒体和股票交易公司的划分，都是以专家知识为基础的，这一划分在一段时间内不会改变。然而，在实际的金融市场中，上市公司的运营活动、投资领域和控股股东都在随着时间的推移而变化，上市公司的股价也随着这一系列事件而波动。因此，本文构建了一个基于股票财务指标的贝叶斯分类系统，实现了无需人工干预的股票自动分类。

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码