面向国内上市企业的数据采集与处理毕业论文

2021-11-08 21:26:36

摘要

随着国内经济的快速发展，国内也有一大批上市公司出现。基于我们的调查发现，上市公司已经是一个很大的群体。在这个信息互通有无的时代，这个群体在网络中产生的信息是海量的，如何对这个群体进行信息检索无疑是一个比较大的挑战。虽然通过国内现有的通用搜索引擎如百度等能支持对上市公司的数据查询，但是这些通用搜索引擎查询的数据源比较庞大，因此不可避免的会出现与所期待的查询结果有所不同。所以本文就如何实现对国内上市企业的数据采集与处理这一问题做了研究。

基于上述研究背景，本文开发了一个由python语言编写，利用scrapy爬虫框架，结合elasticsearch强大的数据查询API，以及Django开源web框架实现了前端界面，并对相应的后台逻辑尽心处理，最终实现了针对于国内上市公司领域的简单的垂直搜索引擎。由于本课题研究需要进行数据采集和数据处理，因此系统实现了两方面的内容，一方面为爬虫模块进行数据采集；另一方面为搜索功能实现数据的处理。在爬虫模块主要对上市公司的新闻信息以及上市公司的基本情况进行了采集。在搜索功能模块实现了搜索建议、基于关键字的查询、搜索结果分页、对历史搜索进行记录等功能。

关键词：scrapy；国内上市企业；垂直搜索引擎

Abstract

With the rapid development of the domestic economy, a large number of listed companies have appeared in China. Based on our survey, listed companies are already a large group. In this era of information exchange, the information generated by this group on the network is massive. How to retrieve information from this group is undoubtedly a relatively big challenge. Although the existing domestic general search engines such as Baidu can support data queries for listed companies, the data sources for these general search engine queries are relatively large, so it is inevitable that there will be differences from the expected query results. So this article has done research on how to realize the data collection and processing of domestic listed companies.

Based on the above research background, this article developed a Python language, using the scrapy crawler framework, combined with elasticsearch's powerful data query API, and the Django open source web framework to achieve the front-end interface, and carefully handle the corresponding background logic, and finally realized the aim A simple vertical search engine in the field of domestic listed companies. Because the research of this subject requires data collection and data processing, the system implements two aspects, one is data collection for the crawler module; the other is data processing for the search function. The crawler module mainly collects the news information of listed companies and the basic situation of listed companies. The search function module implements functions such as search suggestions, keyword-based queries, search result pagination, and recording historical searches.

KeyWord：scrapy；domestic listed company；vertical search engine

第1章绪论 6

1.1课题的研究背景及意义 6

1.2课题研究的内容 7

1.3国内研究现状 7

第2章关键技术 8

2.1 Scrapy实现数据的爬取 8

2.1.1 网络爬虫定义和分类 8

2.1.2 Scrapy爬虫框架 8

2.1.3 Scrapy 运行流程 9

2.1.4 常用的防止被反爬策略 10

2.2 ElasticSearch 相关概念及API 10

2.2.1 ElasticSearch介绍 10

2.2.2 倒排索引 11

2.2.3 ElasticSearch搜索建议API 12

2.2.4 Fuzzy Query 13

2.3中文分词 13

第3章需求分析与系统总体设计 15

3.1开发环境和使用技术 15

3.2需求分析 15

3.2.1功能需求分析 15

3.2.2前端界面需求分析 15

3.3系统体系结构设计 15

3.4功能模块设计与实现 16

3.4.1爬虫模块的功能设计与实现 16

3.4.2数据导入的设计与实现 18

3.4.3前端页面的设计与实现 19

3.4.4搜索功能的设计与实现 19

3.5数据库设计 21

3.5.1上市公司新闻表设计 21

3.5.2上市公司详情信息表设计 21

第4章系统实现 22

4.1系统测试 22

4.2系统效果展示 23

第5章总结与展望 26

5.1总结 26

5.2展望 27

参考文献 28

致谢 29

绪论

1.1课题的研究背景及意义

随着近些年中国经济的快速发展，中国国内出现了一大批上市企业，通过百度对其数量进行查询，可以了解到上市公司数量的历史变化，从2008年上市公司的数量超过1700家并在逐渐接近1800家；到2018年A股上市公司一共3567家，他们分布在全国274个城市和地区；再到2019年上海，深圳，创业板中包括的上市公司的数量共4400家，这还不包括科创版。可以很容易看出中国国内上市企业的数量正在飞速增长，与之而来的便是进行信息查询的问题。在上市企业的群体规模还在很小的的时候，利用通用搜索引擎例如百度、搜狐等进行关于上市企业的数据查询，由于原本群体规模不大，只需要简单的甄别和筛选就可以拿到我们所需要的结果，但是随着现在这个群体规模的飞速增长，进行信息查询的难度也增大了，因为他们会产生大量的信息，例如相关新闻、公司的基本情况及相关的变动信息，信息数据源庞大就会带来一个问题，当我们再利用通用搜索引擎去对上市公司的数据进行查询，由于数据量的庞大，造成我们所获得信息相关度可能没那么高。而当需要查询的数据比较多时，就需要投入大量的人力和物力来进行数据的遴选，这与我们这个“快节奏”社会生活方式背道而驰，同时也会造成用户的体验不好。所以需要研究如何实现面向上市企业的数据采集和数据处理，使得上市公司更加透明。

为了解决通用搜索引擎在该问题的不适用性，引入了垂直搜索引擎^[1]。垂直搜索引擎是一种针对某一特定行业内进行数据进行快速检索的一种专业搜索方式，能够对该领域及其相关的领域的数据进行信息检索^[2]。它能够有明确意图的去爬取互联网中的数据，使得用户体验会更好^[3]。例如京东、淘宝、饿了吗、携程旅行以及大众点评中的搜索引擎都属于垂直搜索引擎，能够更快并且更准确的提供出用户所需要的信息，从而减轻了用户进行数据筛选的负担，方便了人们的生活。

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码

面向国内上市企业的数据采集与处理毕业论文

绪论

1.1课题的研究背景及意义

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

面向国内上市企业的数据采集与处理毕业论文

绪论

1.1课题的研究背景及意义

您可能感兴趣的文章

最新文档

推荐栏目