基于python的分布式网络爬虫设计文献综述

2020-06-22 22:57:42

文献综述

#160; 1.前言

#160;#160;#160; 当下是一个大数据的时代，我们每个人都参与其中。在大数据时代，将数据有效的检索并组织呈现出来有着很重要的意义。在实际生活中我们经常会使用像百度、Google这些搜索引擎检索各种信息，但是这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求，搜索引擎所返回的结果包含大量用户不关心的网页。那么如何找到更精确找到自己所需的数据，解决问题需要的根本技术就是分布网络爬虫。

#160;#160;#160; 在此前提下，参照成功的网络爬虫模式，对网络爬虫进行研究。从而能够更加了解网络爬虫，以便提供满足特定搜索需求的分布式网络爬虫。

#160;#160;#160; 网络爬虫源自Spider(或Crawler、robots)等的意译。网络爬虫的定义有广义和狭义之分，狭义的定义为：利用标准的http协议，根据超链接和Web文档检索的方法遍历万维网信息空间的软件程序。广义的定义为：所有能利用http协议检索Web文档的软件都称之为网络爬虫。

#160;#160;#160; 网络爬虫又被称为做网络蜘蛛、网络机器人，主要用于网络资源的收集工作。是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

#160;#160;#160; 网络爬虫已经发展了很多年，并且搜索引擎也是爬虫的一种应用，通过搜索引擎能够更快速的获得有用的数据和信息。但是，一些通用性的搜索引擎也存在着一定的局限性，通用搜索引擎返回的结果可能包含了大量用户不关心的网页内容，而且通用搜索引擎有限的服务器资源与无限的网络资源之间存在的矛盾进一步加深，还有，就是通用搜索引擎不能支持给据语义的信息提出的查询和搜索。所以学习网络爬虫有很大的意义。因此，本课题基于Python编写基本的爬虫系统，用于网路爬虫的入门，为以后的爬虫学习奠定基础。

2.发展和研究现状

#160;#160;#160; 网络爬虫是一个功能很强大的自动提取网页的程序，它为搜索引擎从万维网下载网页，是搜索引擎的重要组成部分。它通过请求站点上的html文档访问某一个站点。它遍历Web空间，不断从一个站点移动到另一个站点，自动建立索引，并加入到网页数据库中。网络爬虫进入某个超级文本时，利用html语言的标记结构来搜索信息，及获取指向其他超级文本的url地址，可以完全不依赖于用户的干预实现网络上的自动”爬行”和搜索。

#160;#160;#160; 文献[1]、文献[8]和文献[9]讲述了Python的入门教程和Python的编程入门，通过学习文献可以了解Python的基本语法和Python的基本编程方法，对于本课题程序编写，能够拥有大概的思路和想法。文献[3]和文献[4]讲述了Hadoop和Spark框架，文献[5]讲述了分布式系统的基础知识，通过对分布式系统基础制动和框架的学习，能够更好的掌握分布式系统设计的思路和想法。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码