基于网络爬虫的信息采集系统设计与实现毕业论文

2021-07-13 00:28:09

摘要

当前，伴随着互联网的迅猛发展，各行各业与互联网的链接越发紧密，大量公司及行业围绕着互联网产生，每时每刻都有着大量的信息从互联网中产生。为了从庞大的信息中筛选出自己所需的讯息，网络爬虫应运而生，基于爬虫的搜索引擎迅速发展。

搜索引擎作为进入网络的门户，面对的是广大的用户的多种多样的需求，而通用搜索引擎爬行过程中抓取了大量冗杂的网页，如何在海量的信息中抽取有价值的信息的是一个亟待解决的关键性问题。

本文研究目的在于保证主题不偏移的情况下提高爬虫搜索的效率，在短时间内得到用户想要的结果，Web 采集信息的主要过程包括：网页爬取，网页过滤，网页分析，网页的存储，网页爬取需要解决的问题是通过程序高效的抓取到相关网页，对页面内容进行分析过滤，将主题相关网页地址存储至本地便于后期查看。

本文在了解和熟悉网络爬虫技术特点以及功能作用的基础上，采用Java语言在eclipse平台实现了一款主题网络爬虫，并由此构建一个信息采集系统。

关键词:JAVA；主题爬虫；信息采集系统；

Abstract

Currently, along with the rapid development of the Internet, with Internet links to all walks of life more closely, a large number of companies and industries around the Internet generation, all the time with a large amount of information generated from the Internet. In order to filter out messages they need from the huge information, the network reptile came into being, the rapid development of crawler-based search engines.

Into the search engine as the gateway to the network, in the face of the vast variety of user needs, and general search engines crawl crawling process a large number of miscellaneous pages, how to extract valuable information in the mass of information is a key issue addressed urgently.

Purpose of this study is to ensure that the next topic does not improve the situation shifted crawler search efficiency, the user wants to get the results in a short time, Web information collection process mainly includes: Web crawling, web filtering, web analytics, web storage , web crawling problem to be solved is a highly efficient program to crawl through the pages, page content analysis filtering, the topic page address is stored to the local easy to post to view.

On the basis of understanding and familiarity with web crawlers technical features and functional role on the use of the Java language in eclipse platform to achieve a theme Web crawler, and thus to build an information gathering system.

Key Words：JAVA；focused—crawler；Information Collection System

摘要 I

Abstract II

第一章绪论 1

1.1 研究背景及现状 1

1.2 研究目的和意义 2

1.3 论文内容的组织 3

第二章相关开发技术简介 4

2.1 程序设计语言简介 4

2.2 集成开发环境简介 4

2.3 网络爬虫简介 5

2.3.1 通用网络爬虫 5

2.3.2 主题网络爬虫 6

2.3.3 深层网络爬虫 9

第三章系统的分析与设计 11

3.1 系统需求分析 11

3.2 系统功能设计 11

3.3 系统部分功能模块设计 13

3.3.1 初始网页和关键词模块 15

3.3.2 网页爬行模块 15

3.3.3 网页分析模块 16

3.3.4 网页排序模块 16

3.3.5 主界面模块 17

3.3.6 数据库模块 17

第四章系统的实现与测试 18

4.1 开发平台的搭建 18

4.2 系统主要模块的实现 18

4.2.1 网页爬行模块 18

4.2.2 链接过滤模块 19

4.2.3 网页分析模块 20

4.2.4 网页排序模块 21

4.3.4 数据库模块 21

4.3.5 主界面模块 22

4.4 系统测试 23

4.4.1 测试过程 23

4.4.2 测试结果分析 25

第五章总结与展望 27

5.1 总结 27

5.2 展望 27

致谢 28

参考文献 29

第一章绪论

1.1 研究背景及现状

自1969年因特网诞生以来，互联网的脚步就不曾停歇，从军用进入民用，并飞速拓展至今，互联网成为了大量信息的载体。为便于从庞大的信息中筛选出所需的信息，网络爬虫悄然而生。1994年搜索引擎借势而起，进一步推动了互联网以及爬虫的发展。

1990年Université de Montréal学生Alan Emtage、Peter Deutsch及Bill Wheelan发明了Archie，Archie可以说是所有搜索引擎的鼻祖。1994年4月，斯坦福大学杨致远和David Filo共同创办了Yahoo搜索引擎。伴随着用户访问量和数据库收录内容的增长，Yahoo开始支持简单的数据库搜索。但雅虎的数据是采用人工录入的，所以从实际意义上来说最开始的雅虎并不是真正的搜索引擎，只是一个可以进行搜索的目录。同年年初，华盛顿大学的Brian Pinkerton开始了WebCrawler项目。经历了几个月的努力开发，1994年4月20日，WebCrawler被正式推出。至此WebCrawler才可以说是互联网历史上第一个全文搜索引擎。在此之前，用户只能通过URL和摘要进行搜索，而摘要一般由来自于用户、网站制作及收录人员的人工评论或着爬虫程序自动摘取正文的前100字构成。1994年7月，卡内基·梅隆大学的Michael Mauldin将爬虫程序嵌入至索引程序中，正式创建了Lycos搜索引擎。Lycos是第一个带有网页自动摘要功能的搜索引擎，相较于同时期的搜索引擎其最大的优势是其庞大的数据搜索量。Lycos搜索引擎互联网历史上第一个真正意义上的现代搜索引擎。

现如今互联网已变的极其庞大，ipv6ipv4的更迭更加标志着互联网性能和结构的进一步完善，与此同时互联网上的信息资源可谓呈现出多元化爆炸性的指数增长。现如今互联网有超过16亿的网站，至少超过217亿网页^[2]，据中国互联网络信息中心第37次报告称^[3]，截至2015年12月，中国网民规模已经达到6.88亿，中国互联网普及率为50.3%。通用搜索引擎作为进入互联网的门户，面对极其庞大用户群，现如今的搜索引擎行业的几大巨头Google、AltaVista、Yahoo等，虽然在不断增添功能，却无法改变其作为通用搜索引擎的本质，面对众多的用户，通用搜索引擎奋力提高其网络覆盖率，但有限的服务器资源相较于无限的网络资源来说捉襟见肘。2009年2月23日，纽约时报^[1]发表文章《探索 Google未能占领的深网》，称截至2008年夏天，Google登陆第1兆网址，文中提及Google只探索了约16%的表层网页，虽近年来未见权威机构对搜索引擎的网页覆盖率统计，但随着技术的发展，近年来通用搜索引擎对网页的探索率还是有所提高，但依旧不尽如人意。并且随着网络技术不断的发展及网络数据不断的丰富，面对各种新型的技术通用搜索引擎往往无法做出很好的处理。并且通用搜索引擎大多基于关键词全文检索，忽视了网页中大量的语义信息及相似信息。

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码

基于网络爬虫的信息采集系统设计与实现毕业论文

Abstract

第一章绪论

1.1 研究背景及现状

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

基于网络爬虫的信息采集系统设计与实现毕业论文

Abstract

第一章 绪 论

1.1 研究背景及现状

您可能感兴趣的文章

最新文档

推荐栏目

第一章绪论