基于网络爬虫的搜索引擎设计与实现开题报告

 2020-02-10 10:02
1.目的及意义(含国内外的研究现状分析)

现在人类社会处在一个信息量爆炸的时代,有人说21世纪是大数据的时代,我想也是。据统计,现在的互联网已经存在超过140亿个网页,其中也包含了大量重复和无效的网页。自从搜索引擎诞生以来,人们可以很方便地从互联网上获取各种各样的数据,比较知名的搜索引擎有google,firefox等。而这些搜索引擎的核心技术正是网络爬虫。网络爬虫是一个从网页自动获取信息的程序。随着互联网技术的发展,网络爬虫得到了很大的发展,目前诞生了很多主流的技术。但与此同时各种“反爬”技术也层出不穷,就这样在不断的“爬”和“反爬”之中爬虫技术变的越来越完善。

然而对于有些用户来说,他们并不需要互联网上海量的信息,他们只希望获取一些特定的内容。比如淘宝网某个商品的买家评论,知乎某个问题的回答,微博某个用户的个人信息等。如果用传统的搜索引擎,用户需要登陆账号,搜索内容,筛选信息,不仅过程繁琐而且信息的呈现并不直接。而所以我希望设计一个“傻瓜式”的程序,用户可以一键获取这些信息。这样的好处不止是方便快捷,还避免了一些比如网页广告,网页病毒的问题。

毕设设计是对大学生4年学习生涯的总结,对每个大学生来说既是挑战,也是一次锻炼自身的机会。做该毕设的意义主要有:1.增强我对互联网运行过程的理解。因为爬虫技术涉及到了很多知识,比如http协议的运行过程、计算机网络等。2.锻炼我的自学能力。在这个期间我系统的学习了网络爬虫的大部分知识以及python语言,还学会了利用知网等数据库搜索资料。

您需要先支付 5元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找,微信号:bysjorg 、QQ号:3236353895;