主题网络爬虫的研究与实现任务书

 2020-04-08 03:04

1. 毕业设计(论文)主要内容:

主题网络爬虫是一种自动抓取网页并提出网页内容的程序,是搜索引擎的信息获取渠道。

主题网络爬虫是按照预先定义的爬行主题在给定初始url种子集后,根据一定的分析算法,对爬行网页进行主题相关分析,过滤与主题不相关的网页,在不断抓取相关网页的过程中,将与主题相关的链接放进待爬行队列中,重复这个过程,直到达到一定条件为止。

本课题要求设计实现一种主题网络爬虫并获取网络数据。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 毕业设计(论文)主要任务及要求

(1) 查阅不少于15篇的相关资料,其中近5年外文文献不少于3篇,完成开题报告(设计目的意义至少800汉字,基本内容和技术方案至少400汉字)。

(2) 掌握主题爬虫的结构及其算法原理。

(3) 实现主题爬虫的功能,并爬取网络数据,对获取的数据的准确性加以分析,并进一步改进爬虫。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 毕业设计(论文)完成任务的计划与安排

(1) 第1-3周:查阅相关文献资料,明确研究内容,学习毕业设计研究内容所需理论的基础。确定毕业设计方案,完成开题报告。

(2) 第4-5周:掌握主题网络爬虫的实现原理,完成英文资料的翻译,熟悉开发环境。

(3) 第6-9周:完成整个系统的设计。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 主要参考文献

[1]于娟,刘强.主题网络爬虫研究综述[j]. 计算机工程与科学,2015,37(02):231-237.

[2] filippo menczer,gautam pant, padmini srinivasan. topical web crawlers[j] . acm transactionson internet technology (toit), 2004, vol.4 (4), pp.378-419

[3] 白玉昭,梁久祯. 基于概率模型的主题爬虫的研究和实现[j]. 计算机工程与科学,2013,35(01):160-165.

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。