基于概念格的气象灾害本体设计及其在主题爬虫中的应用开题报告

 2022-01-09 10:01

全文总字数:2388字

1. 研究目的与意义及国内外研究现状

网络爬虫是用户从互联网中获取资源的有效工具,近些年随着网络的不断普及,网络信息资源呈爆炸式增长,传统的搜索引擎需要对互联网上的信息进行广泛的收集和分析处理,需要处理的网络信息也越来越多,同时也就不可避免的为用户提供了或多或少的无关信息。互联网上含有超过16亿的网站,而这些被索引的网站包含至少217亿的页面,在中国互联网信息中心cnnic第40次报告中指出,截止至2017年6月中国的搜索引擎用户达到了6.09亿,可见搜索已经成为互联网用户的基本行为。如何提高搜索引擎的索引规模,更新速度,精准率,本课题具有重大意义。

本课题的研究目的建立气象灾害本体,在此基础上采用禁忌搜索或者tf-idf方法实现主题爬虫。

国内外研究现状

近些年,研究者们为了使主题爬虫尽可能高效高质的获取主题相关页面,提出了多种定制的爬行策略和算法。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

本课题研究的是在互联网海量数据背景下,如何快速、精准的获取气象领域的数据,主要内容包括:

1) 建立气象灾害本体

2) 研究禁忌算法和tf-idf算法,对该算法进行深入了解运用。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 实施方案、进度安排及预期效果

实行方案:

搜集资料,查阅文献,在对主题爬虫有一定了解以后,研究禁忌算法和tf-idf算法,在对这些算法有一定理解的基础上,将这些方法用于模型求解,最后编程实现该系统。

进度:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1]关卫国,骆永成.基于概念背景图的主体爬虫设计与实现 《计算机工程与设计》 2016年10月,第37卷,第10期

[2]马雷雷,李宏伟,连世伟,梁汝鹏,陈虎.一种基于本体语义的灾害主题爬虫策略lta.计算机工程,2016,42 (11):50 56.

[3]cyajun du , qiangqiang pen, zhaoqiong gao. a topic-specific crawling strategy based on semantics similarity: data knowledge engineering 88 (2013) 75–93.

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。