登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 计算机类 > 计算机科学与技术 > 正文

发现地理信息系统服务器和空间特征语义运用的空间网络爬虫外文翻译资料

 2022-11-27 02:11  

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


发现地理信息系统服务器和空间特征语义运用的空间网络爬虫

索妮尔 巴迪, 斯路堤里皮 巴塔察基, 索木亚 K 戈什

信息技术学院

印度克勒格布尔理工学院,印度

摘要:空间数据采集领域下的技术发展为地理信息系统领域的研究提供了大量机会。地理空间数据往往在异构格式上有可取性和活力特性。在线空间数据源是用于发布和获取地理空间数据的主要途径之一。通过互联网搜索有效的数据源,获取和分析有用信息是该领域的主要挑战之一。本文提出了使用空间网络爬虫发现地理空间数据源的框架技术。这将有利于分布式异构数据存储库空间查询的处理。在开放地理空间联盟(OGC)提供的网络要素服务(WFS)标准的条件下,地理空间信息以使用本体的数据源语义标注为前提,从而进一步检索。语义信息以特征类型库的形式存储,围绕着由地理服务器提供的地理特征生成兴趣领域。性能研究为更好地了解该框架分析发现而提供地理服务器语义标注准确性。

关键词:地理空间数据,数据发现,空间网络爬虫,语义索引,本体。

简介

地理空间数据的指数级增长提供了广阔的研究范围,通过网络传送发现和分析网上空间信息的准确而有效的方法。2005年,有文[1]报道,美国航空航天局地球观测系统数据和信息系统每天生产超过3 TB的数据。这些巨量数据限制了合适的地理空间数据源的有效检索并从中获得有意义的知识。这些限制也影响到相关的存储在地理信息系统(GIS)[2]的专题图层空间属性的搜索。

网络爬虫是一个从网络上获取的资源的自动程序或脚本。它由有输入设定的全球资源定位器(URL)提供。从所下载的网页,所有超链接都是从抓取网页提取并添加到队列中。该过程会一直持续到满足停止标准。它还索引在搜索引擎中使用的页面。外用爬虫是一种以寻找一个特定主题为目的的网络爬虫。本文所提出的论点集中在开发一种可以在互联网发现地理空间数据的来源和抽取以功能类型的形式存在、由地理服务器支持的有意义的信息的高效外用网络爬虫。其次是相对于存储特征类型所做的数据源语义索引。这个工作利用了网络要素服务(WFS)[3]以获得与由任何地理区域服务器提供地理特征的元数据信息。开放地理空间联盟(OGC)建立了开放地理信息系统的WFS以实现规范,这样的空间数据提供者可以使用它们在互联网上发布和检索数据。这项工作是进一步扩大到按他们提供的功能类型区分空间数据源达到高效的索引和更好的搜索。本体[4] [5]是语义描述知识库中的工具,正式代表它区分其独特的概念。空间特征本体构建了带有适当功能类型参考的标注地理服务器。用于实验的本体中,空间特征(参照图3)在印度是风行的,但爬虫的覆盖范围是全球性的。其结果发现在信息检索的角度精度和召回之间有很好的平衡。此文的总体目标如下:

-建立基于OGC标准使用WFS的空间网络爬虫。

- 建立空间特征类型的领域本体。

-使用本体和与所提供的功能型参考地理服务器索引匹配语义。

-实验测试URL种子和分析准确语义标注的爬虫性能。

国家艺术报告了许多关于空间的网络爬虫研究工作。在过去的几十年里,开发外用网络爬虫是研究人员最有趣的领域之一。卡拉雷提思等人 [6]提出了从相关网页识别领域特定的网站进而提取感兴趣的信息的技术。洛佩兹等人[7]测量了公共搜索API的性能。对于这一点,他们已经测试了三种主要的商业搜索引擎去发现地理Web服务,即必应,谷歌和雅虎。Mukhopadhyay等人[8]提出了一种特定领域的基于本体的搜索引擎,能在网络中抓取并下载您所访问的特定网页。参照这些成果,部分网络爬虫已经被用于空间网络服务发现。李等人[9]提出了一种有效的爬虫可以发现并利用OGC并发多线程技术更新使用网络地图服务。江等人[10]提出了一种基于开放式GIS的WFS规范,可以发现和动态更新WFS服务器的服务内容爬虫原型系统。阿勒斯等[11]也已经提出一个基于位置的搜索引擎,能够获得自动非结构化网络资源的空间环境。他们提出的索引还对指定地理环境的网页继续使用。

本文分为四个部分。第1部分是对问题和已提出的解决方案的整体记述,随后通过本领域的有关的空间网络爬虫和地理服务器发现本状态。第2部分,根据不同模型做出演示。第3部分对其性能评价作出分析。最后,第4部分得出结论。

2. 提出框架:网络要素服务爬虫

提出的空间网络爬虫已经发展到着眼于地缘服务器可用的地理空间功能。在本部分对整体结构依次进行了评价讨论。

2.1 爬虫架构

基于WFS数据源开发的爬虫包括种子集,定位器,提取模块,WFS模块,XML分析器,本体和WFS要素类型库存档有关WFS地理服务器和相关特征类型。所提出的爬虫架构及其组件在图1中示出。

最初的种子集是爬虫入口段。首先,所有这些定位器将被添加到包括由爬虫提取的URL。全球资源定位器作为一个缓冲器来存储所有的超链接。一旦该要素服务被判定为WFS服务器,它就不需要被链接到其它的WFS服务器。因此,从全球资源定位器的下一个URL将被考虑。这个过程是连续的。所提出的空间爬虫被分成三个主要模块,即提取模块,WFS模块随后分析和索引模块。这些模块将在下面讨论:

提取模块:该模块从URLQueue提取的定位器和读取其页面的源代码开始。它的任务是提取存在页面中所有的超链接,将它们转换成绝对URL,并过滤重复的URL,然后将它们推到URLQueue。通过所有的模块的URL的循环结束后,下一个URL将被提取。这个过程将是连续的。

WFS模块:该模块负责检查服务器是否是WFS服务器。从URLQueue提取URL进行检查,以搜索关键字,如可能,要求,要素服务等。如果URL中包含所有这些关键字,它直接用字符串URL追加发送到WFS模块。

图1.空间网络爬虫的建议框架

经过转换的URL将会发送到WFS模块上。对Get-Capabalities要求的响应进行搜索来找到标签lt;WFS_Capabilitiesgt;。如果标签存在于XML的响应中,那么URL将代表WFS服务器。XML的响应将发送到分析和索引模块上。

分析和索引模块:这个模块分析WFS模块发送给XML的响应。XML中存在有多种多样的标签。lt;特征类型列表gt;是从XML中提取出来的,每一个lt;特征类型gt;标签(从属于lt;特征类型列表gt;标签)、lt;关键词gt;标签(如果存在)以及lt;标题gt;和lt;名字gt;标签需进行检查,以确认这些标签中是否包含从任何特征类型的词汇中得来的词汇,这些词汇是为本体论创立的。本体论是通过组织起一些空间特征,也就是水体、建筑、森林和路等等建立起来的。一些标准的语义关系(例如下义词、部件词等等)可用来进行本体论构建。图2中显示出lt;特征类型列表gt;的基本格式。如果这种匹配是由任何特征类型中的一种建立起来的,服务器参考将会被放置在资源库中,这个资源库与依据使用本体论得来的语义匹配的特殊特征类型相一致。举例来说,如果关键词中有单词“沟渠”,由于“沟渠”从属于“水体”(本体论中的超类沟渠),根据资源库中的“水体”相应的服务器将会被参考。如果直接匹配不是通过关键词建立起来的,需要使用lt;特征类型gt;标签中的lt;名字gt;节点值和“命名空间”(如果被提到),描述特征类型要求是由附加字符串“'?service=WFSamp;version=1.1.0amp;request=DescribeFeatureTy-

peamp;typename=' name'”形成的,去到原始的URL中。通过对那个要求返回的XML进行分析后,了解到使用lt;复合类型gt;标签的“名字”特性的特征类型。那个值使用最大子序列(LCS)算法[12]与每一个特征类型词汇列表相比较,子序列的最大长度将会确定下来。这个LCS将会返回相匹配特征类型的值。服务器参考将放置在资源库中,与根据使用本体论得到的语义匹配特殊特征类型相一致。这需要经过lt;特征类型列表gt;中的每一个lt;特征类型gt;进行检查比对。

2.2 空间爬虫算法描述

算法1给出了爬虫的主要算法。最初种组作为一个有许多种子URLs的文件。URL队列是一个FIFO队列。这个文件在开始的时候被读取,并且每一个种子URLs都被推向URL队列。这个算法包含两个主要功能。其中一个功能是关于提取模块的,这个功能提取出所有的超链接;另一个功能设计下一个WFS模块用来鉴别网络服务器是否为WFS服务器。爬行URL功能是爬行在网页上,并使用转化成绝对URL的方式将提取到的URLs转化为绝对URLs,随后过滤掉重复的URLs,这些URLs已经存在于URL队列资源库中。在将URL传到检查WFSS服务器函数前,URL已经进行了它是否在GetCapabilities Request形式中的检查。如果是这样,我们使用真指示器将它传送出去,否则使用假指示器。在检查WFSS服务器函数时,如果指示器是假,相应的XML重新被标记GetCapabilities Request获取。通过检查是否存在lt;WFS_能力gt;标签的方式来对XML响应进行检查,核实服务器是否为WFS服务器。如果服务器被确认为WFS服务器,,哈希表绘制出特征类型与源特征类型的关系。哈希集合用于存储所有特征类型的词汇,这从本次学习中可以得到。哈希集合和哈希表用于促进搜索速度。

图2 得到能力响应

分析函数使用XML响应来重新获得服务器提供的特征类型列表。对每一个特征类型来说,本体论都进行了编址以便知道其源特征类型。第一阶段是根据标签lt;关键词gt;lt;名字gt;和lt;标题gt;,这些标签在哈希集合特征类型词汇中所具有,来直接进行值匹配,直到找到相应的匹配。如果找不到相应的匹配,它将会去到下一个阶段,这个阶段产生描述特征类型要求来提取特征类型。最大共同子序列(LCS)算法进一步用于使用每一个哈希集合特征类型词汇的单词来发现LCS,以及提取被认为是lt;特征类型gt;类型名称的特征类型。从特征类型词汇中选出一个单词,这个单词具有关于LCS长度临界值的长度,并有LCS中所有长度的最大长度。这通过使用ApplyLCS函数来实施。这个匹配将在哈希表中进行搜索,以用来找到源特征类型。在两个阶段中的任何一个阶段找到源特征类型后,URL服务器将会保存到相应的源特征类型资源库中。

3.性能评估

提议框架的性能将根据三个度量进行评估,也就是精度、撤销和F1-测量[13]。爬虫的效率是通过分析服务器发现特殊特征类型的相关数目以及用来支持相应特征类型的预期或存在网络服务器的总数来衡量的。

74 S. Patil, S. Bhattacharjee, and S.K. Ghosh

图.3 特征性本体图

各自的feature_type,这三个因素都会被计算,跟着是所有特征性的平均的精准度,召回和F1-计算。这些计算是基于用使用多个LCS阈值Geoserver 图像语义标注,根据演算法里的ApplyLCS。我们运用图.3的特征性本体图来做参考。

我们这次运用以下种子URL来做参考。有些GIS网站被当做种子来提高网页处理的效率。有些被综合性搜索网站如谷歌,反馈回来的结果,如 ”getcapabilities”, “wfs”, “geoserver” 会被送往别的种子。

– https://www.google.co.in/search?q=wfs getcapabilities

request geoserver

– http://www.bing.com/search?q=wfs getcapabilities

request geoserver

– http://www.gise.cse.iitb.ac.in

– http://bhuvan5.nrsc.gov.in

– http://203.110.240.68:8888/iitkgp-wms

以上URL发现的Geoserver有些会被进一步的做执行效率评估。GetCapabilities的请求被列在下面。前四个Geoserver通常会被考虑用作含有大量信息的试验。

爬虫式搜索程序

运算法 1. 爬虫式搜索运算法

输入: SeedSet-Seed URLs, MaxURLs-Stopping Criterion

结果: WFS服务器清单和编入索引的文件

– http://giswebservices.massgis.state.ma.us/geoserver/wms/

services?REQUEST=GetCapabilitiesamp;version=1.1.0amp;service=WFS

– http://www.gise.cse.iitb.ac.in/geoserver/wfs/services?REQUEST=

GetCapabilitiesamp;version=1.1.0amp;service=WFS

– http://bhuvan5.nrsc.gov.in/bhuvan/ows?service=wfsamp;version=1.1.0

amp;request=GetCapabilities

– http://203.110.240.68:8888/iitkgp-wms/services?RE

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[29651],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图