登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 电子信息类 > 信息工程 > 正文

基于JAVA爬虫技术的图书信息收集及分析系统开题报告

 2022-01-09 10:01  

全文总字数:1654字

1. 研究目的与意义及国内外研究现状

网络爬虫是目前网络实时刷新数据和搜索引擎技术的共同产物,通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息等。 本文在深入分析web crawler技术的基础上,利用java语言实现了一个基于广度优先算法的多线程爬虫程序。

本论文阐述了网络爬虫实现中一些主要问题:为何使用广度优先的爬行策略,以及如何实现广度优先爬行;为何要使用多线程,以及如何实现多线程;系统实现过程中的数据存储;网页信息解析等。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

1. 需求综述:

1用户功能需求分析:爬取目标网站数据,并对数据进行结构性分析,最后将分析后的数据展示在页面上。

2性能需求:友好;高性能;可拓展。

3关键技术分析:前端dwr和jQuery;后端有spring mvc

2. 详尽设计:

1数据库设计:数据库连接技术。

2爬虫系统设计:代码及框架设计。

3系统界面设计:设计界面展示数据库存储的数据。

3. 系统调试与测试:

1程序调试:调试系统程序。

2系统展示:系统结果展示界面。

3. 实施方案、进度安排及预期效果

1. 开发环境搭建:myeclipse开发环境搭建

2. 系统需求及架构设计:需求综述以及架构的设计必须完成。

3. 爬虫代码设计:完成爬虫的代码以及要实现的功能。

4. Web展示界面:完成网页设计以用来调取数据库中的数据。

5.系统调试及运行:调试程序以完成系统的运行检查。

4. 参考文献

[1]萨师煊,王珊.《数据库系统概论(第四版)》.高等教育出版社,2002.

[2] 黄梯云,李一军.《管理信息系统(第4版)》.高等教育出版社,2005.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图