登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 软件工程 > 正文

微博信息采集与分析开题报告

 2022-01-04 08:01  

全文总字数:2277字

1. 研究目的与意义及国内外研究现状

本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是具有一定的性能,要考虑到网络爬虫的各种需求。

网络爬虫主体网站的特性。对url进行构造。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出来:微博信息等。研究网络爬虫的原理并实现爬虫的相关功能。

最终实现的网络爬虫应该能根据设定的主题,从构造的url进行一定数据爬取,并最终得到需要的数据 。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

  1. 选取开发语音
  2. 根据网站主体特性不同构造url
  3. 绕过模拟登陆选择存储cookie
  4. 编写爬虫文件xpath
  5. 选择数据库
  6. 选择前端框架
  7. 将数据显示到前端界面

3. 实施方案、进度安排及预期效果

  1. 实施方案:参考网上开源的网络爬虫和各种网络爬虫相关的书籍、视频等信息,学习了解网络爬虫运行机制,基本原理,根据所爬取的目标网站设计自己的爬虫,学习python,mysql的简单操作,bootstrap框架学习、编写、调试。

    搭建了繁琐的环境,在windows下进行了爬虫的开发、调试,最终成功的实现了信息的爬取与提取,将爬去下来的数据,展示到前台界面。

  2. 进度安排:2016.12.28-2017.01.10查阅资料完成任务书 ,完成开题报告。

    剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

    4. 参考文献

    [1] 齐鹏,李隐峰,宋玉伟.基于python的web数据采集技术[j]. 电子科技. 2012(11)

    [2] 郭晓云.基于python和selenium的新浪微博数据访问[j]. 电脑编程技巧与维护. 2012(15)

    [3]罗刚 王振东.自己动手写网络爬虫[m].北京:清华大学出版社,2010年10月.

    [4]李晓明,闫宏飞,王继民.搜索引擎:原理、技术与系统——华夏英才基金学术文库[m].北京:科学出版社,2005年04月.

    剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图