微博信息采集与分析开题报告

2022-01-04 20:48:22

全文总字数：2277字

1. 研究目的与意义及国内外研究现状

本课题的主要目的是设计面向主题的网络爬虫程序，同时需要满足的是具有一定的性能，要考虑到网络爬虫的各种需求。

网络爬虫主体网站的特性。对url进行构造。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出来:微博信息等。研究网络爬虫的原理并实现爬虫的相关功能。

最终实现的网络爬虫应该能根据设定的主题，从构造的url进行一定数据爬取，并最终得到需要的数据。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

实施方案：参考网上开源的网络爬虫和各种网络爬虫相关的书籍、视频等信息，学习了解网络爬虫运行机制，基本原理，根据所爬取的目标网站设计自己的爬虫，学习python，mysql的简单操作，bootstrap框架学习、编写、调试。
搭建了繁琐的环境，在windows下进行了爬虫的开发、调试，最终成功的实现了信息的爬取与提取，将爬去下来的数据，展示到前台界面。
进度安排：2016.12.28-2017.01.10查阅资料完成任务书，完成开题报告。
剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！
4. 参考文献
[1] 齐鹏,李隐峰,宋玉伟.基于python的web数据采集技术[j]. 电子科技. 2012(11)
[2] 郭晓云.基于python和selenium的新浪微博数据访问[j]. 电脑编程技巧与维护. 2012(15)
[3]罗刚王振东．自己动手写网络爬虫[m]．北京：清华大学出版社，2010年10月.
[4]李晓明，闫宏飞，王继民．搜索引擎：原理、技术与系统——华夏英才基金学术文库[m]．北京：科学出版社，2005年04月.
剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付