登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 电子信息类 > 信息工程 > 正文

基于Scrapy多站爬虫的租房信息存储与数据分析开题报告

 2022-01-14 08:01  

全文总字数:2246字

1. 研究目的与意义及国内外研究现状

近年来由于我国人口总量不断攀升,人们对住房的需求愈演愈烈。为了满足人们对于住房的需求,房屋租赁市场日益壮大。在国内的一线城市如北京、上海、广州,以其丰富的就业资源吸引了全国各地应届毕业生的目光,导致租房市场的需求压力不断增加。同时随着互联网的高速发展,房屋租赁市场的重心逐渐由线下转为线上,极大地方便了人们的生活,越来越多的人通过互联网来查找租房房源。然而为了迎合市场需求,租房软件五花八门,用户需要下载不同的软件去获取更多的房源信息,使得用户无法从宏观上整体把握租房市场的整体状况。因此本文的主要研究目的在于选取几个具有代表性的租房软件,定位南京市,利用scrapy和selenium爬取租房信息,对爬取的租房数据信息进行分析,分析房源分布情况以及房租价格的各个影响因素,从而对整个南京市租房现状有大体的把握,并给出自己的建议。

国内外研究现状

一、网络爬虫的发展现状

现如今,在网络爬虫技术方面有大量的开源库和爬虫框架可供选择,如nutch、scrapy等都是比较流行的网路爬虫框架。为了满足不同用户的不同需求,出现了很多爬虫系统。按照实现技术及其系统构成,爬虫技术可以分为以下几类: 1.通用网络爬虫,即全站爬虫。

它是通过一系列预设的初始链接开始,获取网页上的所有链接,根据预设规则,提取链接,进入待爬取队列,进而不断访问网页链接。然后通过html解析技术,获取页面数据,提取所需信息并保存,同时将新获取的连接放在待爬取队列中,直到达到系统预设指定条件为止。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

本文主要选取具有代表性的房屋租赁平台为研究对象,如:安居客、58同城租房板块、赶集网,以南京市为例。

利用网络爬虫提取出各个平台有用的房源信息,然后对房源信息进行数据处理,建立房源数据库,从而有效对大量房源信息进行数据分析,得到房源价格的影响因素,为人们选择高性价比的租房资源提供依据。

3. 实施方案、进度安排及预期效果

实施方案:

1)1.学习python基础知识、mysql数据库的设计以及各种查询语句的使用;

2)2.学习网络爬虫的技术,并对几种技术进行分析对比,选择适合的技术进行重点分析;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1]唐承佳,林真真,付珊珊.基于python爬虫数据的枣庄市二手房价空间分析[j].枣庄学院学报,2018,35(05):101-105.

[2]余豪士,匡芳君.基于python的反反爬虫技术分析与应用[j].智能计算机与应用,2018,8(04):112-115.

[3]陈猛.基于python的新浪新闻爬虫系统的设计与实现[j].现代信息科技,2018,2(07):111-112.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图