数据抓取 | 数据分享 - 北京链家二手房成交数据抓取,保存格式为excel

该项目应客户需求,抓取 东城西城朝阳海淀二手房成交 数据

抓取字段为:房源id,房型,交易日期,位置,总价,朝向,装修情况,建筑年代,所在楼层,房屋年限,建筑面积,套内面积,电梯情况

——

抓取流程:

数据源分析:

分析网页数据存储,发现实际上数据便存储在 https://bj.lianjia.com/chengjiao/房源id.html 主文件中。

由于链家页数限制,若只抓取大分类(区)只能获取100*30条数据,因此必须从区的小分类入手抓取。

数据抓取:

构建正则,通过requests获取网页html文件,获取数据并存储到excel文件中。

最终获取147170条数据。

 

数据抓取联系QQ:2835379403

数据下载地址:http://pan.baidu.com/s/1cLao4Q

posted @ 2017-08-27 15:44  清及  阅读(1750)  评论(1)    收藏  举报