摘要: 在上一小节中,我们已经提取到了房源的具体信息,这一节中,我们主要是对提取到的数据进行后续的处理,以及进行相关的设置。 数据处理 我们这里以把数据存储到mongo数据库为例。 编写pipelines.py文件 非常简单的几步,就实现了将数据保存到mongo数据库中,所以说mongo数据库还是非常好用的 阅读全文
posted @ 2017-08-21 16:51 cnkai 阅读(4732) 评论(1) 推荐(0)
摘要: 今天,我们就以 "链家网" 南京地区为例,来学习爬取链家网的成交房源数据。 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便。 首先创建一个名称为lianjia的项目。 需求分析 爬取数据的第一步当然是确定我们的需求, 阅读全文
posted @ 2017-08-21 16:10 cnkai 阅读(5728) 评论(1) 推荐(0)
摘要: 之前我们学习的内容都是抓取静态页面,每次请求,它的网页全部信息将会一次呈现出来。 但是,像比如一些购物网站,他们的商品信息都是js加载出来的,并且会有ajax异步加载。像这样的情况,直接使用scrapy的Request请求是拿不到我们想要的信息的,解决的方法就是使用scrapy splash。 sc 阅读全文
posted @ 2017-08-21 11:21 cnkai 阅读(3197) 评论(0) 推荐(1)