摘要:
在上一小节中,我们已经提取到了房源的具体信息,这一节中,我们主要是对提取到的数据进行后续的处理,以及进行相关的设置。 数据处理 我们这里以把数据存储到mongo数据库为例。 编写pipelines.py文件 非常简单的几步,就实现了将数据保存到mongo数据库中,所以说mongo数据库还是非常好用的 阅读全文
posted @ 2017-08-21 16:51
cnkai
阅读(4732)
评论(1)
推荐(0)
摘要:
今天,我们就以 "链家网" 南京地区为例,来学习爬取链家网的成交房源数据。 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便。 首先创建一个名称为lianjia的项目。 需求分析 爬取数据的第一步当然是确定我们的需求, 阅读全文
posted @ 2017-08-21 16:10
cnkai
阅读(5728)
评论(1)
推荐(0)
摘要:
之前我们学习的内容都是抓取静态页面,每次请求,它的网页全部信息将会一次呈现出来。 但是,像比如一些购物网站,他们的商品信息都是js加载出来的,并且会有ajax异步加载。像这样的情况,直接使用scrapy的Request请求是拿不到我们想要的信息的,解决的方法就是使用scrapy splash。 sc 阅读全文
posted @ 2017-08-21 11:21
cnkai
阅读(3197)
评论(0)
推荐(1)

浙公网安备 33010602011771号