2017 年 8月 21 日随笔档案 - cnkai

2017年8月21日

摘要：在上一小节中，我们已经提取到了房源的具体信息，这一节中，我们主要是对提取到的数据进行后续的处理，以及进行相关的设置。数据处理我们这里以把数据存储到mongo数据库为例。编写pipelines.py文件非常简单的几步，就实现了将数据保存到mongo数据库中，所以说mongo数据库还是非常好用的阅读全文

posted @ 2017-08-21 16:51 cnkai 阅读(4732) 评论(1) 推荐(0)

Scrapy实战篇（一）之爬取链家网成交房源数据（上）

摘要：今天，我们就以 "链家网" 南京地区为例，来学习爬取链家网的成交房源数据。这里推荐使用火狐浏览器，并且安装firebug和firepath两款插件，你会发现，这两款插件会给我们后续的数据提取带来很大的方便。首先创建一个名称为lianjia的项目。需求分析爬取数据的第一步当然是确定我们的需求，阅读全文

posted @ 2017-08-21 16:10 cnkai 阅读(5728) 评论(1) 推荐(0)

Scrapy学习篇（十三）之scrapy-splash

摘要：之前我们学习的内容都是抓取静态页面，每次请求，它的网页全部信息将会一次呈现出来。但是，像比如一些购物网站，他们的商品信息都是js加载出来的，并且会有ajax异步加载。像这样的情况，直接使用scrapy的Request请求是拿不到我们想要的信息的，解决的方法就是使用scrapy splash。 sc 阅读全文

posted @ 2017-08-21 11:21 cnkai 阅读(3197) 评论(0) 推荐(1)

cnkai

公告