cnkai

2017年8月23日

摘要：今天的主要内容是爬取豆瓣电影短评，看一下网友是怎么评价最近的电影的，方便我们以后的分析，以以下三部电影：二十二，战狼，三生三世十里桃花为例。由于豆瓣短评网页比较简单，且不存在动态加载的内容，我们下面就直接上代码。有一点需要注意的是，豆瓣短评的前几页不需要登录就可以看，但是后面的内容是是需要我们登录阅读全文

posted @ 2017-08-23 15:17 cnkai 阅读(4561) 评论(7) 推荐(1)

2017年8月21日

Scrapy实战篇（二）之爬取链家网成交房源数据（下）

摘要：在上一小节中，我们已经提取到了房源的具体信息，这一节中，我们主要是对提取到的数据进行后续的处理，以及进行相关的设置。数据处理我们这里以把数据存储到mongo数据库为例。编写pipelines.py文件非常简单的几步，就实现了将数据保存到mongo数据库中，所以说mongo数据库还是非常好用的阅读全文

posted @ 2017-08-21 16:51 cnkai 阅读(4757) 评论(1) 推荐(0)

Scrapy实战篇（一）之爬取链家网成交房源数据（上）

摘要：今天，我们就以 "链家网" 南京地区为例，来学习爬取链家网的成交房源数据。这里推荐使用火狐浏览器，并且安装firebug和firepath两款插件，你会发现，这两款插件会给我们后续的数据提取带来很大的方便。首先创建一个名称为lianjia的项目。需求分析爬取数据的第一步当然是确定我们的需求，阅读全文

posted @ 2017-08-21 16:10 cnkai 阅读(5771) 评论(1) 推荐(0)

Scrapy学习篇（十三）之scrapy-splash

摘要：之前我们学习的内容都是抓取静态页面，每次请求，它的网页全部信息将会一次呈现出来。但是，像比如一些购物网站，他们的商品信息都是js加载出来的，并且会有ajax异步加载。像这样的情况，直接使用scrapy的Request请求是拿不到我们想要的信息的，解决的方法就是使用scrapy splash。 sc 阅读全文

posted @ 2017-08-21 11:21 cnkai 阅读(3214) 评论(0) 推荐(1)

2017年8月20日

Scrapy学习篇（十二）之设置随机IP代理（IPProxy）

摘要：当我们需要大量的爬取网站信息时，除了切换User Agent之外，另外一个重要的方式就是设置IP代理，以防止我们的爬虫被拒绝，下面我们就来演示scrapy如何设置随机IPProxy。设置随机IPProxy 同样的你想要设置IPProxy ，首先需要找到可用的IPProxy ，通常情况下，一些代理网阅读全文

posted @ 2017-08-20 21:29 cnkai 阅读(16135) 评论(0) 推荐(2)

Scrapy学习篇（十一）之设置随机User-Agent

摘要：大多数情况下，网站都会根据我们的请求头信息来区分你是不是一个爬虫程序，如果一旦识别出这是一个爬虫程序，很容易就会拒绝我们的请求，因此我们需要给我们的爬虫手动添加请求头信息，来模拟浏览器的行为，但是当我们需要大量的爬取某一个网站的时候，一直使用同一个User Agent显然也是不够的，因此，我们本节的阅读全文

posted @ 2017-08-20 20:49 cnkai 阅读(20867) 评论(2) 推荐(3)

Scrapy学习篇（十）之下载器中间件（Downloader Middleware）

摘要：下载器中间件是介于Scrapy的request/response处理的钩子框架，是用于全局修改Scrapy request和response的一个轻量、底层的系统。激活Downloader Middleware 要激活下载器中间件组件，将其加入到 DOWNLOADER_MIDDLEWARES 设置阅读全文

posted @ 2017-08-20 19:39 cnkai 阅读(3650) 评论(0) 推荐(0)

Scrapy学习篇（九）之文件与图片下载

摘要： Media Pipeline Scrapy为下载item中包含的文件(比如在爬取到产品时，同时也想保存对应的图片)提供了一个可重用的 item pipelines . 这些pipeline有些共同的方法和结构(称之为media pipeline)。我们可以使用FilesPipeline和Images 阅读全文

posted @ 2017-08-20 16:37 cnkai 阅读(4660) 评论(1) 推荐(3)

Scrapy学习篇（八）之settings

摘要： Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core)，插件(extension)，pipeline及spider组件。设定为代码提供了提取以key value映射的配置值的的全局命名空间(namespace)。 Scrapy内置设置下面给出scrap 阅读全文

posted @ 2017-08-20 12:30 cnkai 阅读(6473) 评论(0) 推荐(1)

Scrapy学习篇（七）之Item Pipeline

摘要：在之前的 "Scrapy学习篇（四）之数据的存储" 的章节中，我们其实已经使用了Item Pipeline，那一章节主要的目的是形成一个笼统的认识，知道scrapy能干些什么，但是，为了形成一个更加全面的体系，我们在这一章节中，将会单独介绍Item Pipeline，方便以后你自定义你的item p 阅读全文

posted @ 2017-08-20 10:44 cnkai 阅读(2287) 评论(0) 推荐(0)

公告