摘要: 简介 Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule), 并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码, 将scrapy变 阅读全文
posted @ 2018-07-03 19:54 人生不如戏 阅读(1133) 评论(0) 推荐(0) 编辑
摘要: 整体流程 具体流程 阅读全文
posted @ 2018-07-03 19:39 人生不如戏 阅读(1203) 评论(0) 推荐(0) 编辑
摘要: 简介 Django、Flask、scrapy都包含了一个“信号分配器”,使得当一些动作在框架的其他地方发生的时候,解耦的应用可以得到提醒。 通俗来讲,就是一些动作发生的时候,信号允许特定的发送者去提醒一些接受者,这是特别有用的设计因为有些代码对某些事件是特别感兴趣的,比如删除动作。 下面,分别介绍一 阅读全文
posted @ 2018-07-03 19:30 人生不如戏 阅读(907) 评论(1) 推荐(1) 编辑
摘要: 单爬虫运行 然后右键运行py文件即可运行名为‘chouti‘的爬虫 同时运行多个爬虫 步骤如下: 代码如下: 阅读全文
posted @ 2018-07-03 17:26 人生不如戏 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 中间件的简介 1.中间件的作用 在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作. 例如scrapy内置的HttpErrorMiddleware,可以在http请求出错时做一些处理. 2.中间件的使用方法 配置settings.py.详见scrapy文档 ht 阅读全文
posted @ 2018-07-03 16:40 人生不如戏 阅读(982) 评论(0) 推荐(0) 编辑