随笔分类 -  爬虫

摘要:Scrapy架构概述 1, 从最初自己编写的spiders,获取到start_url,并且封装成Request对象。 2,通过engine(引擎)调度给SCHEDULER(Requests管理调度器)。 3,SCHEDULER管理ENGINE传递过来的所有Requests,通过优先级,传递给ENGI 阅读全文
posted @ 2017-08-09 22:21 若鸟 阅读(292) 评论(0) 推荐(0)
摘要:分布式爬虫概述 什么是分布式爬虫: 多个爬虫分布在不同的服务器上,通过状态管理器进行统一调度,达到像URL去重等功能的爬虫系统 分布式爬虫的优点 1) 充分利用多台机器的宽带加速 2)充分利用多机器的IP加速爬取速度 Scrapy分布式爬虫原理 单机Scrapy爬虫架构 分布式爬虫需要改进的Scra 阅读全文
posted @ 2017-08-08 17:35 若鸟 阅读(573) 评论(0) 推荐(0)