随笔分类 - 爬虫
摘要:Scrapy架构概述 1, 从最初自己编写的spiders,获取到start_url,并且封装成Request对象。 2,通过engine(引擎)调度给SCHEDULER(Requests管理调度器)。 3,SCHEDULER管理ENGINE传递过来的所有Requests,通过优先级,传递给ENGI
阅读全文
摘要:分布式爬虫概述 什么是分布式爬虫: 多个爬虫分布在不同的服务器上,通过状态管理器进行统一调度,达到像URL去重等功能的爬虫系统 分布式爬虫的优点 1) 充分利用多台机器的宽带加速 2)充分利用多机器的IP加速爬取速度 Scrapy分布式爬虫原理 单机Scrapy爬虫架构 分布式爬虫需要改进的Scra
阅读全文

浙公网安备 33010602011771号