随笔分类 - 爬虫

Scrapy架构概述

摘要：Scrapy架构概述 1，从最初自己编写的spiders，获取到start_url，并且封装成Request对象。 2，通过engine(引擎)调度给SCHEDULER(Requests管理调度器)。 3，SCHEDULER管理ENGINE传递过来的所有Requests，通过优先级，传递给ENGI 阅读全文

posted @ 2017-08-09 22:21 若鸟阅读(295) 评论(0) 推荐(0)

分布式爬虫（一）------------------分布式爬虫概述

摘要：分布式爬虫概述什么是分布式爬虫：多个爬虫分布在不同的服务器上，通过状态管理器进行统一调度，达到像URL去重等功能的爬虫系统分布式爬虫的优点 1）充分利用多台机器的宽带加速 2）充分利用多机器的IP加速爬取速度 Scrapy分布式爬虫原理单机Scrapy爬虫架构分布式爬虫需要改进的Scra 阅读全文

posted @ 2017-08-08 17:35 若鸟阅读(576) 评论(0) 推荐(0)

若鸟

随笔分类 - 爬虫

公告