摘要: 分布式爬虫概述 什么是分布式爬虫: 多个爬虫分布在不同的服务器上,通过状态管理器进行统一调度,达到像URL去重等功能的爬虫系统 分布式爬虫的优点 1) 充分利用多台机器的宽带加速 2)充分利用多机器的IP加速爬取速度 Scrapy分布式爬虫原理 单机Scrapy爬虫架构 分布式爬虫需要改进的Scra 阅读全文
posted @ 2017-08-08 17:35 若鸟 阅读(547) 评论(0) 推荐(0) 编辑
摘要: Spark:快速的通用的分布式计算框架 概述和特点: 1) Speed,(开发和执行)速度快。基于内存的计算;DAG(有向无环图)的计算引擎;基于线程模型; 2)Easy of use,易用 。 多语言(Java,python,scala,R); 多种计算API可调用;可在交互式模式下运行; 3)G 阅读全文
posted @ 2017-08-08 10:31 若鸟 阅读(513) 评论(0) 推荐(0) 编辑