大江东去，浪淘尽，千古风流人物。故垒西边，人道是，三国周郎赤壁。乱石穿空，惊涛拍岸，卷起千堆雪。江山如画，一时多少豪杰。遥想公瑾当年，小乔初嫁了，雄姿英发。羽扇纶巾，谈笑间，樯橹灰飞烟灭。故国神游，多情应笑我，早生华发。人生如梦，一尊还酹江月。

人生苦短我用Python

Programmer
learn-计算机网络
计算机网络
learn-Git
Git
learn-正则表达式
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-数据结构与算法
数据结构与算法
数据结构与算法
数据结构与算法
数据结构与算法
数据结构与算法
learn-Linux
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
Language
learn-C
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-C++
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-Python
Python
Python
Python
1. 迭代器
2. 函数
3. 类
4. 面向对象
Python
Python
1. 模块
2. 标准库
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-Shell
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
Database
learn-SQL
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
Learn-MySQL
MySQL
MySQL
MySQL
MySQL
1. MySQL 管理
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-MongoDB
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-Reids
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
Web
learn-Django
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-Flask
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-Tornado
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
Spider
learn-原生爬虫
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-工程化爬虫
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-反爬及应对措施
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-分布式爬虫
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
Data
learn-Numpy
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-Pandas
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-matplotlib
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-pyecharts
1. --
2. --
3. --
4. --
CV
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
ML/DL
learn-机器学习
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-深度学习
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
Library
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
profession
learn-Python 算法
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
learn-Linux运维
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
Other
requests
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
--
1. --
2. --
3. --
4. --
Follow

扩大

缩小

分布式爬虫系统

一、架构

二、原理

　　1.分布式原理：

　　　　利用scrapy-redis实现分布式，利用主从模式，把自己核心服务器称为master，用于跑爬虫程序的机器称为slave。我们知道，采用scrapy框架抓取网页，需要首先给定一些start_urls，爬虫首先访问start_urls里面的url，再根据具体逻辑对里面的元素、或者其他二级、三级页面进行抓取。而要实现分布式，需要在start_urls里面做文章。

　　　　在master上搭建一个redis数据库(这个数据库只用于url的存储，不用于存储数据)，并对每一个需要爬取的网站类型，都开辟一个单独的列表字段。通过设置slave上scrapy-redis获取url的地址为master地址。这样的设置就是，尽管有多个slave，然而获取url的地方只有一个，那就是服务器master上的redis数据库。

　　　　并且，由于scarpy-redis自身的队列机制，slave获取链接不会相互冲突。这样各个slave在完成抓取任务之后，再把获取的结构汇总到服务器上(这时获取的数据不在是redis，而是mongodb、mysql)

posted on 2019-04-30 11:44 GuoZeping 阅读(1479) 评论(0) 收藏举报

刷新页面返回顶部