12 2018 档案
摘要:一、控制节点- URL 管理器 1.1 简单分布式爬虫架构 本次分布式爬虫采用主从模式,主从模式是指一台主机作为控制节点,负责管理所有运行网络爬虫的主机,爬虫只需要从控制节点那里接收任务,并把新生成任务提交给控制节点就可以了,在这个过程中不必与其他爬虫通信,这种方式实现简单、利于管理。而控制节点则需
阅读全文
摘要:一、架构原理及运行流程 1.1 架构图解 1.2 模块分析 1.3 运行流程 二、URL 管理器 2.1 实现原理 URL 管理器主要包括两个变量,一个是已爬取 URL 的集合,另一个是未爬取 URL 的集合。采用 Python 中的 set 类型,主要是使用 set 的去重复功能, 防止链接重复爬
阅读全文

浙公网安备 33010602011771号