摘要:
简单分布式爬虫 一、简单分布式爬虫结构 主从模式,主从模式是指由一台主机作为控制节点,负责管理所有运行网络爬虫的主机,爬虫只需要从控制节点那里接收任务,并把新生成任务提交给控制节点就可以了, 在这个过程中不必与其他爬虫通信,这种方式实现简单、利于管理。而控制节点则需要与所有爬虫进行通信,因此可有看到 阅读全文
posted @ 2018-08-24 15:51
Alex_c
阅读(278)
评论(0)
推荐(0)
摘要:
爬虫框架的基础和运行流程 基本的框架流程 基础爬虫框架主要包括五大模块、分别为爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。功能分析如下: 爬虫调度器主要负责统筹其他四个模块的协调工作。 URL管理器负责URL链接的管理,维护已经爬取的URL集合和未爬取的URL集合,提供获取 阅读全文
posted @ 2018-08-24 12:04
Alex_c
阅读(1945)
评论(0)
推荐(0)

浙公网安备 33010602011771号