随笔分类 - 爬虫
Python爬虫技术
摘要:一、新建项目(scrapy startproject) 在开始爬取之前,必须创建一个新的Scrapy项目。进入自定义的项目目录中,运行下列命令: 其中, mySpider 为项目名称,可以看到将会创建一个 mySpider 文件夹,目录结构大致如下: 下面来简单介绍一下各个主要文件的作用: 二、明确
阅读全文
摘要:一、控制节点- URL 管理器 1.1 简单分布式爬虫架构 本次分布式爬虫采用主从模式,主从模式是指一台主机作为控制节点,负责管理所有运行网络爬虫的主机,爬虫只需要从控制节点那里接收任务,并把新生成任务提交给控制节点就可以了,在这个过程中不必与其他爬虫通信,这种方式实现简单、利于管理。而控制节点则需
阅读全文
摘要:一、架构原理及运行流程 1.1 架构图解 1.2 模块分析 1.3 运行流程 二、URL 管理器 2.1 实现原理 URL 管理器主要包括两个变量,一个是已爬取 URL 的集合,另一个是未爬取 URL 的集合。采用 Python 中的 set 类型,主要是使用 set 的去重复功能, 防止链接重复爬
阅读全文

浙公网安备 33010602011771号