爬虫 - 随笔分类 - 梦醒时分c

Scrapy入门案例

摘要：一、新建项目（scrapy startproject）在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令：其中， mySpider 为项目名称，可以看到将会创建一个 mySpider 文件夹，目录结构大致如下：下面来简单介绍一下各个主要文件的作用：二、明确阅读全文

posted @ 2019-05-19 15:52 梦醒时分c 阅读(566) 评论(0) 推荐(0)

基本分布式爬虫架构：实现分布式豆瓣爬虫

摘要：一、控制节点- URL 管理器 1.1 简单分布式爬虫架构本次分布式爬虫采用主从模式，主从模式是指一台主机作为控制节点，负责管理所有运行网络爬虫的主机，爬虫只需要从控制节点那里接收任务，并把新生成任务提交给控制节点就可以了，在这个过程中不必与其他爬虫通信，这种方式实现简单、利于管理。而控制节点则需阅读全文

posted @ 2018-12-21 09:29 梦醒时分c 阅读(2124) 评论(0) 推荐(0)

基本爬虫架构：实现豆瓣爬虫

摘要：一、架构原理及运行流程 1.1 架构图解 1.2 模块分析 1.3 运行流程二、URL 管理器 2.1 实现原理 URL 管理器主要包括两个变量，一个是已爬取 URL 的集合，另一个是未爬取 URL 的集合。采用 Python 中的 set 类型，主要是使用 set 的去重复功能，防止链接重复爬阅读全文

posted @ 2018-12-19 14:50 梦醒时分c 阅读(1327) 评论(0) 推荐(1)

梦醒时分

爱生活爱编程

随笔分类 - 爬虫

公告