python爬虫笔记（十一）Scrapy爬虫框架

（资料来源：Mooc大学，北京理工大学）

Scrapy爬虫框架有七个部分

Engine Scheduler Iterm-Pipelines Spiders Downloader

Engine

控制所有模块之间的数据流

根据条件触发事件

Downloader

根据请求下载网页

不需要用户修改

Scheduler

对所有爬虫请求进行调度管理

Downloader Middleware

目的：实施Engine、Scheduler 和 Downloader 之间用户可配置的控制。

功能：修改、丢弃、新增请求或响应。

用户可以编写配置代码。

Spider

解析Downloader返回的响应（Response）

产生爬取项（Scrapder item）

产生额外的爬取请求（Request）

Item Pipelins

以流水线方式处理Spider产生的爬取项。

由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型

可能操作包括：清理、检验和查找爬取项中的HTML数据、将数据存储到数据库

Spider MiddleWare

目的：对请求和爬取项的再处理

功能：修改、丢弃、新增请求或爬取项

需要用户编写配置代码

Scrapy 常用命令

posted @ 2017-12-18 12:20 抽象Java 阅读(154) 评论(0) 收藏举报

Jomini