Scrapy爬虫框架

“5+2 ”   结构    scrapy爬虫框架结构

 engine  核心:控制所有模块之间的数据流,根据条件触发事件。

downloader:根据请求下载网页,不需要用户修改。

scheduler:所有爬取请求进行调度管理。不需要用户修改。

----Downloader Middleware 目的:实施Engine,Scheduler和Downloader之间进行用户可配置的控制

功能:修改,丢弃。新增请求或响应。 

可以用户修改。

spider:解析Downloader返回的响应(Response)

产生爬取项(scraped item)

产生额外的爬取请求(request)

Item Pipelines :一流水线方式处理Spider产生的爬取项。由一组操作顺序组成,类似于流水线,每一个操作是一个Item Pipeline类型。可操作包括:清理,检验,和查重爬取项的HTML数据,将数据存储到数据库。需要编写配置代码。

--Spider Middleware 目的:请求和爬取项的再处理。功能:修改,丢弃,新增请求或爬取项。用户可以编写代码。

**************************************************************************************************

 

***************************************************************************************************** 

Scrapy命令行:scrapy -h  执行

 

 

posted @ 2020-09-24 22:39  _年少无知  阅读(163)  评论(0)    收藏  举报