Scrapy爬虫框架

“5+2 ” 结构 scrapy爬虫框架结构

engine 核心：控制所有模块之间的数据流，根据条件触发事件。

downloader：根据请求下载网页，不需要用户修改。

scheduler：所有爬取请求进行调度管理。不需要用户修改。

----Downloader Middleware 目的：实施Engine，Scheduler和Downloader之间进行用户可配置的控制

功能：修改，丢弃。新增请求或响应。

可以用户修改。

spider：解析Downloader返回的响应（Response）

产生爬取项（scraped item）

产生额外的爬取请求（request）

Item Pipelines :一流水线方式处理Spider产生的爬取项。由一组操作顺序组成，类似于流水线，每一个操作是一个Item Pipeline类型。可操作包括：清理，检验，和查重爬取项的HTML数据，将数据存储到数据库。需要编写配置代码。

--Spider Middleware 目的：请求和爬取项的再处理。功能：修改，丢弃，新增请求或爬取项。用户可以编写代码。

**************************************************************************************************

*****************************************************************************************************

Scrapy命令行：scrapy -h 执行

posted @ 2020-09-24 22:39 _年少无知阅读(174) 评论(0) 收藏举报

刷新页面返回顶部

_年少https://i.cnblogs.com/posts/signatures无知