python爬虫笔记(十一)Scrapy爬虫框架
(资料来源:Mooc大学,北京理工大学)
Scrapy爬虫框架有七个部分
Engine Scheduler Iterm-Pipelines Spiders Downloader
Engine
控制所有模块之间的数据流
根据条件触发事件
Downloader
根据请求下载网页
不需要用户修改
Scheduler
对所有爬虫请求进行调度管理
Downloader Middleware
目的:实施Engine、Scheduler 和 Downloader 之间用户可配置的控制。
功能:修改、丢弃、新增请求或响应。
用户可以编写配置代码。
Spider
解析Downloader返回的响应(Response)
产生爬取项(Scrapder item)
产生额外的爬取请求(Request)
Item Pipelins
以流水线方式处理Spider产生的爬取项。
由一组操作顺序组成,类似流水线,每个操作是一个Item Pipeline类型
可能操作包括:清理、检验和查找爬取项中的HTML数据、将数据存储到数据库
Spider MiddleWare
目的:对请求和爬取项的再处理
功能:修改、丢弃、新增请求或爬取项
需要用户编写配置代码
Scrapy 常用命令


浙公网安备 33010602011771号