python爬虫笔记(十一)Scrapy爬虫框架

(资料来源:Mooc大学,北京理工大学)

Scrapy爬虫框架有七个部分

  Engine Scheduler Iterm-Pipelines Spiders Downloader

 

Engine 

   控制所有模块之间的数据流

   根据条件触发事件

Downloader

   根据请求下载网页

   不需要用户修改

Scheduler

   对所有爬虫请求进行调度管理

Downloader Middleware

     目的:实施Engine、Scheduler 和 Downloader 之间用户可配置的控制。 

     功能:修改、丢弃、新增请求或响应。

     用户可以编写配置代码。

Spider

     解析Downloader返回的响应(Response)

     产生爬取项(Scrapder item)

     产生额外的爬取请求(Request)

Item Pipelins

     以流水线方式处理Spider产生的爬取项。

     由一组操作顺序组成,类似流水线,每个操作是一个Item Pipeline类型

     可能操作包括:清理、检验和查找爬取项中的HTML数据、将数据存储到数据库

Spider MiddleWare

    目的:对请求和爬取项的再处理

    功能:修改、丢弃、新增请求或爬取项

    需要用户编写配置代码

 


 

 

Scrapy 常用命令

 

posted @ 2017-12-18 12:20  抽象Java  阅读(153)  评论(0)    收藏  举报