摘要: 1. Scrapy-Request和Response(请求和响应) Scrapy的Request和Response对象用于爬网网站。 通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序。 sequen 阅读全文
posted @ 2020-08-10 15:51 kuanleung 阅读(17) 评论(0) 推荐(0)
摘要: 1. Spider 下载中间件(Middleware) Spider 中间件(Middleware) 下载器中间件是介入到 Scrapy 的 spider 处理机制的钩子框架,您可以添加代码来处理发送给 Spiders 的 response 及 spider 产生的 item 和 request 2 阅读全文
posted @ 2020-08-10 15:51 kuanleung 阅读(17) 评论(0) 推荐(0)
摘要: 1. 介绍 Scrapy提供了一个 item pipeline ,来下载属于某个特定项目的图片,比如,当你抓取产品时,也想把它们的图片下载到本地。 这条管道,被称作图片管道,在 ImagesPipeline 类中实现,提供了一个方便并具有额外特性的方法,来下载并本地存储图片: 将所有下载的图片转换成 阅读全文
posted @ 2020-08-10 15:51 kuanleung 阅读(13) 评论(0) 推荐(0)
摘要: 1. CrawlSpiders 原理图 sequenceDiagram start_urls ->>调度器: 初始化url 调度器->>下载器: request 下载器->>rules: response rules->>数据提取: response rules->>调度器: 新的url 通过下面的 阅读全文
posted @ 2020-08-10 15:50 kuanleung 阅读(20) 评论(0) 推荐(0)
摘要: 爬取小说 spider import scrapy from xiaoshuo.items import XiaoshuoItem class XiaoshuoSpiderSpider(scrapy.Spider): name = 'xiaoshuo_spider' allowed_domains 阅读全文
posted @ 2020-08-10 15:50 kuanleung 阅读(26) 评论(0) 推荐(0)
摘要: Scrapy内置设置 下面给出scrapy提供的常用内置设置列表,你可以在settings.py文件里面修改这些设置,以应用或者禁用这些设置项 BOT_NAME 默认: ‘scrapybot’ Scrapy项目实现的bot的名字。用来构造默认 User-Agent,同时也用来log。 当你使用 st 阅读全文
posted @ 2020-08-10 15:50 kuanleung 阅读(16) 评论(0) 推荐(0)
摘要: 1. Item Pipeline 介绍 当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或者被丢弃 阅读全文
posted @ 2020-08-10 15:50 kuanleung 阅读(20) 评论(0) 推荐(0)
摘要: main from scrapy.cmdline import execute execute('scrapy crawl zw'.split()) zw.py import scrapy class ZwSpider(scrapy.Spider): name = 'zw' allowed_doma 阅读全文
posted @ 2020-08-10 15:39 kuanleung 阅读(41) 评论(0) 推荐(0)