2019 年 11月 20 日随笔档案 - lanston

2019年11月20日

摘要：爬虫中间件（Spider Middleware）爬虫中间件的用法与下载器中间件非常相似，只是它们的作用对象不同。下载器中间件的作用对象是请求request和返回response；爬虫中间件的作用对象是爬虫，更具体地来说，就是写在spiders文件夹下面的各个文件。它们的关系，在Scrapy的数据流阅读全文

posted @ 2019-11-20 00:59 lanston 阅读(211) 评论(0) 推荐(0) 编辑

Scrapy——分布式原理

摘要：关于Scrapy工作流程回顾 Scrapy单机架构上图的架构其实就是一种单机架构，只在本机维护一个爬取队列，Scheduler进行调度，而要实现多态服务器共同爬取数据关键就是共享爬取队列。分布式架构将上图进行再次更改这里重要的就是我的队列通过什么维护？关于爬取队列我们自然想到的是基于内存存阅读全文

posted @ 2019-11-20 00:58 lanston 阅读(1388) 评论(0) 推荐(1) 编辑

Scrapy——Downloader Middleware

摘要：下载器中间件是介于Scrapy的request/response处理的钩子框架。是用于全局修改Scrapy request和response的一个轻量、底层的系统。 Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给s 阅读全文

posted @ 2019-11-20 00:56 lanston 阅读(326) 评论(0) 推荐(0) 编辑

Scrapy——Item Pipeline

摘要：当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为，同时也决定此Item 阅读全文

posted @ 2019-11-20 00:54 lanston 阅读(238) 评论(0) 推荐(0) 编辑

Scrapy——Spider

摘要： import scrapy.Spider Spider类定义了如何爬去某个网站，包括爬取的动作以及如何从网页内容中提取结构化的数据，总的来说spider就是定义爬取的动作以及分析某个网页。 Spider是最简单的spider。每个其他的spider必须继承自该类(包括Scrapy自带的其他spide 阅读全文

posted @ 2019-11-20 00:53 lanston 阅读(216) 评论(0) 推荐(0) 编辑

lanston

公告