摘要:1. 增加并发 并发是指同时处理的request的数量。其有全局限制和局部(每个网站)的限制。Scrapy默认的全局并发限制对同时爬取大量网站的情况并不适用,因此您需要增加这个值。 增加多少取决于您的爬虫能占用多少CPU。 一般开始可以设置为 100 。不过最好的方式是做一些测试,获得Scrapy进 阅读全文
posted @ 2019-11-21 00:44 lanston 阅读 (20) 评论 (0) 编辑
摘要:爬虫中间件(Spider Middleware) 爬虫中间件的用法与下载器中间件非常相似,只是它们的作用对象不同。下载器中间件的作用对象是请求request和返回response;爬虫中间件的作用对象是爬虫,更具体地来说,就是写在spiders文件夹下面的各个文件。它们的关系,在Scrapy的数据流 阅读全文
posted @ 2019-11-20 00:59 lanston 阅读 (5) 评论 (0) 编辑
摘要:关于Scrapy工作流程回顾 Scrapy单机架构 上图的架构其实就是一种单机架构,只在本机维护一个爬取队列,Scheduler进行调度,而要实现多态服务器共同爬取数据关键就是共享爬取队列。 分布式架构 将上图进行再次更改 这里重要的就是我的队列通过什么维护? 关于爬取队列我们自然想到的是基于内存存 阅读全文
posted @ 2019-11-20 00:58 lanston 阅读 (7) 评论 (0) 编辑
摘要:下载器中间件是介于Scrapy的request/response处理的钩子框架。 是用于全局修改Scrapy request和response的一个轻量、底层的系统。 Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给s 阅读全文
posted @ 2019-11-20 00:56 lanston 阅读 (6) 评论 (0) 编辑
摘要:当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。 每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为,同时也决定此Item 阅读全文
posted @ 2019-11-20 00:54 lanston 阅读 (8) 评论 (0) 编辑
摘要:import scrapy.Spider Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页。 Spider是最简单的spider。每个其他的spider必须继承自该类(包括Scrapy自带的其他spide 阅读全文
posted @ 2019-11-20 00:53 lanston 阅读 (7) 评论 (0) 编辑
摘要:Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分 Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。 CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联。 阅读全文
posted @ 2019-11-19 23:57 lanston 阅读 (2) 评论 (0) 编辑
摘要:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 阅读全文
posted @ 2019-11-19 22:42 lanston 阅读 (7) 评论 (0) 编辑
摘要:命令的使用范围 这里的命令分为全局的命令和项目的命令,全局的命令表示可以在任何地方使用,而项目的命令只能在项目目录下使用 全局的命令有: startproject genspider settings runspider shell fetch view version 项目命令有: crawl c 阅读全文
posted @ 2019-11-19 22:41 lanston 阅读 (5) 评论 (0) 编辑
摘要:AES简介 高级加密标准(英语:Advanced Encryption Standard,缩写:AES),在密码学中又称Rijndael加密法,是美国联邦政府采用的一种区块加密标准。这个标准用来替代原先的DES,已经被多方分析且广为全世界所使用。经过五年的甄选流程,高级加密标准由美国国家标准与技术研 阅读全文
posted @ 2019-11-17 11:53 lanston 阅读 (25) 评论 (0) 编辑