随笔分类 -  Scrapy

摘要:自从之前看的一篇讲Scrapy下载中间件的文章后,一直认为设置里下载中间件的优先级数值越小,越优先,最近要抓的网站反爬增强了,所以需要使用代理ip,但是由于使用的是免费代理以至于经常失效,需要对失效的代理进行删除并设置新的代理重新发出请求,但是我编写的中间件怎么也不会被执行,由此天降大坑,废话说了这 阅读全文
posted @ 2019-10-10 11:47 西瓜你个兔子 阅读(1206) 评论(0) 推荐(0)
摘要:一、Request 发送一个请求,参数如下: url :request对象发送请求的url callback :在下载器下载完相应的数据后执行的回调函数 method :请求方法,默认为get headers :请求头,固定的— settings文件中,非固定的在请求时加上即可 meta :比较常用 阅读全文
posted @ 2019-09-17 16:24 西瓜你个兔子 阅读(299) 评论(0) 推荐(0)
摘要:一、设置随机请求头 二、设置随机代理ip(开放代理) 三、设置独享代理 阅读全文
posted @ 2019-09-17 16:19 西瓜你个兔子 阅读(343) 评论(0) 推荐(0)
摘要:配置下载图片的流程如下 在items中定义两个属性,image_urls 和images 。image_urls是用来存储需要下载的图片url链接,列表类型; 当文件下载完成后会把相关下载信息存入images属性中,如下载的url和图片校验码等; 在配置文件settings中配置IMAGES_STO 阅读全文
posted @ 2019-09-17 16:11 西瓜你个兔子 阅读(695) 评论(0) 推荐(0)
摘要:Scrapy的CloseSpider扩展会在满足条件时自动终止爬虫程序。可以设置CLOSESPIDER_TIMEOUT(秒)、CLOSESPIDER_ITEMCOUNT、CLOSESPIDER_PAGECOUNT、CLOSESPIDER_ERRORCOUNT分别代表在指定时间过后、在抓取了指定数目的 阅读全文
posted @ 2019-09-17 15:38 西瓜你个兔子 阅读(640) 评论(0) 推荐(0)
摘要:1、创建一个CrawlerSpider 2、Rule规则 3、LinkExtractor提取器 示例(抓取微信小程序社区) 阅读全文
posted @ 2019-09-17 15:33 西瓜你个兔子 阅读(737) 评论(0) 推荐(0)