2022 年 4月 28 日随笔档案 - 志强爱璇璇

2022年4月28日

摘要： ##什么是分布式爬虫概念：我们需要搭建一个分布式的机群，让其对一组资源进行分布联合爬取。作用：提升爬取数据的效率 ##如何实现分布式安装一个scrapy-redis的组件： pip install scrapy_redis 原生的scarapy是不可以实现分布式爬虫，必须要让scrapy 阅读全文

posted @ 2022-04-28 18:01 志强爱璇璇阅读(104) 评论(0) 推荐(0)

scrapy -- CrawlSpider类

摘要： ##CrawlSpider类是什么？是Spider的一个子类区别： Spider是获取到URL进行手动发送请求： yield scrapy.Request(url=new_url,callback=self.parse) 是通过提取器类：LinkExtractor，提前到页面所有符合条件的U 阅读全文

posted @ 2022-04-28 17:42 志强爱璇璇阅读(95) 评论(0) 推荐(0)

scrapy -- 中间件

摘要： #中间件的位置和作用位置：在引擎和下载器之间作用：批量拦截到整个工程所有的请求和响应中间件的py文件：爬虫工程中， middlewares.py就是写中间件的文件，所有的中间件都写在这个文件中 ##一、拦截请求通过请求中间件，把请求信息拦截到，可以修改请求信息后再发送给服务端应用场阅读全文

posted @ 2022-04-28 10:35 志强爱璇璇阅读(133) 评论(0) 推荐(0)

公告