摘要: #增量式爬虫 ##概念:监测网站数据更新的情况,只会爬取网站最新更新出来的数据。 ##分析: 指定一个起始url 基于CrawlSpider获取其他页码链接 基于Rule将其他页码链接进行请求 从每一个页码对应的页面源码中解析出每一个电影详情页的URL # -*- coding: utf-8 -*- 阅读全文
posted @ 2022-05-28 10:43 simon_T 阅读(50) 评论(0) 推荐(0)
摘要: #分布式爬虫 概念:我们需要搭建一个分布式的机群,让其对一组资源进行分布联合爬取。 作用:提升爬取数据的效率 ##如何实现分布式? 安装一个scrapy-redis的组件 原生的scarapy是不可以实现分布式爬虫,必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫。 ###为 阅读全文
posted @ 2022-05-28 10:30 simon_T 阅读(146) 评论(0) 推荐(0)