摘要:
#增量式爬虫 ##概念:监测网站数据更新的情况,只会爬取网站最新更新出来的数据。 ##分析: 指定一个起始url 基于CrawlSpider获取其他页码链接 基于Rule将其他页码链接进行请求 从每一个页码对应的页面源码中解析出每一个电影详情页的URL # -*- coding: utf-8 -*- 阅读全文
posted @ 2022-05-28 10:43
simon_T
阅读(50)
评论(0)
推荐(0)
摘要:
#分布式爬虫 概念:我们需要搭建一个分布式的机群,让其对一组资源进行分布联合爬取。 作用:提升爬取数据的效率 ##如何实现分布式? 安装一个scrapy-redis的组件 原生的scarapy是不可以实现分布式爬虫,必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫。 ###为 阅读全文
posted @ 2022-05-28 10:30
simon_T
阅读(146)
评论(0)
推荐(0)

浙公网安备 33010602011771号