2022 年 5月 28 日随笔档案 - simon_T

2022年5月28日

摘要： #增量式爬虫 ##概念：监测网站数据更新的情况，只会爬取网站最新更新出来的数据。 ##分析：指定一个起始url 基于CrawlSpider获取其他页码链接基于Rule将其他页码链接进行请求从每一个页码对应的页面源码中解析出每一个电影详情页的URL # -*- coding: utf-8 -*- 阅读全文

posted @ 2022-05-28 10:43 simon_T 阅读(51) 评论(0) 推荐(0)

scrapy框架分布式爬虫

摘要： #分布式爬虫概念：我们需要搭建一个分布式的机群，让其对一组资源进行分布联合爬取。作用：提升爬取数据的效率 ##如何实现分布式？安装一个scrapy-redis的组件原生的scarapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫。 ###为阅读全文

posted @ 2022-05-28 10:30 simon_T 阅读(153) 评论(0) 推荐(0)

simon成长日记

有缘相见万里来，志气相投常相见！

公告