随笔档案「2020年6月21日」：把起始URL放到Redis中去 ... - 高汤

2020年6月21日

摘要：把起始URL放到redis中去 from scrapy_redis.spiders import RedisSpider # 继承RedisSpider class ChoutiSpider(RedisSpider): name = 'chouti' allowed_domains = ['chou 阅读全文

posted @ 2020-06-21 19:13 高汤阅读(641) 评论(0) 推荐(0)

去重配置和调度器配置代码优先级

摘要：去重的配置： DUPEFILTER_KEY = 'dupefilter:%(timestamp)s' DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 调度器配置： SCHEDULER = "scrapy_redis.schedul 阅读全文

posted @ 2020-06-21 19:12 高汤阅读(368) 评论(0) 推荐(0)

爬虫流程

摘要：整个爬虫流程 1、scrapy crawl chouti --nolog 2、找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置并实例化调试器对象 - 执行Scheduler.from_crawler - 执行Scheduler.from_set 阅读全文

posted @ 2020-06-21 19:10 高汤阅读(158) 评论(0) 推荐(0)

高汤

公告