摘要:
把起始URL放到redis中去 from scrapy_redis.spiders import RedisSpider # 继承RedisSpider class ChoutiSpider(RedisSpider): name = 'chouti' allowed_domains = ['chou 阅读全文
posted @ 2020-06-21 19:13
高汤
阅读(641)
评论(0)
推荐(0)
摘要:
去重的配置: DUPEFILTER_KEY = 'dupefilter:%(timestamp)s' DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 调度器配置: SCHEDULER = "scrapy_redis.schedul 阅读全文
posted @ 2020-06-21 19:12
高汤
阅读(363)
评论(0)
推荐(0)
摘要:
整个爬虫流程 1、scrapy crawl chouti --nolog 2、找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置并实例化调试器对象 - 执行Scheduler.from_crawler - 执行Scheduler.from_set 阅读全文
posted @ 2020-06-21 19:10
高汤
阅读(154)
评论(0)
推荐(0)

浙公网安备 33010602011771号