摘要: scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 scrapy-redis组件 安装:pip 阅读全文
posted @ 2018-08-02 20:04 一抹浅笑 阅读(604) 评论(0) 推荐(0)
摘要: 去重规则 在爬虫应用中,我们可以在request对象中设置参数dont_filter = True 来阻止去重。而scrapy框架中是默认去重的,那内部是如何去重的。 请求进来以后,会先执行from_settings方法,从settings文件中找一个DUPEFILTER_DEBUG的配置,再执行i 阅读全文
posted @ 2018-08-02 15:23 一抹浅笑 阅读(14596) 评论(0) 推荐(3)