2020年4月12日

摘要：在爬虫已启动，就打开一个 chrom 浏览器，以后都用这一个浏览器来爬数据 1 在爬虫中创建 bro 对象在 middlewares.py 中定义一个 class: spider中的代码：下载中间件使用把 selenium 集成到 scrapy 中主要改变的就是这两处地方以上的在 scrap 阅读全文

posted @ 2020-04-12 19:43 Rannie` 阅读(334) 评论(0) 推荐(0)

scrapy 分布式爬虫

摘要： [TOC] 介绍原来 scrapy 的 Scheduler 维护的是本机的任务队列（存放 Request 对象及其回调函数等信息）+ 本机的去重队列（存放访问过的url地址）所以实现分布式爬取的关键就是，找一台专门的主机上运行一个共享的队列比如 Redis，然后重写 Scrapy 的 Sche 阅读全文

posted @ 2020-04-12 18:29 Rannie` 阅读(229) 评论(0) 推荐(0)

crapy 去重与 scrapy_redis 去重与布隆过滤器

摘要： [TOC] 在开始介绍 scrapy 的去重之前，先想想我们是怎么对 requests 对去重的。 requests 只是下载器，本身并没有提供去重功能。所以我们需要自己去做。很典型的做法是事先定义一个去重队列，判断抓取的 url 是否在其中，如此时的集合是保存在内存中的，随着爬虫抓取内容变多，阅读全文

posted @ 2020-04-12 17:54 Rannie` 阅读(437) 评论(0) 推荐(0)

公告