随笔分类 -  爬虫

摘要:实现分布式爬虫:1、原理:多台主机共享一个爬取队列2、实现:利用redis中集合,重写scrapy的调度器,使用scrapy_redis模块实现3、为什么使用redis 3.1》redis基于内存,快 3.2》redis中有集合数据类型,可以自动去重,存储每个请求的指纹4、最终如何实现 4.1》先写 阅读全文
posted @ 2020-09-15 20:35 爱吃萝卜爱吃兔 阅读(212) 评论(0) 推荐(0)
摘要:在进行爬虫访问时,被访问主机除了会校验访问身份,还会校验访问者的ip, 当短时间同ip大量访问时,主机有可能会拒绝 返回,所以就现需要代理ip, 百度中可以获取到大量的免费的代理ip(ps:注意在访问一些隐私的内容时尽量少用免费代理ip,而且部分代理ip是无法使用的) 代理IP是使用方法如下: , 阅读全文
posted @ 2019-08-23 12:03 爱吃萝卜爱吃兔 阅读(527) 评论(0) 推荐(0)