随笔分类 - 爬虫
摘要:实现分布式爬虫:1、原理:多台主机共享一个爬取队列2、实现:利用redis中集合,重写scrapy的调度器,使用scrapy_redis模块实现3、为什么使用redis 3.1》redis基于内存,快 3.2》redis中有集合数据类型,可以自动去重,存储每个请求的指纹4、最终如何实现 4.1》先写
阅读全文
摘要:在进行爬虫访问时,被访问主机除了会校验访问身份,还会校验访问者的ip, 当短时间同ip大量访问时,主机有可能会拒绝 返回,所以就现需要代理ip, 百度中可以获取到大量的免费的代理ip(ps:注意在访问一些隐私的内容时尽量少用免费代理ip,而且部分代理ip是无法使用的) 代理IP是使用方法如下: ,
阅读全文
浙公网安备 33010602011771号