摘要:
scrapy如果抓取太频繁了,就被被封IP,目前有以下主要策略保证不会被封: 策略1:设置download_delay下载延迟,数字设置为5秒,越大越安全 策略2:禁止Cookie,某些网站会通过Cookie识别用户身份,禁用后使得服务器无法识别爬虫轨迹 策略3:使用user agent池。也就是每 阅读全文
posted @ 2019-06-11 13:22
leffss
阅读(1477)
评论(0)
推荐(0)
摘要:
scrapy-redis + Bloom Filter分布式爬取tencent社招信息 什么是scrapy-redis 什么是 Bloom Filter 为什么需要使用scrapy-redis + Bloom Filter 目标任务 安装爬虫 创建爬虫 编写 items.py 编写 spiders/ 阅读全文
posted @ 2019-06-11 13:18
leffss
阅读(641)
评论(0)
推荐(0)
摘要:
scrapy-redis分布式爬取tencent社招信息 什么是scrapy-redis 目标任务 安装爬虫 创建爬虫 编写 items.py 编写 spiders/tencent.py 编写 pipelines.py 编写 middlewares.py 编写 settings.py 搭建 redi 阅读全文
posted @ 2019-06-11 13:12
leffss
阅读(330)
评论(0)
推荐(0)
摘要:
scrapy爬取cnblogs文章 目标任务 安装爬虫 创建爬虫 编写 items.py 编写 spiders/cnblogs.py 编写 pipelines.py 编写 settings.py 运行爬虫 scrapy爬取cnblogs文章 目标任务 安装爬虫 创建爬虫 编写 items.py 编写 阅读全文
posted @ 2019-06-11 13:07
leffss
阅读(793)
评论(0)
推荐(0)