摘要: Scrapy 对接selenium # 在爬虫启动后,就只打开一个chrom浏览器,以后都用这单独一个浏览器来爬数据 # 1 在爬虫中创建bro对象 from selenium import webdriver bro = webdriver.Chrome() # 2 中间件中使用: from sc 阅读全文
posted @ 2020-04-12 20:20 Hank·Paul 阅读(267) 评论(0) 推荐(0) 编辑
摘要: Scrapy 去重源码分析 # 去重源码分析 # from scrapy.core.scheduler import Scheduler # Scheduler下:def enqueue_request(self, request)方法判断是否去重 if not request.dont_filte 阅读全文
posted @ 2020-04-12 20:17 Hank·Paul 阅读(217) 评论(0) 推荐(0) 编辑
摘要: fake-useragent 该插件用来随机生成请求头中的user-agent https://github.com/hellysmile/fake-useragent 安装 pip3 install fake-useragent 使用 from fake_useragent import User 阅读全文
posted @ 2020-04-12 16:54 Hank·Paul 阅读(1314) 评论(0) 推荐(0) 编辑
摘要: Scrapy 框架提高爬取效率的配置 - 在配置文件中进行相关的配置即可:(默认还有一套setting) #1 增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 阅读全文
posted @ 2020-04-12 16:48 Hank·Paul 阅读(207) 评论(0) 推荐(0) 编辑