2020 年 4月 12 日随笔档案 - Hank·Paul

2020年4月12日

摘要： Scrapy 对接selenium # 在爬虫启动后，就只打开一个chrom浏览器，以后都用这单独一个浏览器来爬数据 # 1 在爬虫中创建bro对象 from selenium import webdriver bro = webdriver.Chrome() # 2 中间件中使用： from sc 阅读全文

posted @ 2020-04-12 20:20 Hank·Paul 阅读(269) 评论(0) 推荐(0)

Scrapy 去重源码分析

摘要： Scrapy 去重源码分析 # 去重源码分析 # from scrapy.core.scheduler import Scheduler # Scheduler下：def enqueue_request(self, request)方法判断是否去重 if not request.dont_filte 阅读全文

posted @ 2020-04-12 20:17 Hank·Paul 阅读(227) 评论(0) 推荐(0)

fake-useragent插件

摘要： fake-useragent 该插件用来随机生成请求头中的user-agent https://github.com/hellysmile/fake-useragent 安装 pip3 install fake-useragent 使用 from fake_useragent import User 阅读全文

posted @ 2020-04-12 16:54 Hank·Paul 阅读(1350) 评论(0) 推荐(0)

Scrapy 框架提高爬取效率的配置

摘要： Scrapy 框架提高爬取效率的配置 - 在配置文件中进行相关的配置即可:(默认还有一套setting) #1 增加并发：默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。阅读全文

posted @ 2020-04-12 16:48 Hank·Paul 阅读(213) 评论(0) 推荐(0)

Hank·Paul

原CSDN博客已不用，转到此处

公告