吉阿吉

2021年4月20日

scrapy爬虫错误笔记

摘要: 一、 twisted.web._newclient.ResponseNeverReceived: [<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side 阅读全文

posted @ 2021-04-20 15:12 吉阿吉 阅读(434) 评论(0) 推荐(0)

2021年4月19日

Scrapy下载器中间件

摘要: 中间件:批量拦截请求和响应,分为爬虫中间件和下载中间件,通常只用下载中间件。 一、实现随机User-Agent下载器中间件 1、准备user-agent列表 2、定义RandomUserAgent类 3、实现process_request方法 #request拦截到的请求,spider爬虫类实例化的 阅读全文

posted @ 2021-04-19 22:58 吉阿吉 阅读(114) 评论(0) 推荐(0)

PhantonJS

摘要: 一、设置User-Agent,否则会出现无法跳转链接 阅读全文

posted @ 2021-04-19 22:22 吉阿吉 阅读(28) 评论(0) 推荐(0)

2021年4月16日

Fiddler

摘要: 一、File-Capture Traffic设置代理开关 二、设置代理https请求 三、各字段含义 #顺序 result:状态码 protocal:协议 host:主机名 url:完整地址 body:请求头 chahing:缓存信息 content_type:请求响应类型 process:进程 图 阅读全文

posted @ 2021-04-16 15:12 吉阿吉 阅读(52) 评论(0) 推荐(0)

gevent库

摘要: 一、猴子补丁自动 二、 阅读全文

posted @ 2021-04-16 14:38 吉阿吉 阅读(66) 评论(0) 推荐(0)

2021年4月15日

协程

摘要: 协程:同时开启多个任务,但一次只顺序执行一个,等到所执行的任务遭到阻塞,就切换到下一个任务继续执行,节省阻塞占用的时间。 单进程下协程和多线程区别不大,协程相较更安全,而多进程下,多线程可以利用多核资源。 阅读全文

posted @ 2021-04-15 11:22 吉阿吉 阅读(44) 评论(0) 推荐(0)

2021年3月14日

pickle库

摘要: 快速 阅读全文

posted @ 2021-03-14 21:35 吉阿吉 阅读(32) 评论(0) 推荐(0)

2021年2月19日

request

摘要: 一、参数详解 二、cookies相关 requests.Session返回一个session对象,该对象可以同requests一样调用get和post方法发起指定的请求。如果在使用session发起请求的过程产生了cookies,则cookies会被自动存储到session中,下次使用session 阅读全文

posted @ 2021-02-19 21:40 吉阿吉 阅读(202) 评论(0) 推荐(0)

2021年2月18日

pycharm使用小技巧

摘要: 一、注释规范 二、重构重命名 右键 refactor rename 三、断点调试 dubug 阅读全文

posted @ 2021-02-18 16:56 吉阿吉 阅读(50) 评论(0) 推荐(0)

selenium

摘要: 一、iframe嵌套 webdriver.switch_to.iframe() 二、动作链 回车键:send_keys(Keys.RETU 刷新: refresh 三、页面等待 四、填充表单 Select类 五、Cookies相关 webdriver中提供了操作cookie的相关方法: get_co 阅读全文

posted @ 2021-02-18 16:28 吉阿吉 阅读(60) 评论(0) 推荐(0)

导航