07 2018 档案
摘要:单线程串行与多线程(进程)并行 单线程串行与多线程(进程)并行 在编写爬虫时,性能的消耗主要在IO请求中,当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢。 1. 单线程串行 2. 多线程 注:python2里没有线程池,只有python3里面有 +回调函数 # -*- codi
阅读全文
摘要:原理 原理 1. URL https://wx.qq.com/ 1.1 获取uuid:https://login.wx.qq.com/jslogin?<(时间戳)> response 返回 ==> window.QRLogin.code = 200; window.QRLogin.uuid = "Q
阅读全文
摘要:原理 原理 1. 登陆github,获取csrf,cookie (c1); 2. 发用post请求登陆,携带用户密码和csrf,cookie(c1),进行授权,并获取cookie(c2); 3. 把c2更新到c1; 4. 携带c1可以访问后台 方法 方法
阅读全文
摘要:原理 原理 1. 访问抽屉,获取获取cookie (c1); 2. 登陆时候,携带cookie (c1); 3. 点赞时候,携带cookie (c1); 每一次发送请求,请求头必须设置 user-agent 方法一 方法一 方法二 方法二
阅读全文
摘要:# 爬取汽车之家新闻 图片 import requests from bs4 import BeautifulSoup response = requests.get( url="https://www.autohome.com.cn/news/" ) # response.encoding = "gbk" response.encoding = response.apparent...
阅读全文
摘要:文章来自这里 request request Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 A
阅读全文
浙公网安备 33010602011771号