摘要: 1 #如果需要用户名和密码才能登陆网站,则需要认证设置auth=() 2 import requests 3 response = requests.get(url,auth=('user','password')) 4 5 #或者 6 from requests.auth import HTTPBasicAuth 7 response = requests.get(url,auth=HTTP... 阅读全文
posted @ 2017-05-11 23:33 道高一尺 阅读(461) 评论(0) 推荐(0)
摘要: 1 import requests 2 3 proxies={ 4 'http':'http://192.168.1.1:88' 5 'https':'https://192.168.1.1:88' 6 #如果代理ip需要用户名和密码的话 'http':'user:password@192.168.1.1:88' 7 } 8 response = request... 阅读全文
posted @ 2017-05-11 23:25 道高一尺 阅读(1474) 评论(0) 推荐(0)
摘要: 1 import requests 2 #response = requests.get('https://www.12306.cn') 3 #print(response.status_code) 4 #以上会显示错误,因为需要证书验证 5 6 #解决证书问题,我们有两种方法 7 8 #方法一,我们可以通过设置verify=False来忽略证书验证 9 response ... 阅读全文
posted @ 2017-05-11 23:11 道高一尺 阅读(2669) 评论(0) 推荐(1)
摘要: 1 import requests 2 requests.get('http://httpbin.org/cookies/set/number/123456') 3 response = requests.get('http://httpbin.org/cookies') 4 print(response.text) 5 #以上结果为空,原来设想通过第一步的设置cookies,然后通过... 阅读全文
posted @ 2017-05-11 22:52 道高一尺 阅读(263) 评论(0) 推荐(0)
摘要: 1 import requests 2 files = {'file':open('D://tomas.jpg','rb')}#设定一个files,打开文件对象 3 response = requests.post('http://httpbin.org/post',files=files) 4 print(response.text) 阅读全文
posted @ 2017-05-11 22:29 道高一尺 阅读(307) 评论(0) 推荐(0)
摘要: post与get方法的区别在于post需要提交一些数据以备处理。 在requests里面非常简单,headers,data都是直接加进去就可以了 阅读全文
posted @ 2017-05-11 21:20 道高一尺 阅读(252) 评论(0) 推荐(0)
摘要: 1 import requests 2 3 response= requests.get('http://www.baidu.com')#get方法请求网址 4 print(response) 5 print(response.status_code)#状态码 6 print(response.text)#响应体 7 print(response.cookies)#获取cookies另外还有r... 阅读全文
posted @ 2017-05-11 20:37 道高一尺 阅读(427) 评论(1) 推荐(0)
摘要: 1 url分解 import urllib.parse 2 3 result = urllib.parse.urlparse('http://www.baidu.com') 4 print(result) 5 结果为:ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='', fragment... 阅读全文
posted @ 2017-05-11 18:53 道高一尺 阅读(2366) 评论(0) 推荐(0)
摘要: 1 #捕获异常 2 import urllib.request 3 import urllib.error 4 5 try: 6 response = urllib.request.urlopen('http://sasd.com') 7 except urllib.error.URLError as e: 8 print('挂掉的情形是:',e.reason) 1 ... 阅读全文
posted @ 2017-05-11 18:12 道高一尺 阅读(272) 评论(0) 推荐(0)
摘要: urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存哦,下面整理了一些关于urllib使用中的一些关于header,代理,超时,认证,异常处理处理方法,下面一起来看看。 python3 抓取网页资源 阅读全文
posted @ 2017-05-11 17:37 道高一尺 阅读(386) 评论(0) 推荐(0)
摘要: 1 提取cookie信息并打印 2 import http.cookiejar,urllib.request 3 4 #http.cookiejar.CookieJar的作用是提取cookie信息 5 #在这里是声明cookie变量,它是http.cookiejar.CookieJar的实例 6 cookie = http.cookiejar.CookieJar() 7 #HTT... 阅读全文
posted @ 2017-05-11 17:33 道高一尺 阅读(258) 评论(0) 推荐(0)
摘要: cookielib模块 cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源。例如可以利用本模块 的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送。coiokielib模块用到的对象主要有下面几个:Coo 阅读全文
posted @ 2017-05-11 16:51 道高一尺 阅读(1734) 评论(0) 推荐(0)
摘要: 第一步: proxy_support = urllib.request.ProxyHandler({字典参数}) 字典类型举例:{'http':'192.168.1.1:88'} 注意:这里可以创建一个iplist随机选取代理ip进行访问,方法如下: iplist =['192.168.1.1:88 阅读全文
posted @ 2017-05-11 12:41 道高一尺 阅读(240) 评论(0) 推荐(0)
摘要: urllib.request.urlopen(url,data,timeout) 其中如果data被赋值,则请求的方式就会由get转为post,而post需要提供一些待处理的数据。 这些待处理的数据需要一定的格式,因此就需要urllib.parse.urlencode urllib.parse.ur 阅读全文
posted @ 2017-05-11 12:11 道高一尺 阅读(3316) 评论(0) 推荐(0)
摘要: 1 import urllib.request 2 #可以将url先构造成一个Request对象,传进urlopen 3 #Request存在的意义是便于在请求的时候传入一些信息,而urlopen则不 4 request = urllib.request.Request('http: 5 response = urllib.request.url... 阅读全文
posted @ 2017-05-11 11:45 道高一尺 阅读(9190) 评论(1) 推荐(0)