urilib的介绍
urllib是提供的一系列操作url的库。:
作用:模拟用户使用浏览器访问网页。
使用步骤
1 导入urllib的request模块。
2 请求url.
Resp = request.urlopen(“http://www.baidu.com”);
模拟更逼真浏览器:
一些网站会根据user-agent和origin两个参数来判断是不是 一个真实浏览器还是爬虫。
携带user-agent头:
req = request.Request(url);
Req.add_header(key,value);
key:可以是User-Agent
Value:可以是Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36 QIHU 360SE(从浏览器当中找到)
key:可以是Origin
Value:可以是http://www.thsrc.com.tw
Resp=request.urlopen(req);
Resp:为响应对象。
3 响应数据。Resp.read().decode(“utf-8”);decode函数必须要
--------------------------------------------GET请求----------------------------------------
--------------------------------------------POST请求--------------------------------------
1 导入urllib的parse
From urllib import parse;
2 使用urlencode生成post数据。
postData = parse.urlencode(list); list=[(),()]
?python的数据类型list = [(),(),()]是什么
是列表下的一个一个元组。
3 view source下面是post发送的数据
postData=parse.urllencode();
4 urlopen(req,data=postData.encode(“utf-8”));

浙公网安备 33010602011771号