urilib的介绍

urllib是提供的一系列操作url的库。:

作用模拟用户使用浏览器访问网页。

使用步骤

1 导入urllibrequest模块。

2 请求url.

Resp = request.urlopen(http://www.baidu.com);

 

 

 

模拟更逼真浏览器:

一些网站会根据user-agentorigin两个参数来判断是不是                              一个真实浏览器还是爬虫

    携带user-agent头:

  req = request.Request(url);

  Req.add_header(key,value);  

  key:可以是User-Agent

  Value:可以是Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36 QIHU 360SE从浏览器当中找到

  key:可以是Origin

  Value:可以是http://www.thsrc.com.tw

 

  Resp=request.urlopen(req);

 

Resp:为响应对象。

3 响应数据。Resp.read().decode(utf-8);decode函数必须要

 

--------------------------------------------GET请求----------------------------------------

--------------------------------------------POST请求--------------------------------------

1 导入urllibparse

From urllib import parse;

2 使用urlencode生成post数据。

postData = parse.urlencode(list);   list=[(),()]

?python的数据类型list = [(),(),()]是什么

是列表下的一个一个元组。

3 view source下面是post发送的数据

postData=parse.urllencode();

4 urlopen(req,data=postData.encode(utf-8));

 

 

posted @ 2017-05-07 16:38  freebirds  阅读(347)  评论(0)    收藏  举报