request库
在IDLE中输入以下,确认request
>>> import requests
>>> r = requests.get("http://www.baidu.com")
>>> r.status_code
200 //表示访问成功
*****************************************************
>>> r.encoding = 'utf-8'
>>> r.text
request.get(url,params=None,**kwargs)
oarams :url中的额外参数,字典或字节流格式,可选
**kwargs:12个控制访问参数
Response对象
爬取网页的通用框架
---------------------------------------------------------
def getHTMLText(url):
try:
r = requsets.get(url,timeout = 30)
r.raise_for_status() #如果状态不是200,引发HTTPError异常
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"
************************************
Requests库的异常
HTTP协议 HyperText Transfer Protocol 超文本传输协议
url格式 http://host[:port][path]
host:合法的internet主机域名或者ip地址
port:端口号默认80
path:请求资源的路径
**kwarrgs:类型
params:字典或字节序列,作为参数增加到url中
data:字典,字节序列或文件对象,作为Request的内容。
json:JSON格式的数据,作为Request的内容。
headers:字典,HTTP定制头
****
cookies:字典或CookieKar,Request中的cookie
auth:元组类型,支持认证功能
files:字典类型,传输文件
timeout:设定超时时间,秒为单位
*********
proxies:字典类型,设定访问代理服务器,可以增加登录认证。
***高级
allow_redirects:True/False,默认为True,重定向开关。
stream:True/False.默认为True,获取内容立即下载开关。
verify: True/False.默认为True,认证SSL证书开关
cert:本地SSL证书路径