网页获取

网页获取一般使用requests库。

requests库

1、定义：requests库是个简洁而且简单的处理HTTP请求的第三方库。

2、requests库中的网页请求函数：

函数	描述
get(url,[,timeout = n])	对应HTTP的GET方式，获取网页的最常用的方法，可增加timeout=n参数，设定每次请求超时时间为n秒
post(url,data = {'key':'value'})	对应HTTP的POST方式，其中字典用于传递客户数据
delete(url)	对应HTTP的DELETE方式
head(url)	对应HTTP的HEAD方式
options(url)	对应HTTP的OPTIONS方式
put(url,data = {'key':'value'})	对应HTTP的PUT方式，其中字典用于传递客户数据

注：get()是获取网页的最常用的方法，在调用requests.get()函数后，返回的网页内容会保存为一个Response对象，其中，get()函数的参数url必须链接采用HTTP或HTTPS方式访问。

3、Response对象的属性：

属性	描述
status_code	HTTP请求的返回状态，整数，200表连接成功，404表失败
text	HTTP响应内容的字符串形式，即，也是url对应的页面内容
encoding	HTTP响应内容的编码形式
content	HTTP响应内容的二进制形式

例1：

4、Response对象的方法：

方法	描述
json()	如果HTTP响应内容包含json格式数据，该方法解析JSON数据
raise_for_status()	如果不是200，该方法就会产生异常

5、网页获取

import requests
def gethtml(url):
    try:
        r = requests.get(url,timeout = 30)
        r.raise_for_status()
        r.encoding = 'utf-8'
        return r.text
    except:
        return ""
url = "http://www.baidu.com"
print(gethtml(url))

　　结果如下：

posted @ 2020-05-10 16:38 邓若言阅读(691) 评论(0) 收藏举报

刷新页面返回顶部

喜欢花花

网页获取

requests库

公告