Python 爬虫-urllib和request库

urllib库

urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据。

发送请求

简单的请求

urllib.request.urlopen(url,data=None,[timeout, ]*,cafile=None,capath=None,cadefault=False,context=None)

Urllib是用于访问URL的唯一方法。
data默认为None，代表请求方式为GET，反之为POST；timeout是超时设置，指定阻塞操作的超时；
cafile，capath，cadefault：使用参数指定一组HTTPS请求的可信CA证书；
context：描述各种SSL选项的实例。
常用的是url、data、timeout，遇到证书验证可将其直接关闭。

urlopen对象提供获取网页响应内容的方法。
read(),readline(),readlines(),fileno(),close()：对HTTPResponse类型数据操作。
Info():返回HTTPMessage对象，表示远程服务器返回的头信息。
getcode():返回HTTP状态码。
geturl():返回请求的URL。

复杂的请求

urllib,request.Request(url,data=None,header={},method=None)

声明一个对象request对象，该对象可自定义header(请求头)等请求信息。
Method为post或get。

urlretrieve函数：

这个函数可以方便的将网页上的一个文件保存到本地。

request.urlretrieve(url,文件名)

urlencode函数：编码

urlencode可以把字典数据转换为URL编码的数据。

from urllib import parse

data = {'name':'老王','age':18,'greet':'hello world'}

qs = parse.urlencode(data)
print(qs)

#name=%E8%80%81%E7%8E%8B&age=18&greet=hello+world

parse_qs函数：解码

可以将经过编码后的url参数进行解码

print(parse.parse_qs(qs))
# {'name': ['老王'], 'age': ['18'], 'greet': ['hello world']}

urlparse和urlsplit函数：解析url

from urllib import parse

url = 'http://www.baidu.com/index.html;user?id=S#comment'

result = parse.urlparse(url)
# result = parse.urlsplit(url)

print(result)
print(result.scheme)
print(result.netloc)
print(result.path)
#urlparse里有params属性，而urlsplit没有这个params属性。
print(result.params)

request.Request类：网络请求可以增加请求头

from urllib import request

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 			(KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}

rq = request.Request('https://www.baidu.com/',headers=headers)


resp = request.urlopen(rq)

print(resp.read())

ProxyHandler处理器（代理设置）：封ip问题

代理原理：在请求目的网站之前，先请求代理服务器，然后让代理服务器去请求目的网站，代理服务器拿到目的网站的数据后，再转发给我们的代码。
http://httpbin.org：这个网站可以方便的查看http请求的一些参数。

在代码中使用代理示例：

# 使用代理
# 步骤
url = 'http://httpbin.org/ip'
#1. 使用ProxyHandler,传入代理构建一个handler
handler = request.ProxyHandler({'http':'122.193.244.243:9999'})
#2. 使用上面创建的handler构建一个opener
opener = request.build_opener(handler)
#3. 使用opener去发送一个请求
resp = opener.open(url)
print(resp.read())

什么是cookie：指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据
cookie的格式：
Set-Cookie: NAME=VALUE；Expires/Max-age=DATE；Path=PATH； Domain=DOMAIN_NAME；SECURE
参数意义：
NAME：cookie的名字。
VALUE：cookie的值。
Expires：cookie的过期时间。
Path：cookie作用的路径。
Domain：cookie作用的域名。
SECURE：是否只在https协议下起作用。

http.cookiejar模块：提供用于存储cookie的对象

CookieJar：管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中，对CookieJar实例进行垃圾回收后cookie也将丢失。
FileCookieJar (filename,delayload=None,policy=None)：从CookieJar派生而来，用来创建FileCookieJar实例，检索cookie信息并将cookie存储到文件中。filename是存储cookie的文件名。delayload为True时支持延迟访问访问文件，即只有在需要时才读取文件或在文件中存储数据。
MozillaCookieJar (filename,delayload=None,policy=None)：从FileCookieJar派生而来，创建与Mozilla浏览器 cookies.txt兼容的FileCookieJar实例。
LWPCookieJar (filename,delayload=None,policy=None)：从FileCookieJar派生而来，创建与libwww-perl标准的 Set-Cookie3 文件格式兼容的FileCookieJar实例。

实例：

from urllib import request
from urllib import parse
from http.cookiejar import  CookieJar

# 登录：https://i.meishi.cc/login.php?redirect=https%3A%2F%2Fwww.meishij.net%2F
#个人网页https://i.meishi.cc/cook.php?id=13686422

headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}

#1.登录
#1.1 创建cookiejar对象
cookiejar = CookieJar()
#1.2 使用cookiejar创建一个HTTPCookieProcess对象
handler = request.HTTPCookieProcessor(cookiejar)
#1.3 使用上一步的创建的handler创建一个opener
opener = request.build_opener(handler)
#1.4 使用opener发送登录请求  (账号和密码)

post_url = 'https://i.meishi.cc/login.php?redirect=https%3A%2F%2Fwww.meishij.net%2F'
post_data = parse.urlencode({
    'username':'1097566154@qq.com',
    'password':'wq15290884759.'
})
req = request.Request(post_url,data=post_data.encode('utf-8'))
opener.open(req)


#2.访问个人网页
url = 'https://i.meishi.cc/cook.php?id=13686422'
rq = request.Request(url,headers=headers)
resp = opener.open(rq)
print(resp.read().decode('utf-8'))

cookie加载与保存

from urllib import request
from http.cookiejar import MozillaCookieJar

# 保存
# cookiejar = MozillaCookieJar('cookie.txt')
# handler = request.HTTPCookieProcessor(cookiejar)
# opener = request.build_opener(handler)
# resp = opener.open('http://www.httpbin.org/cookies/set/course/abc')
#
# cookiejar.save(ignore_discard=True,ignore_expires=True)

# ignore_discard=True  即使cookies即将被丢弃也要保存下来
# ignore_expires=True  如果cookies已经过期也将它保存并且文件已存在时将覆盖

#加载

cookiejar = MozillaCookieJar('cookie.txt')
cookiejar.load()
handler = request.HTTPCookieProcessor(cookiejar)
opener = request.build_opener(handler)
resp = opener.open('http://www.httpbin.org/cookies/set/course/abc')

for cookie in cookiejar:
    print(cookie)

2.requests库 ---第三方库

Requests：让HTTP服务人类

安装和文档地址：

pip install requests

发送GET请求

import requests

# 添加headers和查询参数
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}
kw = {'wd':'中国'}
# params 接收一个字典或者字符串的查询参数，字典类型自动转换为url编码，不需要urlencode()
response = requests.get('https://www.baidu.com/s',headers=headers,params=kw)
print(response)

# 属性
# 查询响应内容
print(response.text)  #返回unicode格式的数据
print(response.content) #返回字节流数据
print(response.url)  #查看完整url地址
print(response.encoding) # 查看响应头部字符编码

response.text和response.content的区别：

response.content ：这个是直接从网络上抓取的数据，没有经过任何的编码，所以是一个bytes类型，其实在硬盘上和网络上传输的字符串都是bytes类型
response.text：这个是str的数据类型，是requests库将response.content进行解码的字符串，解码需要指定一个编码方式，requests会根据自己的猜测来判断编码的方式，所以有时候可能会猜测错误，就会导致解码产生乱码，这时候就应该进行手动解码，比如使用response.content.decode('utf-8')

发送POST请求：

response = requests.post("http://www.baidu.com/",data=data)

POST请求方式

import requests

url = 'https://i.meishi.cc/login.php?redirect=https%3A%2F%2Fwww.meishij.net%2F'
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}
data = {
    'redirect': 'https://www.meishij.net/',
    'username': '1097566154@qq.com',
    'password': 'wq15290884759.'
}
resp = requests.post(url,headers=headers,data=data)
print(resp.text)

使用代理：

只要在请求的方法中（比如get或者post）传递proxies参数就可以了。

import requests

proxy = {
    'http':'111.77.197.127:9999'
}
url = 'http://www.httpbin.org/ip'
resp = requests.get(url,proxies=proxy)
print(resp.text)

基本使用：模拟登陆

import requests
url = 'https://www.zhihu.com/hot'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
    'cookie':'_zap=59cde9c3-c5c0-4baa-b756-fa16b5e72b10; d_c0="APDi1NJcuQ6PTvP9qa1EKY6nlhVHc_zYWGM=|1545737641"; __gads=ID=237616e597ec37ad:T=1546339385:S=ALNI_Mbo2JturZesh38v7GzEeKjlADtQ5Q; _xsrf=pOd30ApWQ2jihUIfq94gn2UXxc0zEeay; q_c1=1767e338c3ab416692e624763646fc07|1554209209000|1545743740000; tst=h; __utma=51854390.247721793.1554359436.1554359436.1554359436.1; __utmc=51854390; __utmz=51854390.1554359436.1.1.utmcsr=zhihu.com|utmccn=(referral)|utmcmd=referral|utmcct=/hot; __utmv=51854390.100-1|2=registration_date=20180515=1^3=entry_date=20180515=1; l_n_c=1; l_cap_id="OWRiYjI0NzJhYzYwNDM3MmE2ZmIxMGIzYmQwYzgzN2I=|1554365239|875ac141458a2ebc478680d99b9219c461947071"; r_cap_id="MmZmNDFkYmIyM2YwNDAxZmJhNWU1NmFjOGRkNDNjYjc=|1554365239|54372ab1797cba8c4dd224ba1845dd7d3f851802"; cap_id="YzQwNGFlYWNmNjY3NDFhNGI4MGMyYjZjYjRhMzQ1ZmE=|1554365239|385cc25e3c4e3b0b68ad5747f623cf3ad2955c9f"; n_c=1; capsion_ticket="2|1:0|10:1554366287|14:capsion_ticket|44:MmE5YzNkYjgzODAyNDgzNzg5MTdjNmE3NjQyODllOGE=|40d3498bedab1b7ba1a247d9fc70dc0e4f9a4f394d095b0992a4c85e32fd29be"; z_c0="2|1:0|10:1554366318|4:z_c0|92:Mi4xOWpCeUNRQUFBQUFBOE9MVTBseTVEaVlBQUFCZ0FsVk5iZzJUWFFEWi1JMkxnQXlVUXh2SlhYb3NmWks3d1VwMXRB|81b45e01da4bc235c2e7e535d580a8cc07679b50dac9e02de2711e66c65460c6"; tgw_l7_route=578107ff0d4b4f191be329db6089ff48'
}
resp = requests.get(url,headers=headers)
print(resp.text)

session：共享cookie

案例：

post_url = 'https://i.meishi.cc/login.php?redirect=https%3A%2F%2Fwww.meishij.net%2F'

post_data = {
    'username':'1097566154@qq.com',
    'password':'wq15290884759.'
}
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}

# 登录
session = requests.session()
session.post(post_url,headers=headers,data=post_data)


#访问个人网页
url = 'https://i.meishi.cc/cook.php?id=13686422'

resp = session.get(url)
print(resp.text)

处理不信任的SSL证书：

对于那些已经被信任的SSL证书的网站，比如https://www.baidu.com/，那么使用requests直接就可以正常的返回响应。示例代码如下：

resp = requests.get('https://inv-veri.chinatax.gov.cn/',verify=False)
print(resp.content.decode('utf-8'))

posted @ 2021-03-26 22:38 KKKyrie 阅读(578) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

KKKyrie

Hello World!

Python 爬虫-urllib和request库

urllib库

发送请求

urlretrieve函数：

urlencode函数：编码

parse_qs函数：解码

urlparse和urlsplit函数：解析url

request.Request类：网络请求可以增加请求头

ProxyHandler处理器（代理设置）：封ip问题

http.cookiejar模块：提供用于存储cookie的对象

2.requests库 ---第三方库

安装和文档地址：

发送GET请求

response.text和response.content的区别：

发送POST请求：

使用代理：

session：共享cookie

处理不信任的SSL证书：

公告

KKKyrie

Hello World!

Python 爬虫-urllib和request库

urllib库

发送请求

urlretrieve函数：

urlencode函数：编码

parse_qs函数：解码

urlparse和urlsplit函数：解析url

request.Request类：网络请求 可以增加请求头

ProxyHandler处理器（代理设置）：封ip问题

cookie: 登录

http.cookiejar模块：提供用于存储cookie的对象

2.requests库 ---第三方库

安装和文档地址：

发送GET请求

response.text和response.content的区别：

发送POST请求：

使用代理：

cookie：

session：共享cookie

处理不信任的SSL证书：

公告

request.Request类：网络请求可以增加请求头