爬虫模块之requests

1XX——————服务端已经成功接收到了用户的数据正在处理 用户可以继续提交或者等待
2XX——————200 == OK请求成功服务端发送了响应
3XX——————重定向(原本想访问A页面但是内部自动跳到了B页面)
4XX——————403请求不符合条件    404请求资源不存在(图一)
5XX——————服务器内部错误

自定义响应状态码

因为HTTP的状态码太少不够用
所以有些公司创建了自定义响应状态码
eg:        
10001————xxx    
10002————yyy

# 参考网址: 聚合数据

requests模块基本使用

发送网络请求
    import requests
    requests.get(url)  # 发送get请求
    requests.post(url)  # 发送post请求

获取响应状态码

# print(res.status_code)

指定字符编码

# res.encoding = 'utf8'
# print(res.text)  # 获取网页字符串数据

获取bytes类型的数据

print(res.content)

获取页面

import requests

res = requests.get('https://www.baidu.com/')
with open(r'baidu1.html', 'wb') as f:
    f.write(res.content)

携带参数的get请求

requests.get(url,params={})

如何携带请求头数据

requests.get(url,headers={})

演示

import requests


headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
}
res = requests.get('https://www.baidu.com/s',
                    params={'wd':"蜘蛛侠"},
                    headers=headers
                   )
with open(r'zzx.html','wb') as f:
    f.write(res.content)

View Code

代码版搜索引擎

import requests


headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
}
keyword = input('请输入你想搜索的数据>>>:').strip()
res = requests.get('https://www.baidu.com/s',
                    params={'wd':keyword},
                    headers=headers
                   )
with open(r'zzx.html','wb') as f:
    f.write(res.content)

View Code

防爬措施

校验当前请求是否是浏览器发出的
需请求头里面的User-Agent键值对
只要请求里面含有该键值对，就表示自己是个浏览器，没有则不是

posted @ 2021-09-15 20:41 陌若安然阅读(48) 评论(0) 收藏举报

刷新页面返回顶部

陌若安然

爬虫模块之requests

目录

re模块

演示准备

演示一

演示二

演示三

演示四

分组优先级

演示准备

优先展示

取消分组优先展示

爬虫模块之requests

网络请求方法

get请求

补充

post请求

补充

HTTP协议

四大特性

数据请求格式

请求数据格式

响应数据格式

响应状态码

举例

自定义响应状态码

requests模块基本使用

获取响应状态码

指定字符编码

获取bytes类型的数据

获取页面

携带参数的get请求

如何携带请求头数据

演示

代码版搜索引擎

防爬措施

公告