爬虫两天上手写项目(三:requests模块简讲)

1. requests模块介绍

1.1 requests模块的作用:发送http请求,获取相应数据
1.2 安装 pip/pip3 install requests
1.3 发送get请求
1.3.1 导入
1.3.2 调用get方法,对目标URL发送请求
强烈推荐读物:
快速上手仔细读:https://2.python-requests.org/zh_CN/latest/user/quickstart.html#id2
高级用法大致读一下:https://2.python-requests.org/zh_CN/latest/user/advanced.html

2. 代理

2.1什么是代理
代理ip是一个ip,指向一个代理服务器,作用是转发请求
2.2 正向代理和反向代理的区别
知不知道最终服务器的地址作为判断标准
正向代理:客户端代理, 代理客户端, 服务端不知道实际发起请求的客户端.
反向代理:服务端代理, 代理服务端, 客户端不知道实际提供服务的服务端.
2.3代理的分类
2.3.1 透明代理
在这里插入图片描述
前两个是服务器代理ip地址,最后一个是本机的地址
2.3.2 匿名代理
在这里插入图片描述
三个都是服务器的代理地址
2.3.3 高匿代理
在这里插入图片描述
一般爬虫都是用高匿,效果最好

3. response.text和response.content的区别

在这里插入图片描述

4. 响应对象常用的参数和方法

在这里插入图片描述

在这里插入图片描述

5. 发送带请求头的请求

5.1 实例在这里插入图片描述
5.2 发送带参数请求两种方法
第一种:url中直接带参数:
在这里插入图片描述
第二种:使用params参数:
1. 构建参数字典
2. 发送请求的时候设置参数字典在这里插入图片描述

6. cookie参数的使用

写法有两种,平常写代码的时候使用for,面试的时候尽量使用列表推导式这样能表现自己
第一种:在这里插入图片描述
第二种:在这里插入图片描述
在这里插入图片描述

超时参数timeout的使用

因为平常上网时会遇到网络波动的问题,一个请求请求了很久可能都没有结果,在爬虫中,一个请求很久没有结果,就会让整个项目的效率变得非常低,这个时候我们就需要执行强制要求,让他必须在一定的时间返回结果否则报错
另外每一个timeout= 1指的是等于1秒
在这里插入图片描述

verify参数与CA证书

在这里插入图片描述

posted @ 2021-02-04 10:43  了_凡  阅读(164)  评论(0编辑  收藏  举报