爬虫

1. 请求过程与网页基础

url请求的网址,统一资源定位符号,唯一确定我们想要的资源

请求过程

客户端通常指web浏览器或APP向服务器发送请求,服务器接收到请求,进行处理,并向客户端发起响应

2. 请求

请求:由客户端向服务器发出的,可以分为四个部分,请求方法,请求网址,请求头,请求体

常见的8种请求方法

get:请求页面并返回页面内容

post:用于提交表单数据或上传文件,数据包含在请求体中

put:从客户端向服务区发送数据取代指定文档中的内容

delete:请求服务器删除指定的内容

connect:把服务器当做跳板,让服务器代替客户端访问其他网页

options:回显服务器收到的请求用于测试或诊断

### get和post请求的区别

1. get请求中的参数包含在url里面,数据可以在url中看到而post请求的url不会包含这些数据,post数据都是通过表单形式传输的,会包含在请求体中

2. get请求提交的数据最多只有1024字节,而post没有限制

3. post请求比get相对安全

# 请求头

请求头,用来说明服务器要使用的附加信息,重点掌握:Accept,Cookie,Referer,User-Agent,Host

1.Accept:请求报头域,用于指定客户端可接受那些类型的信息 # 重点

2.Cookie:也常用复数形式Cookie,这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据。它是主要功能是维护当前访问会话。例如,我们输

用户名和密码成功登录某个网站后,服务器会用会话保存登录状态信息,后面我们每次刷新或请求该站点的其他页面时,会发现都是登录状态,这就

Cookie的功劳。Cookie里面有信息标识了我们每次刷新或请求该站点是其他页面时,会发现都是登录状态,这就是Cookie的功劳。Cookie里面有信息标

了我们所对应的服务器的对话,每次浏览器在请求该站点的页面时,都会在请求头中加上Cookies并将其发送给服务器,服务器通过Cookies识别出是我

自己,并且查出当前状态是登录状态,所以返回结果加上登录之后才能看到的网页内容 # 重点

3.Referer:此内容用来标识这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理。如作来源统计、防盗链处理等 # 微重点

4.User-Agent:简称UA,它是一个特殊的字符串头,可以使用服务器识别客户使用的操作系统及版本,浏览器及版本等信息。在做爬虫时加上此信息,

以伪装为浏览器,如果伪装为浏览器:如果不加,很有可能会被识别为爬虫 # 重点

5.x-requested-with:XMLHttpRequest # 代表ajax请求

6.Accept-Language:指定客户端可接受的语言类型

7.Accept-Encodeing:指定客户端可接受的内容编码

8.Content-Type:也叫互联网媒体类型(Internet Media Type) 或者 MIME 类型,在HTTP协议消息头中,它表示具体请求中媒介类型信息,;例如

text/html代表HTML格式。image/gif代表GIF图片,application/json代表JSON类型

请求体:(古诗文网登陆实例)

请求体一般承载的内容是POST请求中的表单数据,而对于GET请求请求体则为空

get获取页面资源

get和post是否都能向服务器传递数据

 

posted @ 2020-06-07 23:00  尚尚123  阅读(182)  评论(0编辑  收藏  举报