爬虫的基本知识

http：超文本传输协议
- 以明文的形式传输
- 效率更高，但是不安全
https：http + SSL（安全套接字层）
- 传输数据之前先进行加密，之后解密获取内容
- 效率较低，但是安全
get和post请求的区别
- get请求没有请求体,post有请求体,get把数据方法url地址中
- post请求常用于登录注册,传输大文本的时候
- post请求携带的数据量比get大，多
HTTP之请求
- 1、请求行
- 2、请求头
  - User-Agent: 用户代理：对方服务器用过User-Agent知道当前请求对方资源的是什么浏览器
    - 如果我们需要模拟手机版的浏览器发起请求，响应的，就需要把User-Agent改成手机版
  - Cookie: 用来存储用户信息的，每次携带上发送给对方的浏览器
    - 要获取登录后才能访问的页面
    - 对方的服务器会通过cookie判断我们是不是一个爬虫
- 3、请求体
  - 携带数据
  - get请求没有请求体
  - post请求有请求体
HTTP之响应
- 1、响应头
  - Set-Cookie: 对方服务器通过该字段设置cookie到本地
- 2、响应体
  - url地址对应的响应

posted on 2019-04-15 16:42 liudemeng 阅读(256) 评论(0) 收藏举报