HTTP协议

参考:HTTP常见面试题

HTTP的基础知识

1.HTTP超文本传输协议
超文本指的是:它可以是文字、图片、视频等的混合体

2.五类状态码:

  • 1xx 类状态码属于提示信息,是协议处理中的一种中间状态,实际用到的比较少。
  • 2xx 类状态码表示服务器成功处理了客户端的请求
  • 3xx 类状态码表示客户端请求的资源发生了变动,需要客户端用新的 URL 重新发送请求获取资源,也就是重定向。浏览器会自动根据返回的url进行重定向操作。
    当返回304时,代表重定向到已存在的缓冲文件。
  • 4xx 类状态码表示客户端发送的报文有误,服务器无法处理,也就是错误码的含义。
  • 5xx 类状态码表示客户端请求报文正确,但是服务器处理时内部发生了错误,属于服务器端的错误码。

3.HTTP 常见(请求头部字段)字段有哪些?

  • Host:客户端发送请求时,用来指定服务器的域名。
  • Content-Length:body大小
  • Connection: Keep-Alive:表示保持长连接,即只要任意一端没有明确提出断开连接,则保持 TCP 连接状态。
  • Content-Type:数据格式。Accept:声明自己接收的数据格式
  • Content-Encoding:说明数据的压缩方法。Accept-Encoding 字段说明自己可以接受哪些压缩方法。

4.HTTP协议解决TCP 粘包问题:
HTTP 协议通过设置回车符、换行符作为 HTTP header 的边界,通过 Content-Length 字段作为 HTTP body 的边界,这两个方式都是为了解决“粘包”的问题。

5.GET 和 POST 有什么区别?

  • GET 请求的参数位置一般是写在 URL 中,URL 规定只能支持 ASCII,所以 GET 请求的参数只允许 ASCII 字符 ,而且浏览器会对 URL 的长度有限制(HTTP协议本身对 URL长度并没有做任何规定)。
  • POST 请求携带数据的位置一般是写在报文 body 中, body 中的数据可以是任意格式的数据,只要客户端与服务端协商好即可,而且浏览器不会对 body 大小做限制。

GET 请求可以带 body 吗?答:可以携带,但一般不携带。GET 请求可以带 body 吗?

6.强制缓存与协商缓存

  • 强制缓存:服务器的response中设置Cache-Control或Expires字段,来告诉浏览器此资源过多久才过期,浏览器可以缓存起来。当有缓存的时候,不会访问服务器。
  • 协商缓存:每次都问一下服务器,我这个缓存是否过期,没有过期,则将收到状态码304,然后直接使用已存在的缓冲文件。

协商缓存可以基于两种头部来实现:

  • 响应头部中的 Last-Modified:标示这个响应资源的最后修改时间;
    请求头部中的 If-Modified-Since:标示这个响应资源的最后修改时间;
  • 响应头部中 Etag:唯一标识响应资源;
    请求头部中的 If-None-Match:将请求头If-None-Match 值设置为 Etag 的值。服务器收到请求后进行比对,如果资源没有变化返回 304,如果资源变化了返回 200。

ETag 和 Last-Modified:

  • 第一种实现方式是基于时间实现的,第二种实现方式是基于一个唯一标识实现的,相对来说后者可以更加准确地判断文件内容是否被修改,避免由于时间篡改导致的不可靠问题。
  • ETag 和 Last-Modified同时存在时,Etag 的优先级更高
  • 协商缓存这两个字段都需要配合强制缓存中 Cache-control 字段来使用,只有在未能命中强制缓存的时候,才能发起带有协商缓存字段的请求。也是说只有在判断资源过期以后,才进行协商缓存。

7.HTTP 常见到版本有 HTTP/1.1,HTTP/2.0,HTTP/3.0,HTTPS
HTTP 由于是工作在应用层( OSI 第七层),则它下层可以随意变化,比如:

  • HTTPS:HTTPS 就是在 HTTP 与 TCP 层之间增加了 SSL/TLS 安全传输层;
  • HTTP/2.0:HTTP/1.1 和 HTTP/2.0 传输协议使用的是 TCP 协议,而到了 HTTP/3.0 传输协议改用了 UDP 协议。

8.HTTP/1.1 的性能:

  • 长连接:只要任意一端没有明确提出断开连接,则保持 TCP 连接状态。
  • 管道网络传输:可在同一个 TCP 连接里面,客户端可以发起多个请求,只要第一个请求发出去了,不必等其回来,就可以发第二个请求出去,可以减少整体的响应时间。【实际上 HTTP/1.1 管道化技术不是默认开启,而且浏览器基本都没有支持。大家知道有这个功能,但是没有被使用就行了。】

9.无状态和Cookie
无状态:协议对于事务处理没有记忆能力,后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。
解决无状态问题:
Cookie:在客户端第一次请求后,服务器会下发一个装有客户信息的Cookie,后续客户端请求服务器的时候,带上Cookie,服务器就能认得了了

HTTPS

1.HTTP 与 HTTPS:因为 HTTP 传输的内容都是明文的,虽然在浏览器地址拦看不到 POST 提交的 body 数据,但是只要抓个包就都能看到了。
所以,要避免传输过程中数据被窃取,就要使用 HTTPS 协议,这样所有 HTTP 的数据都会被加密传输。

  • HTTPS 则解决 HTTP 不安全的缺陷,在 TCP 和 HTTP 网络层之间加入了 SSL/TLS 安全协议,使得报文能够加密传输。
  • HTTPS 在 TCP 三次握手之后,还需进行 SSL/TLS 的握手过程,才可进入加密报文传输。
  • 两者的默认端口不一样,HTTP 默认端口号是 80,HTTPS 默认端口号是 443。
  • HTTPS 协议需要向 CA(证书权威机构)申请数字证书,来保证服务器的身份是可信的。

2.混合加密:HTTPS 采用的是对称加密和非对称加密结合的「混合加密」方式

  • 在通信建立前采用非对称加密的方式交换「会话秘钥」,后续就不再使用非对称加密。非对称加密使用两个密钥:公钥和私钥,公钥可以任意分发而私钥保密,解决了密钥交换问题但速度慢。
  • 在通信过程中全部使用对称加密的「会话秘钥」的方式加密明文数据。对称加密只使用一个密钥,运算速度快,密钥必须保密,无法做到安全的密钥交换。

3.非对称加密的公钥和私钥:
公钥和私钥:这两个密钥可以双向加解密的

  • 公钥加密,私钥解密。由于其他人没有私钥,所以无法查看传输的内容,这就保证了传输的内容不会外泄。但是消息还是会被冒充。
  • 私钥加密,公钥解密。由于其他人没有私钥,所以如果公钥可以解密出内容,就可以证明这个消息是来源于持有私钥身份的人。保证消息不被冒充,保证消息来自私钥持有人,但是消息可能外泄。

4.摘要算法(哈希函数)——防止内容篡改
摘要算法:发送方计算内容的哈希值,并将内容和哈希值传送到接收端,接收端重新计算内容的哈希值,然后查看哈希值是否发生变化,从而要确定是内容是否被篡改。
但是黑客可以通过同时修改内容和哈希值来欺骗接收方。为解决这个问题,我们需要使用私钥加密哈希值,然后公钥解密哈希值。只加密哈希值是为了减少加解密耗费的时间。

5.数字证书
问题:黑客可能给客户端发送自己的公钥,然后客户端使用此公钥加密的数据,就被黑客一览无遗。这可以通过数字证书解决。
数字证书:

  • 数字证书生成:首先 CA 会把持有者的公钥、用途、颁发者、有效时间等信息打成一个包,然后对这些信息进行 Hash 计算,得到一个 Hash 值;
    然后 CA 会使用自己的私钥将该 Hash 值加密,生成 Certificate Signature,也就是 CA 对证书做了签名;
    最后Certificate Signature、持有者的公钥、用途、颁发者、有效时间等信息一同组成数字证书;
  • 服务器会向客户端发送自己的数字证书。首先客户端会使用同样的 Hash 算法计算持有者的公钥、用途、颁发者、有效时间等信息组成的包,获取Hash 值 H1;
    通常浏览器和操作系统中集成了 CA 的公钥信息,浏览器收到证书后可以使用 CA 的公钥解密 Certificate Signature 内容,得到一个 Hash 值 H2 ;
    最后比较 H1 和 H2,如果值相同,则为可信赖的证书,否则则认为证书不可信。

证书链:CA公钥用于解密签名,为了验证CA公钥合法,就需要另一个公钥验证此CA公钥,这样就会形成无限循环。所以操作系统或浏览器中内置了很多可被信任的根证书,根证书中的公钥是被信任的。(参考:什么是 HTTPS 的证书信任链?自己给自己发行不行?

  • 首先操作系统或浏览器中内置了很多可被信任的根证书。当客户端收到了证书但证书的签发者不是根证书时,就会不断地向上请求中间证书,直到中间证书的签发者为根证书为止。然后利用根证书中的公钥去验证下层的中间证书,下层证书中的公钥去验证下下层的中间证书,不断往下,直到验证完成。
    所以如果浏览器或系统中的证书被病毒修改,那么就会导致我们信任不合法的证书,从而导致信息被获取。
  • 【问题】Root CA 为什么不直接颁发证书,而是要搞那么多中间层级呢?
    答:这是为了确保根证书的绝对安全性,将根证书隔离地越严格越好,不然根证书如果失守了,那么整个信任链都会有问题。(背下来吧,我也不懂为什么。)

6.SSL/TLS 协议基本流程:

  • 客户端向服务器索要并验证服务器的公钥。
  • 双方协商生产「会话秘钥」。
  • 双方采用「会话秘钥」进行加密通信。

前两步也就是 SSL/TLS 的建立过程,也就是 TLS 握手阶段。

TLS 的「握手阶段」涉及四次通信,使用不同的密钥交换算法,TLS 握手流程也会不一样的,现在常用的密钥交换算法有两种:RSA 算法 (opens new window)和 ECDHE 算法。

RSA 握手过程

总结:

  • 在 TLS 握手阶段会将TLS 证书(服务端的公钥)传递给客户端,而服务端的私钥则一直留在服务端,一定要确保私钥不能被窃取。
  • 在 RSA 密钥协商算法中,客户端会生成随机密钥,并使用服务端的公钥加密后再传给服务端。根据非对称加密算法,公钥加密的消息仅能通过私钥解密,这样服务端解密后,双方就得到了相同的密钥,再用它加密应用消息。

RSA的四次握手:

  • 1.客户端发送TLS 版本号、支持的密码套件列表,以及生成的随机数(Client Random),这个随机数会被服务端保留,它是生成对称加密密钥的材料之一。

  • 2.当服务端收到客户端的「Client Hello」消息后,会确认 TLS 版本号是否支持,和从密码套件列表中选择一个密码套件,以及生成随机数(Server Random)。
    然后发送「Server Certificate」给客户端,这个消息里含有数字证书。
    并且此次握手,服务端还发了「Server Hello Done」消息,目的是告诉客户端,我已经把该给你的东西都给你了,本次打招呼完毕。
    【注】上面的所有信息是是一次性发送给客户端的。

  • 3.客户端收到数字证书以后,会对证书按照前文所述进行验证。

    • 生成对称密钥:客户端就会生成一个新的随机数 (pre-master),此时就有了三个随机数,使用这三个随机数生成会话密钥(Master Secret),它是对称密钥,用于对后续的 HTTP 请求/响应的数据加解密。此时当前生成的随机数会用服务器给的RSA 公钥加密并通过「Client Key Exchange」消息传给服务端,然后服务端使用得到的三个随机数也可以生成会话密钥。【最后一个随机数是同非对称加密进行加密】
    • 通知使用对称密钥加密:客户端生成完「会话密钥」后,然后客户端发一个「Change Cipher Spec」,告诉服务端开始使用加密方式发送消息。
    • 确认加密通信可用:客户端再发一个「Encrypted Handshake Message(Finishd)」消息,把之前所有发送的数据做个摘要,再用会话密钥(master secret)加密一下,让服务器做个验证,验证加密通信「是否可用」和「之前握手信息是否有被中途篡改过」。
    • 【注】上面三个信息是同时发送的。
  • 4.服务器也是发「Change Cipher Spec」和「Encrypted Handshake Message」消息,如果双方都验证加密和解密没问题,那么握手正式完成。

RSA缺点:
使用 RSA 密钥协商算法的最大问题是不支持前向保密。【什么叫前向保密?】
因为客户端传递随机数(用于生成对称加密密钥的条件之一)给服务端时使用的是公钥加密的,服务端收到后,会用私钥解密得到随机数。所以一旦服务端的私钥泄漏了,过去被第三方截获的所有 TLS 通讯密文都会被破解。
为了解决这个问题,后面就出现了 ECDHE 密钥协商算法,我们现在大多数网站使用的正是 ECDHE 密钥协商算法

ECDHE 握手过程

1.客户端发送TLS 版本号、支持的密码套件列表,以及生成的随机数(Client Random),这个随机数会被服务端保留,它是生成对称加密密钥的材料之一。

2.当服务端收到客户端的「Client Hello」消息后,会确认 TLS 版本号是否支持,和从密码套件列表中选择一个密码套件,以及生成随机数(Server Random)。

  • 然后发送「Server Certificate」给客户端,这个消息里含有数字证书。
  • 选择椭圆曲线基点 G来生成私钥,然后使用私钥生成公钥,然后将公钥和G发送给客户端。【与RSA的不同处】
  • 为了保证这个椭圆曲线的公钥不被第三方篡改,服务端会用 RSA 签名算法给服务端的椭圆曲线公钥做个签名。【与RSA的不同处】
  • 服务端还发了「Server Hello Done」消息,目的是告诉客户端,我已经把该给你的东西都给你了,本次打招呼完毕。
  • 【注】上面的所有信息是是一次性发送给客户端的。

3.客户端收到数字证书以后,会对证书按照前文所述进行验证。

  • 客户端会生成一个随机数作为客户端椭圆曲线的私钥,然后再根据服务端前面给的信息,生成客户端的椭圆曲线公钥,然后用「Client Key Exchange」消息发给服务端。
    使用「客户端随机数 + 服务端随机数 + x(ECDHE 算法算出的共享密钥) 」生成会话密钥。【与RSA的不同处】
  • 通知使用对称密钥加密:客户端生成完「会话密钥」后,然后客户端发一个「Change Cipher Spec」,告诉服务端开始使用加密方式发送消息。
  • 确认加密通信可用:客户端再发一个「Encrypted Handshake Message(Finishd)」消息,把之前所有发送的数据做个摘要,再用会话密钥(master secret)加密一下,让服务器做个验证,验证加密通信「是否可用」和「之前握手信息是否有被中途篡改过」。
  • 【注】上面三个信息是同时发送的。

4.服务端也会有一个同样的操作,发「Change Cipher Spec」和「Encrypted Handshake Message」消息,

ECDHE使用临时密钥来保证即使私钥被泄露,攻击者也无法解密过去的通信内容(前向保密):每次建立新的会话时,都会生成一个新的临时密钥,而不使用长期有效的密钥对。临时密钥仅在当前会话中有效,不会被保存或传输到其他会话。

既然有 HTTP 协议,为什么还要有 RPC?

是先有的RPC,所以我们该问的不是既然有HTTP协议为什么要有RPC,而是为什么有RPC还要有HTTP协议。

  • RPC是远程方法调用,它使得调用远程方法和调用本地方法一样简单,而我觉得HTTP协议本质上就是一个远程调用的协议,所以为了实现“调用远程方法和调用本地方法一样简单”,只需要在HTTP协议上进行封装就可以了,如grpc底层使用的就是HTTP2。
    很多公司内部的rpc调用都是在HTTP2.0出现之前就用了,所以使用了各种公司内部的协议。HTTP2.0在HTTP1.1的基础上做了优化,性能可能比很多RPC协议都要好,但由于是这几年才出来的,很多公司内部的RPC协议都已经跑了好些年了,基于历史原因,一般也没必要去换了。

  • 刚开始HTTP的出现是为了统一浏览器与服务器之间的通信协议,即b/s架构,现在也用在c/s架构,这样做的好处是:服务器使用同一套协议向外提供服务,不管是网页版、安卓端、还是pc端,都可以使用服务器提供的同一套服务,即后端代码都是同一套,只是前端代码不同而已。

既然有 HTTP 协议,为什么还要有 WebSocket?

服务器主动发送给客户端的方法:

  • 使用 HTTP 不断轮询:如扫码登录,前端网页根本不知道用户扫没扫,于是不断去向后端服务器询问,看有没有人扫过这个码。一般一秒左右轮询一次,这就导致一秒左右的延迟。这里是前端通过一个循环来不断询问服务器。

  • 使用 HTTP 长轮询:如果我们的 HTTP 请求将超时设置的很大,比如 30 秒,在这 30 秒内只要服务器收到了扫码请求,就立马返回给客户端网页(无延迟,体验好)。如果超时,那就立马发起下一次请求。这里是后端通过一个循环来检测是否收到扫码信息。

  • WebSocket:HTTP是半双工的,WebSocket是全双工的。 在HTTP 请求里带上一些特殊的header 头,从而将协议转换为WebSocket,即通过两次 HTTP 握手,转换协议为WebSocket。
    转换以后的通信就和HTTP协议没有关系了。

对于像扫码登录这样的简单场景还能用用HTTP协议。但如果是网页游戏呢,游戏一般会有大量的数据需要从服务器主动推送到客户端,如在网页游戏里,怪物移动以及攻击玩家的行为是服务器逻辑产生的,对玩家产生的伤害等数据,都需要由服务器主动发送给客户端,客户端获得数据后展示对应的效果。这是就需要用到WebSocket。
WebSocket适用于需要服务器和客户端(浏览器)频繁交互的大部分场景,比如网页/小程序游戏,网页聊天室,以及一些类似飞书这样的网页协同办公软件。

posted @ 2022-12-04 22:45  好人~  阅读(89)  评论(0编辑  收藏  举报