HTTP协议报文格式

HTTP协议（Hypertext　Transfer　Protocol――超文本传输协议）浏览器端（客户端）向WEB服务器端访问页面的过程和HTTP协议报文的格式。

基于HTTP协议的客户机访问包括4个过程，分别是建立TCP套接字连接、发送HTTP请求报文、接收HTTP应答报文和关闭TCP套接字连接：

1. 创建TCP套接字连接

客户端与WEB服务器创建TCP套接字连接，其中WEB端服务器的地址可以通过域名解析确定，WEB端的套接字侦听端口一般是80。

2. 发送HTTP请求报文

客户端向WEB服务端发送请求报文，HTTP协议的请求报文格式为：

请求消息 = 请求行（实体头信息）CRLF[实体内容]
请求行 = 方法　URL　HTTP版本号　CRLF
方法 = GET|HEAD|POST|扩展方法
URL = 协议名称＋宿主名＋目录与文件名

其中"CRLF"表示回车换行。

"请求行"中的"方法"描述了对指定资源执行的动作，常用的方法"GET"、"HEAD"和"POST"等3种，它们的含义如表15-8所示：

请求报文

一个HTTP请求报文由请求行（request line）、请求头部（header）、空行和请求数据4个部分组成，下图给出了请求报文的一般格式。

（1）请求行

请求行由请求方法字段、URL字段和HTTP协议版本字段3个字段组成，它们用空格分隔。例如，GET /index.html HTTP/1.1。

HTTP协议的请求方法有GET、POST、HEAD、PUT、DELETE、OPTIONS、TRACE、CONNECT。这里介绍最常用的GET方法和POST方法。

GET：当客户端要从服务器中读取文档时，使用GET方法。GET方法要求服务器将URL定位的资源放在响应报文的数据部分，回送给客户端。使用GET方法时，请求参数和对应的值附加在URL后面，利用一个问号（“?”）代表URL的结尾与请求参数的开始，传递参数长度受限制。例如，/index.jsp?id=100&op=bind。

POST：当客户端给服务器提供信息较多时可以使用POST方法。POST方法将请求参数封装在HTTP请求数据中，以名称/值的形式出现，可以传输大量数据。

表15-8 HTTP请求方法

取值	描述
GET	从WEB服务器中获取对象，不同类型的对象将获取不同的信息，比如： · 文件类型对象，获取该文件的内容。 · 程序类型对象，获取该程序执行的结果。 · 数据库查询类型对象，获取该查询的结果。
HEAD	要求服务器查找对象的元信息。
POST	从客户端向WEB服务器发送数据。

"实体头信息"中记载了报文的属性，利用这些信息可以实现客户端与WEB服务器之间的请求或应答，它包括报文的数据类型、压缩方法、语言、长度、压缩方法、最后一次修改时间、数据有效期等信息。

实体内容是报文传送的附加信息，一般供POST请求填写。

GET请求报文例子

一个URL为"http://www.zhiliaowang.com/toupiaoceshi.asp?name=朱云翔"的GET请求报文例子如下：

GET http://www.zhiliaowang.com/toupiaoceshi.asp?name=朱云翔 HTTP/1.1
Accept: */*
Accept-Language: zh-cn
Accept-Encoding: gzip, deflate
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0;
Windows NT 5.1; SV1; .NET CLR 2.0.50727)
Host: www.zhiliaowang.com
Connection: Keep-Alive

其中"/toupiaoceshi.asp?name=朱云翔"是URL信息，语句"ACCEPT：*/*"及其后的语句是"实体头信息"。

注意：在语句"Connection：Keep-Alive"下的空行是必须的。

全部HTTP请求方法：

1.HTTP请求行：请求行格式为Method Request-URI Protocol。在上面这个例子里，"GET / HTTP/1.1"是请求行。 (以下为请求头的关键字)

2.Accept:指浏览器或其他客户可以接爱的MIME文件格式。可以根据它判断并返回适当的文件格式。

3.Accept-Charset：指出浏览器可以接受的字符编码。英文浏览器的默认值是ISO-8859-1.

4.Accept-Language：指出浏览器可以接受的语言种类，如en或en-us，指英语。

5.Accept-Encoding：指出浏览器可以接受的编码方式。编码方式不同于文件格式，它是为了压缩文件并加速文件传递速度。浏览器在接收到Web响应之后先解码，然后再检查文件格式。

6.Authorization：当使用密码机制时用来标识浏览器。

7.Cache-Control：设置关于请求被代理服务器存储的相关选项。一般用不到。

8.Connection：用来告诉服务器是否可以维持固定的HTTP连接。HTTP/1.1使用Keep-Alive为默认值，这样，当浏览器需要多个文件时(比如一个HTML文件和相关的图形文件)，不需要每次都建立连接。

9.Content-Type：用来表名request的内容类型。可以用HttpServletRequest的getContentType()方法取得。

10.Cookie：浏览器用这个属性向服务器发送Cookie。Cookie是在浏览器中寄存的小型数据体，它可以记载和服务器相关的用户信息，也可以用来实现会话功能。

11.Expect：表时客户预期的响应状态。

12.From：给出客户端HTTP请求负责人的email地址。

13.Host：对应网址URL中的Web名称和端口号。

14.If-Match：供PUT方法使用。

15.If-Modified-Since：客户使用这个属性表明它只需要在指定日期之后更改过的网页。因为浏览器可以使用其存储的文件而不必从服务器请求，这样节省了Web资源。由于Servlet是动态生成的网页，一般不需要使用这个属性。

16.If-None-Match：和If-Match相反的操作，供PUT方法使用。

17.If-Unmodified-Since：和If-Match-Since相反。

18.Pragma：这个属性只有一种值，即Pragma：no-cache,表明如果servlet充当代理服务器，即使其有已经存储的网页，也要将请求传递给目的服务器。

19.Proxy-Authorization：代理服务器使用这个属性，一般用不到。

20.Range：如果客户有部分网页，这个属性可以请求剩余部分。

21.Referer：表明产生请求的网页URL。

比如从网页/beijing.html中点击一个链接到网页/qingdao.html,在向服务器发送的GET /beijing.html中的请求中，Referer是http://www.6book.net/qingdao.html 。这个属性可以用来跟踪Web请求是从什么网站来的。

22.Upgrage：客户通过这个属性设定可以使用与HTTP/1.1不同的协议。

23.User-Agent：是客户浏览器名称。

24.Via：用来记录Web请求经过的代理服务器或Web通道。

25.Warning：用来由客户声明传递或存储(cache)错误。

POST请求报文例子

下面是HTTP协议中关于POST请求报文例子，节自《中国联合通信公司短消息网关系统接口协议(SGIP)》V1.2版：

POST /sp.cgi HTTP/1.0 /* 请求行，服务程序为sp.cgi */
Host: www.spserver.com /* 以下为实体头信息 */
Authorization: Basic <Base64 串>
Content-Length: <Content-Length>

<CommandId>=<4> /* 以下为POST请求的实体信息 */
<SequenceNumber>=<205502327125025327> /* 实体部分输送报文 */
<UserNumber>=<8613001125453>
<SPNumber>=<168>
<MessageContent>=<ABCD 1234>

一般情况下，采用POST报文传送信息的数据存储在"实体"部分中。
3. 接收HTTP应答报文

WEB服务器处理客户请求，并向客户机发送应答报文，HTTP协议的应答报文格式为：

应答报文 = 状态行（实体头信息）CRLF [实体内容]

状态行 = HTTP版本号　状态码　原因叙述

状态码描述了WEB服务器执行客户机请求的状态信息，其取值含义如表15-8所示：

表15-8 HTTP应答响应码含义（后附录里有全部的响应码）

取值	描述
1××	保留。
2××	成功接收，比如“200”表示处理成功。
3××	客户需进一步细化请求。
4××	客户错误，比如“404”表示访问的指定资源不存在。
5××	服务器错误。

GET应答报文例子

一个请求URL为"http://www.zhiliaowang.com/toupiaoceshi.asp?name=朱云翔"的应答报文例子如下：

HTTP/1.1 200 OK
Connection: keep-alive
Date: Thu, 26 Jul 2007 14:00:02 GMT
Server: Microsoft-IIS/6.0
X-Powered-By: ASP.NET
Content-Length: 190
Content-Type: text/html
Set-Cookie: ASPSESSIONIDSAATTCSQ=JOPPKDCAMHHBEOICJPGPBJOB; path=/
Cache-control: private

<html>
<head>
<title>精通Unix下C语言编程</title>
</head>
<body>
精通Unix下C语言编程与项目实战 
投票测试 
感谢你为选手
朱云翔
投票!
</body>
</html>

语句"HTTP/1.1 200 OK"中，"200"是响应码，"OK"是原因描述。

POST应答报文例子

下面是HTTP协议中关于POST应答报文例子，节自《中国联合通信公司短消息网关系统接口协议(SGIP)》V1.2版：

HTTP/1.0 200 OK /* 状态行，应答成功 */
Date: Tue, 13 Mar 2001 02:45:12 GMT /* 以下为实体头信息 */
Server: Apache/1.3.12 (Unix)
Content-Type: text/html
Connection: close

<CommandId>=<80000004> /* 以下为POST应答的实体信息 */
<SequenceNumber>=<205502327125025327>
<UserNumber>=<8613001125453>
<SPNumber>=<168>
<MessageContent>=< EFGH 5678> <Result>=<0>

一般情况下，POST应答报文的"实体"部分存储实际传输的信息。

4. 关闭TCP套接字连接

客户机与服务器双方关闭套接字连接，结束TCP/IP对话。

附录： HTTP状态码详解及常用状态码

一、HTTP状态码

所谓的404页就是服务器404重定向状态返回页面。数字404指的是404号状态码。一般常用到的有200号状态码和404号状态码。200号表示网页被下载成功，而404号表示不能成功下载并产生错误。下面是HTTP状态码一览表。

1xx：请求收到，继续处理
2xx：操作成功收到，分析、接受
3xx：完成此请求必须进一步处理
4xx：请求包含一个错误语法或不能完成
5xx：服务器执行一个完全有效请求失败

100——客户必须继续发出请求
101——客户要求服务器根据请求转换HTTP协议版本

200——交易成功
201——提示知道新文件的URL
202——接受和处理、但处理未完成
203——返回信息不确定或不完整
204——请求收到，但返回信息为空
205——服务器完成了请求，用户代理必须复位当前已经浏览过的文件
206——服务器已经完成了部分用户的GET请求

300——请求的资源可在多处得到
301——删除请求数据
302——在其他地址发现了请求数据
303——建议客户访问其他URL或访问方式
304——客户端已经执行了GET，但文件未变化
305——请求的资源必须从服务器指定的地址得到
306——前一版本HTTP中使用的代码，现行版本中不再使用
307——申明请求的资源临时性删除

400——错误请求，如语法错误
401——请求授权失败
402——保留有效ChargeTo头响应
403——请求不允许
404——没有发现文件、查询或URl
405——用户在Request-Line字段定义的方法不允许
406——根据用户发送的Accept拖，请求资源不可访问
407——类似401，用户必须首先在代理服务器上得到授权
408——客户端没有在用户指定的饿时间内完成请求
409——对当前资源状态，请求不能完成
410——服务器上不再有此资源且无进一步的参考地址
411——服务器拒绝用户定义的Content-Length属性请求
412——一个或多个请求头字段在当前请求中错误
413——请求的资源大于服务器允许的大小
414——请求的资源URL长于服务器允许的长度
415——请求资源不支持请求项目格式
416——请求中包含Range请求头字段，在当前请求资源范围内没有range指示值，请求
也不包含If-Range请求头字段
417——服务器不满足请求Expect头字段指定的期望值，如果是代理服务器，可能是下
一级服务器不能满足请求

500——服务器产生内部错误
501——服务器不支持请求的函数
502——服务器暂时不可用，有时是为了防止发生系统过载
503——服务器过载或暂停维修
504——关口过载，服务器使用另一个关口或服务来响应用户，等待时间设定值较长
505——服务器不支持或拒绝支请求头中指定的HTTP版本

－－－

英文版：

100：Continue
101：Switching Protocols
102：Processing

200：OK
201：Created
202：Accepted
203：Non-Authoriative Information
204：No Content
205：Reset Content
206：Partial Content
207：Multi-Status

300：Multiple Choices
301：Moved Permanently
302：Found
303：See Other
304：Not Modified
305：Use Proxy
306：(Unused)
307：Temporary Redirect

400：Bad Request
401：Unauthorized
402：Payment Granted
403：Forbidden
404：File Not Found
405：Method Not Allowed
406：Not Acceptable
407：Proxy Authentication Required
408：Request Time-out
409：Conflict
410：Gone
411：Length Required
412：Precondition Failed
413：Request Entity Too Large
414：Request-URI Too Large
415：Unsupported Media Type
416：Requested range not satisfiable
417：Expectation Failed
422：Unprocessable Entity
423：Locked
424：Failed Dependency

500：Internal Server Error
501：Not Implemented
502：Bad Gateway
503：Service Unavailable
504：Gateway Timeout
505：HTTP Version Not Supported
507：Insufficient Storage

200号状态码

220.181.32.30 - - [02/Sep/2008:00:01:23 +0800] "GET /article/0572/72570.shtml HTTP/1.1" 200 28361 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"

服务器日志中的200表示使用GET传递方式网页72570.shtml下载成功。即：当用户或爬虫程序向网站服务器发出浏览请求时，服务器返回 HTTP 数据流里包含某种状态码，200响应号即状态码中的一种，表示本网页被成功下载。

301号状态码

220.181.32.30 - - [02/Sep/2008:00:01:31 +0800] "GET /my/view.php?aid=14183 HTTP/1.1" 301 - "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"

服务器日志中的301表示使用GET传递方式动态网页aid=14183成功跳转。即：当用户或爬虫程序向网站服务器发出浏览请求时，服务器返回 HTTP 数据流包含某种状态码，301 重定向即状态码中的一种，表示本网页永久性转移到另一个地址。实际操作中我们可以将多个域名指向同一个网址，这也是搜索引擎唯一认可的一种网站转向的方式。

参阅：301资源永久重定向设置

二、404状态码

220.181.32.30 - - [02/Sep/2008:00:01:51 +0800] "GET /writing HTTP/1.1" 404 4459 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"

出现404状态码就证明有URL地址的网页浏览不到。很多时候由于网站的改版，使很多旧版网站url地址失效。这是你需要建立404状态页来保证你网站通畅，能够达到一种回路的效果。切记404状态页需要单独设计，不能直接在服务器端直接跳转回首页。否则，搜索引擎会大量抓取网站首页失误当成404页处理。

对HTTP404状态码的深度理解

HTTP 404 错误意味着链接指向的网页不存在，即原始网页的URL失效，这种情况经常会发生，很难避免，比如说：网页URL生成规则改变、网页文件更名或移动位置、导入链接拼写错误等，导致原来的URL地址无法访问；当Web 服务器接到类似请求时，会返回一个404 状态码，告诉浏览器要请求的资源并不存在。但是，Web服务器默认的404错误页面，无论Apache还是IIS，均十分简陋、呆板且对用户不友好，无法给用户提供必要的信息以获取更多线索，无疑这会造成用户的流失。

因此，很多网站均使用自定义404错误的方式以提供用户体验避免用户流失。一般而言，自定义404页面通用的做法是在页面中放置网站快速导航链接、搜索框以及网站提供的特色服务，这样可以有效的帮助用户访问站点并获取需要的信息。

HTTP404对SEO的影响

自定义404错误页面是提供用户体验的很好的做法，但在应用过程中往往并未注意到对搜索引擎的影响，譬如：错误的服务器端配置导致返回“200”状态码或自定义404错误页面使用Meta Refresh导致返回“302”状态码。正确设置的自定义404错误页面，不仅应当能够正确地显示，同时，应该返回“404”错误代码，而不是“200”或“302”。虽然对访问的用户而言，HTTP状态码究竟是“404”还是“200”来说并没有什么区别，但对搜索引擎而言，这则是相当重要的。

1.自定义404错误页返回“200”状态码

当搜索引擎蜘蛛在请求某个URL地址得到“404”状态回应时，即知道该URL地址已经失效，便不再索引该网页，并向数据中心反馈将该URL地址表示的网页从索引数据库中删除，当然，删除过程有可能需要很长时间；而当搜索引擎得到“200”状态回应时，则会认为该url地址是有效的，便会去索引，并会将其收录到索引数据库，这样的结果便是这两个不同的url地址具有完全相同的内容：自定义404错误页面的内容，这会导致出现复制网页问题。对搜索引擎而言，特别是Google，不但很难获得信任指数TrustRank，也会大大降低Google对网站质量的评定。

在使用Google Sitemap，当提交XML格式网站地图文件时，谷歌管理员工具会验证网站的身份以确保是网站合法的管理者。验证方式有两种：上传指定名称的html页到网站根目录或者在网页meta区域添加一个标识身份的meta标签。通常是使用上传html网页的方式，但谷歌管理员工具却提示网站根目录下找不到这个网页，这是一个很可怕的问题。

2.自定义404错误页使用Meta Refresh返回“302”状态码

常常看到许多网站的自定义404错误页面采取类似这样的形式：首先显示一段错误信息，然后，通过Meta Refresh将页面跳转到网站首页、网页地图或其他类似页。根据具体实现方式不同，这类404页面可能返回“200”状态码，也可能返回“302”，但不论哪种，从SEO技术角度看，均不是一种合适的选择。

对“200”状态的情况我们上面已经谈过，那么，当404页面返回“302”时，搜索引擎会怎么对待呢?从理论上说，对“302”错误，搜索引擎认为该网页是存在的，只不过临时改变了地址，仍然会索引收录该页，这样，同样会出现类似于“200”状态码时的重复文本问题；其次，以谷歌为代表的主流搜索引擎对302重定向的适用范围要求越来越严格，这类不当使用302重定向的情况存在很大的风险。

确保自定义404错误页面能够返回“404”状态码

在自定义404错误页面设置完毕后，一定要检查一下其是不是能够正确地返回“404”状态码。可以使用Server Header检查工具，输入一个不存在网页的url，查看一下HTTP Header的返回情况，确信其返回的是“404 Not found”。

三、404错误的处理方式

1.定制404错误页面的基本原则

首先应明确的是，404错误应工作在服务器级而不是网页级。对定制使用动态页面如PHP脚本类型的404页时，必须确保在PHP执行前服务器已经顺利地送出“404”状态码，不然，一旦执行到了ISAPI级别，返回的状态码便只能是“200”或其他如“302”之类的重定向状态码了。

其次，在自定义网站的404错误页面时，对设置的错误页面URL链接应使用相对路径而不是绝对路径，而且自定义404页面应该放在网站根目录下。尽管无效链接可能是多种形式的URL地址，但当发生404访问错误时，WEB服务器会自动将其转到自定义的当404错误页中，这跟URL地址的形似没有关系。

2.Apache下设置404错误页面

为Apache Server设置 404错误页面的方法很简单，只需在.htaccess 文件中加入如下内容即可：

ErrorDocument 404 /notfound.php

注意：

1.切记不要将404错误转向到网站主页，否则可能会导致主页在搜索引擎中消失

2.切记不要使用绝对URL(例如：http://www.sohu.com/404nofound.php形式)，如果使用绝对URL返回的状态码是“302”+“200”

3.IIS/ASP.net下设置404错误页面

首先，修改应用程序根目录的设置，打开 “web.config” 文件编辑，在其中加入如下内容：

注：上文例中“error.asp”为系统默认的404页面，“notfound.asp”为自定义的404页面，使用时请修改相应文件名。

然后，在自定义的404页面“notfound.asp”中加入：

<%
Response.Status = "404 Not Found"
%>

这样，便可以保证IIS能够正确地返回“404”状态码

4.在IIS/ASP.net下设置404静态页面

设置静态404错误页面的方法则比较简单，在IIS管理器中右键单击要管理的网站，打开“属性”中的“自定义错误信息”页，为“404”设定相应的错误信息页即可。不过，此处在“消息类型”中一定要选择“文件”或“默认值”，而不要选择“URL”，不然，将导致返回“200”状态码。

看了这篇文章后，我们应该知道，网站你不优化时还挺正常的，搜索引擎优化不当还可能造成一定的影响，另外我们可以看到404错误的处理不仅是搜索引擎的优化的一部分，同时也是一项用户体验的改进。

posted @ 2013-06-09 11:11 clouds008 阅读(521) 评论(0) 收藏举报

刷新页面返回顶部

clouds008

HTTP协议报文格式

公告