掀开断点续传那一层面纱（下载篇）

1、简介

　　这一篇文章主要介绍的是http协议下载时的断点续传，详细到各个步骤。主要步骤有：DNS查找、TCP三次握手、http请求发送、TCP协议数据传输、暂停后的状态、继续下载、TCP三次握手、http请求发送、数据传输、。。。、下载成功发送http响应信息、TCP四次握手断开连接。

2、原理知识

　　2.1、问答问答

　　问：什么是断点续传？断点续传的原理是什么？

　　答：断点续传就是信号中断后(掉线或关机等)，下次能够从上次的地方接着传送(一般指下载或上传)，不支持断点续传就意味着下次下载或上传必须从零开始。http协议中的断点续传是基于Http头Range以及Content-Range。HTTP头中一般断点下载时才用到Range和Content-Range实体头，Range用户请求头中，指定第一个字节的位置和最后一个字节的位置，如（ Range:200-300或者Range:200- ）；Content-Range用于响应头。通俗的来讲就是文件大小为10，这次下载了3，被中断了，下次继续下载时则将指针移到3位置，从3开始下载，最终将整个文件下载下来。

　　2.2、简单http下载文件

　　请求下载整个文件:
　　GET /test.rar HTTP/1.1
　　Connection: close
　　Host: 192.168.95.11
　　Range: bytes=0-801 //一般请求下载整个文件是bytes=0- 或不用这个头
　　一般正常回应：
　　HTTP/1.1 200 OK
　　Content-Length: 801
　　Content-Type: application/octet-stream
　　Content-Range: bytes 0-800/801 //801:文件总大小

　　2.3、重要的几个头

　　响应头：

　　Content-type：Content-type 告诉浏览器文件的MIME 类型，这是非常重要的一个响应头了，MIME种类繁多。很可能会在程序中漏掉一些MIME类型，表示全部为 content-type:application/octet-stream（字节流）

　　Content-Disposition：是 MIME 协议的扩展，MIME 协议指示 MIME 用户代理如何显示附加的文件。当 Internet Explorer 接收到头时，它会激活文件下载对话框，它的文件名框自动填充了头中指定的文件名。嗯,就是这个头哟,激活弹出提示下载框，一般这样写content-disposition:attachment; filename=name

　　Content-Length："Content-Length: 321" 就是告诉浏览器这个文件的大小是321字节,其实我发现好像不设置这个头,浏览器也能自己识别

　　Pragma Cache-control：把这2个头都设置成public 告诉浏览器缓存，我一般设置cache-control:public

　　Content-Range：字段说明服务器返回了文件的某个范围及文件的总长度。这时Content-Length字段就不是整个文件的大小了，而是对应文件这个范围的字节数，这一点一定要注意。一般格式，Content-Range: bytes 500-999/1000

　　响应头：　

　　Range：可以请求实体的一个或者多个子范围。

　　例如：
　　表示头500个字节：bytes=0-499
　　表示第二个500字节：bytes=500-999
　　表示最后500个字节：bytes=-500
　　表示500字节以后的范围：bytes=500-　　【下载断点续传（一般range格式为500-）】
　　第一个和最后一个字节：bytes=0-0,-1
　　同时指定几个范围：bytes=500-600,601-999
　　但是服务器可以忽略此请求头，如果无条件GET包含Range请求头，响应会以状态码206（PartialContent）返回而不是以200（OK）。【206表示服务器已经完成get的部分请求，即表示断点续传】

3、支持断点续传的文件下载类

类中含有注释，这里不再多解释了

FileDownload.class.php

  1 <?PHP
  2 #文件下载（支持断点续传）
  3 class FileDownload
  4 {
  5     #下载速度
  6     private $_speed = 512;
  7 
  8     /**
  9     * @desc 下载文件
 10     *  
 11     * @param $file string 下载的文件路径
 12     * @param $name string 保存文件时的文件名，不写则最终下载文件默认为原文件名
 13     * @param $reload bool 是否使用断点续传方式下载
 14     */
 15     public function download($file, $name='', $reload=false)
 16     {
 17         if(file_exists($file))  #判断文件是否存在
 18         {
 19             if($name == '')     #判断命名参数是否存在
 20             {
 21                 $name = basename($file);    #采用原文件名进行存储
 22             }
 23             $fHandle = fopen($file, 'rb');   #只读方式打开;为移植性考虑，使用b标记打开文件（不同系统有不同换行符）
 24             $fileSize = filesize($file);    #文件大小
 25             $ranges = $this->getRange($fileSize);  #断点续传时，先查看下载的区间范围
 26             header('cache-control:public');         #可以被任何缓存所缓存
 27             header('content-type:application/octet-stream');  #告诉浏览器响应的对象的类型（字节流、浏览器默认使用下载方式处理）
 28             header('content-disposition:attachment; filename='.$name); #不打开此文件，刺激浏览器弹出下载窗口
 29             #判断是否使用续传方式进行下载
 30             #且请求头ranges不能为null（为null表示第一次请求下载）
 31             if($reload && $ranges!=null)
 32             {
 33                 header('HTTP/1.1 206 Partial Content');     #发送自定义报文 206续传状态码
 34                 header('Accept-Ranges:bytes');              #表明服务器支持Range请求，所支持的单位是字节
 35                 # 剩余长度 
 36                 header(sprintf('content-length:%u',$ranges['end']-$ranges['start'])); 
 37                 # range信息 
 38                 header(sprintf('content-range:bytes %s-%s/%s', $ranges['start'], $ranges['end'], $fileSize));  
 39                 # fHandle指针跳到断点位置 
 40                 fseek($fHandle, sprintf('%u', $ranges['start'])); 
 41             }
 42             else
 43             {
 44                 header('HTTP/1.1 200 OK'); 
 45                 header('content-length:'.$fileSize);
 46             }
 47             while(!feof($fHandle))
 48             { 
 49                 echo fread($fHandle, round($this->_speed*1024,0)); 
 50                 ob_flush();    #把数据从PHP的缓冲中释放出来
 51                 //sleep(2); // 用于测试,减慢下载速度 
 52             } 
 53             ($fHandle!=null) && fclose($fHandle);
 54         }
 55         else
 56         {
 57             #没文件
 58             header("HTTP/1.1 404 Not Found");
 59             return false;
 60         }
 61     }
 62 
 63     /**
 64     * @desc 获取请求头部range信息
 65     *
 66     * @param $fileSize int 该文件的大小
 67     *
 68     * @return array|null 返回range信息或者null
 69     */
 70     public function getRange($fileSize)
 71     {
 72         if(isset($_SERVER['HTTP_RANGE']) && !empty($_SERVER['HTTP_RANGE']))
 73         {
 74             #请求头部range信息  Range: bytes=41078-\r\n
 75             $range = $_SERVER['HTTP_RANGE']; 
 76             $range = preg_replace('/[\s|,].*/', '', $range); 
 77             $range = explode('-', substr($range, 6));       #只需将41078-进行分割变成数组
 78             #断点续传头部range信息都是为 4444- 这种形式 ，因此切割后形成的数组就只有两个元素
 79             $range = array_combine(array('start','end'), $range); 
 80             if(empty($range['start']))
 81             { 
 82                 $range['start'] = 0; 
 83             } 
 84             if(empty($range['end']))
 85             { 
 86                 $range['end'] = $fileSize; 
 87             } 
 88             return $range; 
 89         }
 90         return null;    #第一次请求没有range信息
 91     }
 92 
 93     /**
 94     * @desc 设置文件下载速度
 95     *
 96     * @param $speed int 下载速度
 97     */
 98     public function setSpeed($speed)
 99     { 
100         if(is_numeric($speed) && $speed>16 && $speed<4096)
101         { 
102             $this->_speed = $speed; 
103         } 
104     } 
105 
106 }
107 
108 ?>

4、测试并分析其中的步骤

　　4.1、前提准备工作

将上面类文件中第六行下载速度更改为10
去掉上面类文件第51行的注释，使它有延迟
使用火狐浏览器进行下载测试
使用Wireshark抓包工具进行抓包分析
test.php文件

1 <?php
2 include 'FileDownload.class.php';
3 $a=new FileDownload();
4 #不支持断点续传
5 #$b=$a->download('./aa.txt','bb.txt');  
6 #支持断点续传
7 #$b=$a->download('./aa.txt','bb.txt',1);    
8 ?>

　　开始测试：

　　4.2、测试支持断点续传下载

　　执行步骤：

　　1、打开抓包工具进行监控

　　2、用火狐浏览器进行访问，Enter下载

　　3、确认下载

　　4、中途暂停两次，最后下载成功

成功下载！

　　分析抓包：

　　1、首先Enter，第一步当然是进行DNS查找啦。这里就不展开讲了，可以参考这里的内容http://www.cnblogs.com/phpstudy2015-6/p/6810130.html#_label18

　　2、拿到域名对应的IP后，浏览器向服务器80端口发起TCP的连接请求，请看下面的抓包图-1，一到三行尾TCP连接，即TCP三次握手。具体可以参考我写的这篇文章http://www.cnblogs.com/phpstudy2015-6/p/6810130.html#_label2

抓包图-1

　　3、TCP连接后，浏览器发起一个HTTP请求，即抓包图-1中的第4行。下图是该http GET请求。第一次请求不存在信息头range

http请求图　

　　4、http请求后，开始TCP数据传输，请看上面的抓包图-1，第5行后就开始有顺序的进行tcp层数据传输（192.168.95.11Web主机连续发送两次数据给192.168.95.10浏览器；浏览器接收并回应一次Web主机，告诉Web主机已经收到数据并且完整无误，可以继续传输！）

　　5、此时暂停下载,。请看下面的抓包图-2，第72行的时候，暂停下载（即断开与Web服务器的连接）。因为这是突然断开的，Web主机并不知道浏览器已经断开了，所以还一直发送数据给浏览器（73~76），但是Web服务器没有收到浏览器的回应，最后它也不发数据，大家分手了。

　　这个请求最后是没有收到Web服务器的http响应信息的。按照原本的请求是下载完整个文件后，Web才发送http响应消息的，但是浏览器突然单方面断开，此时数据都没传送完，怎么会给你相应消息呢！

抓包图-2

　　6、继续下载。请看下图的抓包图-3。

　　点击继续下载时，即再从新发送一个http请求给服务器。

　　第77~79行是TCP连接（三次握手）

　　第80行为发送http请求信息

　　请看下面的http请求信息，这一次含有请求头Range，这是Web重要机制。在暂停下载的时候，浏览器会记住已经已经接受的字节数，待继续下载的时候，在构建http请求信息的时候会增加这一个重要的请求头信息。这也是支持断点续传的一个前提条件。

　　浏览器携带Range头信息请求Web服务器，此时我们需要在代码层对这个重要信息进行处理。即取出该字节数出，然后在文件中定位指针，然后读文件开始续传。【这是断点续传应用中的逻辑关键】

抓包图-3

　　7、重复暂停一次，在继续下载，观察对比。暂停两次可以从抓包图-1中最右边可以看到两个红色的横线。

　　8、最后下载成功啦，此时Web服务器会发送http响应信息给浏览器。

　　第350行尾响应行

　　看下面的http响应图，响应状态码为206

　　用红色线标记的是我们代码中自定义的响应头

抓包图-4

http响应图

　　9、TCP四次握手，端断开连接。看上面的抓包图-4

　　第352~354是TCP断开连接。四次握手为什么是只有三次通讯呢？

　　TCP断开具体也可以参考我之前写的文章。

　　第一次，浏览器发送FIN包（表示要断开）、ACK（确认序列号）。seq=361

　　第二、三次，Web服务器接受到浏览器发来的包，并回复FIN包（我也要要断开）、ACK（确认序列号）。seq=174554、ack=362 【Web将浏览器发来的seq=361+1=362，转变成ack=362发给浏览器，表示我已经知道了】【此时浏览器并一起发送seq=174554，告诉浏览器说我要关闭连接啦】

　　第四次，浏览器回复Web服务器，ack=174555 【浏览器将Web服务器发来的seq=174554+1，转变换成ack=174555发给Web主机，表示我已经知道了】

　　TCP一直说是四次握手断开，我认为这应该是逻辑上的四次握手，从抓包上来看的话，第二、三次合并为一次通讯了。