随笔-120  评论-797  文章-4 

[缓存]迅雷下载原理

来自:http://hi.baidu.com/gcjia/blog/item/2b77bc3df8544803bba1675f.html

1.迅雷是什么?

迅雷是基于P2SP的一款下载软件,能够大大增强下载速度,可谓迅雷不及掩耳盗铃之势如破竹。

P2SP的道理不复杂,就是指:如果多个服务器上有某个相同的文件,当某个用户下载其中一个服务器上的这一文件时,迅雷会自动查找到另外的几个服务器,同时下载这一文件,达到提速的目的。

迅雷比较流氓,在用户没有得到任何提示毫不知情的情况下,偷偷上传用户的本地文件,在所有网络流量的统计中排到了第7位。(注:CERNET上似乎可以进三强)迅雷比较小气,不说源代码不是公开的,连原理也不公开。

迅雷比较聪明,她的架构让人佩服啊佩服,佩服啊佩服,佩服啊佩服……

2 下载原理

还记得百度的mp3搜索么?你到mp3.baidu.com上搜索一个mp3,百度会给你列出她知道的所有服务器列表(这些服务器都是别人的),你可以在百度上点击该连接下载mp3,而不用登陆真正的服务器。

迅雷就是把这个过程自动化了,并且增加了判断文件唯一性的功能,画个图简单说明一下:

1.用户点击1.2.3.4上的QQ_1.exe文件的连接

2.用户客户机上的迅雷得到该文件的唯一的校验值。

3.迅雷自动向自己的资源服务器上搜索,查找到存放同一文件的其他的服务器列表

4.得到文件在该服务器上的目录和文件名(红色部分,有可能和原始连接中的文件名不相同),http://www.cnblogs.com/erwin/admin/ftp://1.2.3.5/QQ_2.exehttp://1.2.3.6/QQ_3.exe,以及公网用户1.2.3.7有QQ.exe

5.迅雷自动向1.2.3.5和1.2.3.6上下载该文件的不同文件块,以达到加速下载的目的(紫色部分)。

6.用户向公网用户1.2.3.7发送一个UDP资源请求

7.1.2.3.7回应一个资源请求说:偶这儿有你要的文件

8.用户向公网用户1.2.3.7的3077端口发起请求,并传输数据。

9.下载完毕后,如果迅雷资源服务器上,该文件的服务器列表中没有目前用户点击下载的服务器1.2.3.4,则将这个新的服务器地址加入到该文件的服务器列表(蓝色部分)。

注:

1.上述过程中的6、7、8步骤中隐含了一个过程:判断用户是否是公网用户。

如果是公网用户,则该用户的IP地址和提供下载服务的端口也将记录在迅雷的资源服务器中,后续用户可以从该用户处下载;第三节有这个过程的说明。

2.迅雷如何区分不同的文件?很多文件名字不同但是内容相同,很多文件名字相同但是内容不同。搜索迅雷的相关信息只是得到了几句无关痛痒的废话:迅雷还使用了独创的文件校验机制,保证了用户下载文件的正确性和完整。至于什么方法不得而知

3.我们如何查看迅雷搜索到的资源列表?

在迅雷搜索到一系列的资源列表并且任务没有完成时,会在相同下载目录下建立一个临时文件,里面有搜索到的资源信息,其中peer就是搜索到的包含要下载文件的公网用户。

3 协议解析

分析第二节原理图中的下载过程,第1、2、5步和正常的下载是一模一样的,我们无法根本无法区分。那好,我们就在3、4、6上做文章。

除了上述用户下载一个具体文件的过程的各个报文外,还有交换资源信息报文,用户和用户之间的文件块传输报文、判断用户是否是公网用户的报文等。

1.资源请求报文

每次迅雷都会向219.134.132.47的tcp端口3076发出资源请求,该地址是写死在迅雷软件中的,并非依靠DNS请求得到。

如果该地址不可用,则会切换到另外两个可替换的地址219.134.132.42、219.134.132.86。

Web迅雷则使用219.134.132.46。

过滤掉这个报文,那么迅雷客户端就无法完成资源请求,无法从多点下载。用TP过滤掉报文后迅雷只能从原始连接下载,如下图:

协议报文特征如下:

2.资源搜索回应报文

过滤掉这个报文,那么迅雷客户端就无法得到资源列表,无法从多点下载。

协议报文特征如下:

3.用户之间的文件传输(握手报文)

用户之间是可以传送文件块的,下面的报文就是传送文件块开始之前的握手报文,3077端口为客户端的监听端口,用来把本地的文件传输给别人。(如果3077不能用,会转到其他端口).

4.用户之间资源信息交换报文

5.提交新的资源信息报文

6.连接NAT测试服务器报文

迅雷每过几分钟就会向statnat1.sandai.net发送NAT测试报文,也就是告诉迅雷的资源服务器,自己是否是公网IP.该报文由于无返回报文,所以猜想采用的办法是采用STUN的方法:

将本机的IP地址放在UDP的payload里,如果迅雷的服务器收到报文发现IP层的源地址和payload里的IP地址一致,那么就是公网地址,否则就是处于防火墙后面或者需要经NAT才能上公网。

协议报文如下:

注:

sandai.net是xunlei旗下的一个网站,很少单独抛头露面,多出现在迅雷软件检索关联信息、显示广告的DNS请求报文中。

4TP过滤

如果TP武断的对迅雷进行过滤,只需要设定一个traffic management,把目的地址为219.134.132.0/24网段,目的端口为3076的报文全部过滤就可以防止迅雷下载,但是有可能会误报。下面的规则更详细一点,可以减少误报。

1.针对用户向服务器资源请求报文和资源回应报文的过滤

由于迅雷的服务器IP地址比较容易更换,所以建议过滤的DV:

协议:tcp

源端口/目的端口:3076

开始的四个字节:0x29000000

2.针对用户之间的资源信息交互报文的过滤

协议UDP

端口3076

前四个字节0x32000000

3.针对用户之间的文件传输(握手报文)的过滤

协议tcp

源端口或者目的端口可以为3077、3078

前四个字节为0x29000000

4.提交新的资源信息的报文的过滤

协议TCP

目的端口3076

前四个字节0x29000000

5.针对连接NAT测试服务器的报文的过滤

协议UDP

目的端口3076

前四个字节0x00000101

posted on 2009-07-24 02:06 xerwin 阅读(...) 评论(...) 编辑 收藏