聊一聊tcp 拥塞控制五 d-sack reordering lost-pkt

查看之前的blog：浅析sack

dsack检测

根据RFC 2883，DSACK的处理流程如下：

1）look at the first SACK block :

—If the first SACK block is covered by the Cumulative Acknowledgement field, then it is a D-SACK

block, and is reporting duplicate data.

—Else, if the first SACK block is covered by the second SACK block, then the first SACK block is a

D-SACK block, and is reporting duplicate data.

2）otherwise, interpret the SACK blocks using the normal SACK procedures.

简单来说，符合以下任一情况的，就是DSACK：

1）第一个SACK块的起始序号小于它的确认序号，说明此SACK块包含了确认过的数据。

2）第一个SACK块包含在第二个SACK块中，说明第一个SACK块是重复的

static bool tcp_check_dsack(struct sock *sk, const struct sk_buff *ack_skb,
                struct tcp_sack_block_wire *sp, int num_sacks,
                u32 prior_snd_una)
{
    struct tcp_sock *tp = tcp_sk(sk);
    u32 start_seq_0 = get_unaligned_be32(&sp[0].start_seq);/* 第一个SACK块的起始 */
    u32 end_seq_0 = get_unaligned_be32(&sp[0].end_seq);/* 第一个SACK块的结束 */
    bool dup_sack = false;
    /* 如果第一个SACK块的起始序号小于它的确认序号，说明此SACK块包含了确认过的数据，
         * 所以第一个SACK块是DSACK。
         */
    if (before(start_seq_0, TCP_SKB_CB(ack_skb)->ack_seq)) {
        dup_sack = true;
        tcp_dsack_seen(tp);
        NET_INC_STATS_BH(sock_net(sk), LINUX_MIB_TCPDSACKRECV);
    } else if (num_sacks > 1) {
        u32 end_seq_1 = get_unaligned_be32(&sp[1].end_seq);/* 第二个块的结束序号 */
        u32 start_seq_1 = get_unaligned_be32(&sp[1].start_seq);/* 第二个块的起始序号 */

        if (!after(end_seq_0, end_seq_1) &&
            !before(start_seq_0, start_seq_1)) {/* 如果第一个SACK块包含在第二个SACK块中，说明第一个SACK块是重复的，即为DSACK */
            dup_sack = true;
            tcp_dsack_seen(tp);
            NET_INC_STATS_BH(sock_net(sk),
                    LINUX_MIB_TCPDSACKOFORECV);
        }
    }

    /* D-SACK for already forgotten data... Do dumb counting.
     undo_retrans记录重传数据包的个数，如果undo_retrans降到0，
     * 就说明之前的重传都是不必要的，进行拥塞调整撤销
     */
     /* undo_marker为进入Recovery或FRTO状态时记录的snd_una，prior_snd_una为根据该ACK
    更新窗口前的snd_una。如果回复的DSACK在这块中间，说明是超时重传或FRTO后进行的重传，因此需要减
    少undo_retrans。当undo_retrans减小到0，说明之前的重传都是不必要的，网络并没有拥塞，因此要进行拥
        塞调整撤销。*/
    if (dup_sack && tp->undo_marker && tp->undo_retrans > 0 &&
        !after(end_seq_0, prior_snd_una) &&
        after(end_seq_0, tp->undo_marker))
        tp->undo_retrans--;

    return dup_sack;
}

　　乱序检测的目的时探测网络是否发生重排导致的丢包，并以此来更新 dupthresh 值。只要能收到一个 ACK 或者 SACK，其序列号位于当前已经被 ACK 或 SACK 的数据包最大的序列号之前，就说明网络发生了重排造成了乱序，此时如果涉及的数据包大小大于当前能容忍的网络乱序值，即 dupthresh 值，就说明网络乱序加重了，此时应该更新 dupthresh 值。之所以保持 dupthresh 的值递增，是考虑其初始值 3 只是一个经验值，既然真实检测到乱序，如果其值比 3 小，并不能说明网络的乱序度估计偏大，同时 TCP 保守地递增乱序度，也是为了让快速重传的进入保持保守的姿态，从而增加友好性。

转载：

一、DSACK介绍

RFC2883通过指定使用SACK来指示接收端的重复包(duplicate packet)扩展了RFC2018对SACK选项的定义(SACK选项的介绍和示例参考前面内容)。RFC2883建议在收到重复报文的时候，SACK选项的第一个块(这个块也叫做DSACK块)可以用来传递触发这个ACK确认包的系列号，这个就是DSACK(duplicate-SACK)功能。这样允许TCP发送端根据SACK选项来推测不必要的重传。进而利用这些信息在乱序传输的环境中执行更健壮的操作。这个DSACK扩展是与原有的SACK选项的实现相互兼容的。DSACK的使用也不需要TCP连接的双方额外协商(只要之前协商了SACK选项即可)。当TCP的发送方不理解DSACK扩展的时候会简单的丢弃DSACK块并继续处理SACK选项中的其他块。

当DSACK使能的时候，总结起来如下

一个DSACK块只用来传递一个接收端最近接收到的重复报文的系列号，每个SACK选项中最多有一个DSACK块
接收端每个重复包最多在一个DSACK块中上报一次。如果接收端依次发送了两个带有相同DSACK块信息的ACK报文，则表示接收端接收了两次重复包，因此带有DSACK块信息的ACK确认包传输丢失的时候重复包信息也会丢失。
和普通的SACK块一样，DSACK块左边指定重复包的第一个字节的系列号，右边指定重复包最后一个字节的下一个系列号
如果收到重复报文，第一个SACK块应该应该指定触发这个ACK确认包的系列号(这个SACK块也叫做DSACK块)。如果这个重复报文是一个大的不连续块的一部分，那么接下来的这个SACK块应该指定这个大的不连续块，额外的SACK块应该按照RFC2018指定的顺序排列。

另外还有一种部分重复段(partial duplicate segment)的上报场景，我们会在示例中展示说明。注意按照上面的描述，DSACK块有可能处于ack number之前。接收端在接收到SACK报文的时候，应该把第一个SACK块与这个ACK报文的ack number比较(而不是和当前已经接收到的最大的ack number比较)，如果小于等于ack number则说明是DSACK块，如果大于ack number则应该与第二个SACK块比较，如果第二个SACK块包含第一个SACK块，则说明第一个SACK块为DSACK块，如果上面两个条件都不满足说明第一个SACK块是普通的SACK块。

在linux中/proc/sys/net/ipv4/tcp_dsack控制发出的报文中是否携带DSACK信息，但是不管该参数设置为何值，对于接收的TCP报文，linux总是会执行DSACK块的检测处理。当linux检测到DSACK块信息的时候会尝试撤销拥塞控制对于拥塞窗口的作用。另外在TLP丢包探测中也可以用来做loss probe的丢包探测。

二、wireshark示例

1、tcp_dsack=1，接收到ack number之前的数据包

如下图所示，client和server三次握手后，依次发送No4(1-6)、No6(7-13)、No8(7-13)、No10(14-20)四个数据包，server端接收到No8时候发现是一个重复包，因此回复一个带有DSACK的ACK确认包(No9)，其中DSACK块信息为(7-14)，表示收到了一个系列号为(7-13)的重复包。

2、tcp_dsack=1，接收到ack number之后的数据包

client端分别发送No4(1-6)和No6(7-13)，server端正常回复不带有SACK选项的ACK确认包
接着client发送No8(21-27)，模拟系列号(14-20)的报文在由client向server传输的过程中丢包
server端回复一个带有SACK选项的ACK确认包(No9)，其中包含一个SACK块(21-28)
client端继续发送No10(24-34)，server端回复No11的ACK确认包，包含一个SACK块(21-35)
接着client发送No12(42-48)，模拟系列号为(35-41)的报文传输过程中发生丢失
server端回复No13的ACK报文，带有两个SACK块，依次为(42-49)和(21-35)
client端发送No14(28-34)，这个数据包与No10数据包系列号相同
server端收到No14的重复包之后，回复No15确认包，带有一个DSACK块(28-35)和两个额外的SACK块，这两个SACK块依次为(21-35)(42-49)
接着client发送No16(14-20)，server端回复No17确认包，带有一个SACK块(42-49)。
client发送No18(35-41)，server端回复No19确认包，不带有SACK信息，整个传输过程结束

3、tcp_dsack=1，接收到ack number之后的部分重传段

此处不在罗嗦叙述过程，此处仅把SACK的信息文字补充描述一下，其他信息请自行下载对应的wireshark文件

其中No9、No11、No13、No15包含SACK信息，No9包含一个SACK块(28-35)，No11包含一个SACK块(28-42)，No13包含两个SACK块信息(49-56)、(28-42)，No15包含一个DSACK块(28-42)和一个额外的SACK块(21-56)，注意此处No14(21-55)与之前的两个SACK块(49-56)、(28-42)都是重复包，着一个TCP包与前面的三个包内容重复还发送了新的数据，这种同时带有新数据和重复数据的tcp报文就叫做部分重传段，当部分重传段中同时带有多个重复段的时候，协议规定DSACK块值反馈第一个重复端的系列号范围。可以看到此时linux的处理是符合协议的。

4、tcp_dsack=1，接收到ack number之前的部分重传段

此处同样仅用文字描述一下SACK信息，No9带有一个SACK块(21-28)，No11带有一个SACK块(21-35)，No13带有两个SACK块(42-49)和(21-35)，No15数据包带有一个DSACK块(21-56)。注意这里与上面同样是带有两个重复段大的部分重传段，但是linux反馈的DSACK信息却把两个重复段都包含了，而且还扩展到了最新发送的55系列号(DSACK块中的56表示55系列号的后一个系列号)。RFC2883协议中的对这种场景的描述是：

When the SACK option is used for reporting partial duplicate segments, the first D-SACK block reports the first duplicate sub-segment. If the data packet being acknowledged contains multiple partial duplicate sub-segments, then only the first such duplicate sub-segment is reported in the SACK option.

而linux的处理则是，如果当前接收到的数据包的系列号与待接收的连续系列号相同，那么回复的DSACK块的起始系列号则为乱序队列中的最小系列号，终止系列号则为新收到的数据包的最大系列号加1。显然linux的处理与协议要求不符合，而且与DSACK扩展功能的预期不相符，具体原因我也没查到(不过并不是所有不符合协议的实现都是bug，有些实现可能会在协议的基础上做一些扩展)。

posted @ 2021-11-19 19:01 codestacklinuxer 阅读(113) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

坐看云起时

乘风好去，长空万里，直下看山河!!! 研究过httpserver、nginx、内核tcpip协议栈源码，内存管理、摄像头-iic-spi等驱动!! 目前搞搞准入搞搞身份！后面啊，找新工作哦

聊一聊tcp 拥塞控制五 d-sack reordering lost-pkt

坐看云起时

乘风好去，长空万里，直下看山河!!! 研究过httpserver、nginx、内核tcpip协议栈源码，内存管理 、摄像头-iic-spi等驱动!! 目前搞搞准入 搞搞身份！后面啊，找新工作哦

聊一聊tcp 拥塞控制五 d-sack reordering lost-pkt

乘风好去，长空万里，直下看山河!!! 研究过httpserver、nginx、内核tcpip协议栈源码，内存管理、摄像头-iic-spi等驱动!! 目前搞搞准入搞搞身份！后面啊，找新工作哦