何时使用和不使用BBR

原文链接：https://blog.apnic.net/2020/01/10/when-to-use-and-not-use-bbr/

TCP BBR(Bottleneck Bandwidth and Round-trip propagation time)是由Google设计，并于2016年发布的拥塞算法，以往大部分拥塞算法是基于丢包来作为降低传输速率的信号，而BBR基于模型主动探测。

不过，在具体谈论应该BBR合适的应用场景之前，有必要先回顾一下传统拥塞控制算法的弊端所在。

1.传统拥塞控制算法的弊端（即BBR试图解决的问题）

TCP拥塞控制算法已经持续发展了30多年，主流的拥塞控制算法是基于丢包的，即它们将数据包丢失作为拥塞信号。例如，Linux的默认TCP算法Cubic在遇到数据包丢失时将其拥塞窗口降低了30％。

但是，在某些情况下，基于丢包的TCP算法效果不佳。例如，在浅缓冲区中，数据包丢失可能被误解为网络拥塞，从而导致吞吐量降低和网络利用率降低。另一方面，在较深的缓冲区中，数据包通常要花很长时间才能填满缓冲区。这将导致较高的网络延迟，这称为缓冲膨胀问题。

为了解决此类问题，Google在2016年提出了BBR。BBR不会使用数据包丢失作为拥塞信号，而是根据观察到的带宽和延迟值来调节其流量。具体来说，BBR将其传输中的数据包数量限制为时延带宽积（BDP）的倍数。此外，BBR还使用 pacing来控制数据包之间的间隔。

重点：

瓶颈缓冲区大小和时延带宽积（BDP）之间的差异通常指示BBR何时运行良好。在较大的BDP和较浅的缓冲区大小下，BBR可获得更高的吞吐量。
与Cubic相比，BBR可能导致100倍的数据包重传。
BBR和Cubic之间的不公平性取决于瓶颈缓冲区的大小—如果缓冲区大小较小（10KB），则BBR可以获取总带宽的90％以上；具有较大的缓冲区大小（10MB），Cubic可获得大约80％的总带宽。

2.BBR的优势和劣势

虽然BBR是为了解决基于丢包的拥塞控制算法的某些问题而提出的，但是这并不意味着在所有的情况下，BBR都比基于丢包的拥塞控制算法有更好的性能。

为了探究BBR在何种情况下相比较基于丢包的拥塞控制算法有更好的性能，原作者进行了几个相关的实验，旨在探究：

BBR什么时候更有用（与基于丢包的算法（例如Cubic）相比）
BBR忽略数据包丢失的缺点是什么？
BBR是否对基于丢包的算法不公平？（答案是yes）

原作者和其在石溪大学的同事们在不同的网络条件下，跨不同的网络测试平台（LAN，WAN，Mininet）进行了广泛的测量研究，从而做到了这一点。他们在路由器上部署了流量控制器，以进行细粒度的网络参数控制，并使用带有NetEm的Linux流量控制（TC）来设置网络延迟，并使用令牌桶过滤器（TBF）来设置网络带宽和缓冲区大小。

2.1BBR在何时更有效？

为了研究BBR或Cubic在不同情况下能否获得更高的吞吐量，他们在局域网中进行了640个iperf3实验。在这些实验中，收集了BBR和Cubic的有效值，并通过决策树（使用Python3中的DecisionTreeClassifier包）将这些值进行了概括。

在决策树中，橙色节点表示BBR获得更高吞吐量的实例，而蓝色节点代表Cubic获得更高吞吐量的实例。图中可以观察到，瓶颈缓冲区大小和BDP之间的相对差异通常决定了BBR何时运行良好-在较小的BDP和较深的缓冲区大小下，Cubic可获得较高的吞吐量，而在较大的BDP和较浅的缓冲区大小下，BBR可获得较高的吞吐量。更高的产量。

也就是BBR与CDP呈现正相关，与缓冲区大小呈现负相关，而Cubic恰恰相反。

为了分析和量化BBR与浅缓冲区中的Cubic相比，吞吐量的提高，定义一个以下指标：

GpGain = (goodput|BBR – goodput|Cubic) / goodput|Cubic x 100（显然，当BBR更有效时，GpGain为正数）

对于较浅的缓冲区大小（100KB）的情况下，在图2中展示了在不同的RTT和带宽值下GpGain指标的热图。我们观察到BBR与Cubic相比有显着改善。例如，在200ms的RTT和500Mbps的带宽下，与Cubic相比，BBR的吞吐量提高了115％。这是因为BBR使用带宽和延迟估计作为拥塞信号而不是数据包丢失。

2.2忽略丢包的缺点

BBR需要将2BDP数据保留在网络中（额外的BDP数据用于处理延迟/聚合的ACK），在浅缓冲区中，这些额外的数据BDP将导致巨大的数据包重传。

更糟糕的是，BBR不会将丢包视为拥塞信号，这会导致高重传率的保持。下面的热图（图3）显示了在不同的RTT和带宽值下BBR和Cubic的数据包重传次数。

图3中可以观察到，BBR导致的数据包重传比Cubic的重传100倍。这表明BBR是以浅缓冲区中的高数据包重传为代价提高吞吐量。因此，如果传递的内容对丢包敏感，那么BBR可能不是一个好选择。在这种情况下，内容提供商需要仔细检查吞吐量和体验质量之间的权衡。

3.BBR的cliff point

在这些实验中可以发现有一个“cliff point”-即损失百分比，超出此百分比，BBR的实际吞吐量会大大下降。如图5（左）所示，BBR的吞吐量保持几乎满负荷，直到损失百分比达到20％。

经分析，cliff point与BBR的最大pacing_gain参数密切相关，该参数决定了其探测能力。如果丢包概率为p，则在带宽探测期间，BBR的速度为pacing_gain×带宽（BW）。但是，由于损耗，其有效pacing为pacing_gain×BW×（1- p）。因此，如果此值小于带宽，则BBR将不会探测额外的容量，并且会因丢包而推断出较低的容量。

4.总结

总的来说，BBR作为在Cubic之后提出的拥塞控制算法，它的有很多优点，并且解决了Cubic算法存在的一些问题，但是因为它并非是采用丢包作为拥塞信号，也带来了一些新的问题。

BBR的公平性存在问题，它会抢占Cubic算法的带宽（取决于瓶颈缓冲区的大小）
BBR的机制会导致高重传率

BBR目前来看，只能说和Cubic更有优劣，两者擅长处理的网络环境并不相同。不过它不采用丢包作为拥塞信号，而是通过自己评估，也许会在其他的环境下取得更好的成绩，比如说和强化学习相结合。

posted @ 2020-09-22 12:19 菜鸟ccc 阅读(18014) 评论(0) 收藏举报

刷新页面返回顶部

菜鸟ccc

何时使用和不使用BBR

公告