高可用与负载均衡(1)之linux系统的数据链路层负载均衡

preface

在蓝厂就职到时候,每台缓存服务器都能够跑到2G的流量,这么大的流量,有人会问,服务器是不是安装的万兆网卡,no no no,仅仅是3张千兆网卡绑定在一块。万兆网卡的服务器少见,大多数都是定制的,就像我第一家公司那样自己去单独购买intel的万兆网卡。
其实这个3张千兆网卡绑定在一块就是做的是负载均衡,在OSI七层参考模型上,是数据链路层的负载均衡。

OSI 七层参考模型

那我们先看看OSI七层模型先。

数据链路层的负载均衡

数据链路层负载均衡其实也就是网卡的负载均衡,在下面的应用情况下,就要考虑对网卡进行负载均衡:

  1. 某个服务器跑的应用非高峰期间都能达到500M以上,晚高峰一般能够超过1G,主流服务器的网卡都是千兆的,超过1G的流量明显会导致丢包的问题,此时又不能停止业务对网卡进行更换,所以必须在增加一个网卡来联合提供服务,所以就必须把多张网卡捆绑做成一个逻辑网卡。
  2. 对网卡的高可用性要求,某些业务必须要求网卡层面的高可用性,所以必须捆绑多个网卡。

对于linux系统来说,数据链路层的解决方案就是实现多个网卡绑定,即linux bonding,在思科交换机上这称为以太网通道(Ether Channel)

linux bonding

在配置之前,我们先说说linux bonding的七种模式:
七种bond模式说明:

第一种模式:mod=0 ,即:(balance-rr) Round-robin policy(平衡抡循环策略)

特点:传输数据包顺序是依次传输(即:第1个包走eth0,下一个包就走eth1….一直循环下去,直到最后一个传输完毕),此模式提供负载平衡和容错能力;但是我们知道如果一个连接或者会话的数据包从不同的接口发出的话,中途再经过不同的链路,在客户端很有可能会出现数据包无序到达的问题,而无序到达的数据包需要重新要求被发送,这样网络的吞吐量就会下降

第二种模式:mod=1,即: (active-backup) Active-backup policy(主-备份策略)

特点:只有一个设备处于活动状态,当一个宕掉另一个马上由备份转换为主设备。mac地址是外部可见得,从外面看来,bond的MAC地址是唯一的,以避免switch(交换机)发生混乱。此模式只提供了容错能力;由此可见此算法的优点是可以提供高网络连接的可用性,但是它的资源利用率较低,只有一个接口处于工作状态,在有 N 个网络接口的情况下,资源利用率为1/N

第三种模式:mod=2,即:(balance-xor) XOR policy(平衡策略)

特点:基于指定的传输HASH策略传输数据包。缺省的策略是:(源MAC地址 XOR 目标MAC地址) % slave数量。其他的传输策略可以通过xmit_hash_policy选项指定,此模式提供负载平衡和容错能力

第四种模式:mod=3,即:broadcast(广播策略)

特点:在每个slave接口上传输每个数据包,此模式提供了容错能力

第五种模式:mod=4,即:(802.3ad) IEEE 802.3adDynamic link aggregation(IEEE 802.3ad 动态链接聚合)

特点:创建一个聚合组,它们共享同样的速率和双工设定。根据802.3ad规范将多个slave工作在同一个激活的聚合体下。

外出流量的slave选举是基于传输hash策略,该策略可以通过xmit_hash_policy选项从缺省的XOR策略改变到其他策略。需要注意的是,并不是所有的传输策略都是802.3ad适应的,尤其考虑到在802.3ad标准43.2.4章节提及的包乱序问题。不同的实现可能会有不同的适应性。

必要条件:

条件1:ethtool支持获取每个slave的速率和双工设定

条件2:switch(交换机)支持IEEE 802.3ad Dynamic link aggregation

条件3:大多数switch(交换机)需要经过特定配置才能支持802.3ad模式

第六种模式:mod=5,即:(balance-tlb) Adaptive transmit load balancing(适配器传输负载均衡)

特点:不需要任何特别的switch(交换机)支持的通道bonding。在每个slave上根据当前的负载(根据速度计算)分配外出流量。如果正在接受数据的slave出故障了,另一个slave接管失败的slave的MAC地址。

该模式的必要条件:ethtool支持获取每个slave的速率

第七种模式:mod=6,即:(balance-alb) Adaptive load balancing(适配器适应性负载均衡)

特点:该模式包含了balance-tlb模式,同时加上针对IPV4流量的接收负载均衡(receive load balance, rlb),而且不需要任何switch(交换机)的支持。接收负载均衡是通过ARP协商实现的。bonding驱动截获本机发送的ARP应答,并把源硬件地址改写为bond中某个slave的唯一硬件地址,从而使得不同的对端使用不同的硬件地址进行通信。


在我司的生产环境下的使用的mode4,mode4需要让网络组同事调配交换机,让交换机能够支持服务器的linux bonding。所以这里不赘述交换机那块的配置,如果同志你们公司没有搞网络的同事帮你调配,那你自己搜索下思科交换的以太网通道,或者华为华三的端口聚合技术(端口聚合技术,好像没有记错)的配置。

配置linux
配置的时候建议本地配置,不要远程配置,因为会导致网络暂时中断。

[root@localhost network-scripts]# cat ifcfg-eth0
DEVICE="eth0"
BOOTPROTO="none"
IPV6INIT="yes"
NM_CONTROLLED="no"
MASTER="bond0"      # 属于bond0的成员,
SLAVE="yes"   
ONBOOT="no"
You have new mail in /var/spool/mail/root
[root@localhost network-scripts]# cat ifcfg-eth1
DEVICE="eth1"
BOOTPROTO="none"
IPV6INIT="yes"
NM_CONTROLLED="no"
ONBOOT="no"
MASTER="bond0"      # 属于bond0的成员,
SLAVE="yes"
[root@localhost network-scripts]# cat ifcfg-bond0
DEVICE="bond0"
IPADDR="192.168.141.3"
NETMASK="255.255.255.0"
GATEWAY="192.168.141.2"
BOOTPROTO="static"
ONBOOT="yes"
BONDING_OPTS="minion=100 mode=4"    # 这里设置为mode4级别,交换机注意需要调配以太网通道,不然无法网络无法工作,mode4 就是 IEEE 802.3ad Dynamic link aggregation,否则,linux和交换机会协商不成功。

[root@localhost network-scripts]# service  network restart
[root@localhost network-scripts]# ifconfig
bond0     Link encap:Ethernet  HWaddr 00:0C:29:45:2A:23
          inet addr:192.168.141.3  Bcast:192.168.141.255  Mask:255.255.255.0
          inet6 addr: fe80::20c:29ff:fe45:2a23/64 Scope:Link
          UP BROADCAST RUNNING MASTER MULTICAST  MTU:1500  Metric:1
          RX packets:27459 errors:0 dropped:0 overruns:0 frame:0
          TX packets:13522 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:0
          RX bytes:8463210 (8.0 MiB)  TX bytes:2021407 (1.9 MiB)

eth0      Link encap:Ethernet  HWaddr 00:0C:29:45:2A:23
          UP BROADCAST RUNNING SLAVE MULTICAST  MTU:1500  Metric:1
          RX packets:21901 errors:0 dropped:0 overruns:0 frame:0
          TX packets:13304 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:7939864 (7.5 MiB)  TX bytes:1990240 (1.8 MiB)

eth1      Link encap:Ethernet  HWaddr 00:0C:29:45:2A:23
          UP BROADCAST RUNNING SLAVE MULTICAST  MTU:1500  Metric:1
          RX packets:5558 errors:0 dropped:0 overruns:0 frame:0
          TX packets:218 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:523346 (511.0 KiB)  TX bytes:31167 (30.4 KiB)

配置成功。

检查bond0状态

我们不管配置什么服务,都需要在配置完成之后去检查是否正常。

[root@localhost ~]# ethtool bond0     # 查看bond0的状态
Settings for bond0:
	Supported ports: [ ]
	Supported link modes:   Not reported
	Supported pause frame use: No
	Supports auto-negotiation: No
	Advertised link modes:  Not reported
	Advertised pause frame use: No
	Advertised auto-negotiation: No 
	Speed: 2000Mb/s        # 查看这速度是否为两个网卡之和,我这边配置了2快网卡,每块都是千兆的,所以这里显示2G是正确的。
	Duplex: Full      #全双工模式
	Port: Other
	PHYAD: 0
	Transceiver: internal
	Auto-negotiation: off
	Link detected: yes


[root@localhost ~]# cat /proc/net/bonding/bond0
Ethernet Channel Bonding Driver: v3.6.0 (September 26, 2009)

Bonding Mode: IEEE 802.3ad Dynamic link aggregation
Transmit Hash Policy: layer2 (0)
MII Status: up
MII Polling Interval (ms): 0
Up Delay (ms): 0
Down Delay (ms): 0

802.3ad info
LACP rate: slow
Aggregator selection policy (ad_select): stable
Active Aggregator Info:
	Aggregator ID: 2
	Number of ports: 1
	Actor Key: 17
	Partner Key: 1
	Partner Mac Address: 00:00:00:00:00:00

Slave Interface: eth0     #由此可以看到bond0由eth0和eth1组成。
MII Status: up
Speed: 1000 Mbps
Duplex: full
Link Failure Count: 0
Permanent HW addr: 00:0c:29:45:2a:23
Aggregator ID: 1
Slave queue ID: 0

Slave Interface: eth1
MII Status: up
Speed: 1000 Mbps
Duplex: full
Link Failure Count: 0
Permanent HW addr: 00:0c:29:45:2a:2d
Aggregator ID: 2
Slave queue ID: 0

接下来测试流量和可用性:

  1. 我们依次拔掉eth1,eth0的网线,然后ping服务器ip,看是否通畅。正确的情况就是不管拔掉哪根,都可正常ping通
  2. 从多个服务器对做了bonding的服务器发起流量测试,测试工具iperf(下载地址是https://iperf.fr/iperf-download.php#fedora),需要验证的是,做了bonding的服务器,网卡吞吐量会接近2G。。。

Notice

  1. Cisco交换机到服务器的端口负载算法是不可配置的。
  2. 从服务器到交换机发出的数据的端口选择,可以使用使用xmit_hash_policy这个配置项进行调整。如果通往段的多台服务器调用该绑定的服务器,则可以使用默认的算法layer2;对公网多个IP的来源访问,可以修改layer2+3。可以参考官方文档帮助:https://www.kernel.org/doc/Documentation/networking/bonding.txt
posted @ 2016-11-13 12:30  温柔易淡  阅读(2522)  评论(0编辑  收藏  举报