负载均衡,异构服务器的负载均衡和过载保护

1. 什么是负载均衡?

负载均衡(Load Balance)是分布式系统架构设计中必须考虑的因素之一,它通常是指,将请求/数据均匀分摊到多个操作单元上执行。负载均衡的关键在于均匀。

常见互联网分布式架构如上,分为客户端层,反向代理nginx层,站点层,服务层,数据层。可以看出,每一个下游都要多个上游调用,只需要做到,每一个上游都均匀访问每一个下游,就能实现“将请求/数据均匀分摊到多个操作单元上执行”。

1.1 客户端层->反向代理层的负载均衡

客户端层到反向代理层的负载均衡,是通过DNS轮询实现的,DNS-server对于一个域名配置了多个解析IP,每次DNS解析请求来访问DNS-server,会轮询返回这些IP,保证每个IP的解析概率是相同的。这些IP就是nginx的外网IP,以做到每台nginx的请求分配也是均衡的。

1.2 反向代理层->站点层的负载均衡

反向代理层到站点层的负载均衡,是通过nginx实现的。通过修改nginx.conf,可以实现多种负载均衡策略:

(1)请求轮询,同DNS轮询类似,请求依次路由到各个web-server;

(2)最少连接路由,哪个web-server的连接少,路由到哪个web-server;

(3)IP哈希,按照访问用户的IP哈希来路由web-server,只要用户的IP分布式均匀的,请求理论上也是均匀的,IP哈希均衡方法可以做到,同一个用户的请求固定落到同一台web-server上,此策略适合有状态服务。

(4)等等

1.3 站点层->服务层的负载均衡

站点层到服务层的负载均衡,是通过“服务连接池”实现的。

上游连接池会建立与下游服务多个连接,每次请求会“随机”选取连接来访问下游服务。

1.4 数据层的负载均衡

在数据量很大的情况下,由于数据层(db,cache)涉及数据的水平切分,所以数据层的负载均衡更为复杂一些,它分为“数据的均衡”和“请求的均衡”。

数据的均衡是指:水平切分后的每个服务(db,cache),数据量是差不多的。

请求的均衡是指:水平切分后的每个服务(db,cache),请求量是差不多的。

业内常见的水平切分方式有几种:

1.4.1 按照range水平切分

每一个数据服务,存储一定范围的数据,上图为例:

user0服务,存储uid范围1-1kw

user1服务,存储uid范围1kw-2kw

这个方案的好处是:

(1)规则简单,service只需执行以下uid范围就能路由到对应的存储服务;

(2)数据均衡性较好;

(3)比较容易扩展,可以随时加一个uid[2kw,3kw]的数据服务。

不足是:

(1)请求的负载不一定均衡,一般来说,新注册的用户会比老用户更活跃,大range的服务请求压力会更大。

1.4.2 按照id哈希水平切分

每一个数据服务,存储某个key值hash后的部分数据,上图为例:

user0服务,存储偶数uid数据;

user1服务,存储奇数uid数据;

这个方案的好处是:

(1)规则简单,service只需对uid进行hash能路由到对应的存储服务;

(2)数据均衡性较好;

(3)请求均匀性较好。

不足是:

(1)不容易扩展,扩展一个数据服务,hash方法改变时候,可能需要进行数据迁移。

2. 接入层的负载均衡

问题域:

(1)可用性:任何一台机器挂了,服务受不受影响;

(2)扩展性:能否通过增加机器,扩充系统的性能;

(3)反向代理+负载均衡:请求是否均匀分摊到后端的操作单元执行。

名词解释:

nginx:一个高性能的web-server和试试反向代理的软件。

lvs:Linux Virtual Server,使用集群技术,实现在linux操作系统层面的一个高性能、高可用、负载均衡服务器。

keepalived:一款用来检测服务状态存活性的软件,常用来做高可用。

f5:一个高性能、高可用、负载均衡的硬件设备。

DNS轮询:通过在dns-server上对一个域名设置多个IP解析,来扩充web-server性能及实施负载均衡的技术。

下面重点看一下接入层技术演进。

2.1 裸奔时代-单机架构

裸奔时代的架构图如上:

(1)浏览器通过DNS-server,域名解析到IP

(2)浏览器通过IP访问web-server

缺点:

(1)非高可用,web-server挂了,整个系统就挂了。

(2)扩展性查,当吞吐量达到web-server上限时,无法扩容。

注:单机不涉及负载均衡问题。

2.2 简易扩容方案-DNS轮询

假设tomcat的吞吐量是1000次每秒,当系统总吞吐量达到3000时,如何扩容是首先要解决的问题,DNS轮询是一个很容易想到的方案:

此时的架构图如上:

(1)多部署几份web-server,1个tomcat抗1000,部署3个tomcat就能抗3000

(2)在DNS-server层面,域名每次解析到不同的IP

优点:

(1)零成本:在DNS-server上多配几个IP即可,功能也不收费

(2)部署简单:多部署几个web-server即可,原系统架构不需要做任何改造

(3)负载均衡:变成了多机,但负载基本是均衡的

缺点:

(1)非高可用:DNS-server只负责域名解析IP,这个IP对应的服务是否可用,DNS-server是不保证的,假设有一个web-server挂了,部分服务会受到影响。

(2)扩容非实时:DNS解析有一个生效周期

(3)暴露了太多的外网IP

2.3 简易扩容方案-nginx

tomcat的性能较差,但nginx作为反向代理的性能就强多了,假设线上跑1w,就比tomcat高10倍,可以利用这个特性来做扩容:

此时的架构图如上:

(1)站点层与浏览器层之间加入了一个反向代理层,利用高性能的nginx来做反向代理

(2)nginx将http请求分发给后端多个web-server

优点:

(1)DNS-server不需要动

(2)负载均衡:通过nginx来保证

(3)只暴露一个外网IP,nginx->tomcat之间使用内网访问

(4)扩容实时:nginx内部可控,随时增加web-server随时实时扩容

(5)能够保证站点的可用性:任何一台tomcat挂了,nginx可以将流量迁移到其他tomcat

缺点:

(1)时延增加+架构更复杂:中间多加了一个反向代理层

(2)反向代理层成了单点,非高可用:tomcat挂了不影响服务,nginx挂了怎么办?

2.4 高可用方案-keepalived

为了解决高可用的问题,keepalived出场了。

(1)做两台nginx组成一个集群,分别部署到keepalived,设置成相同的虚IP,保证nginx的高可用;

(2)当一台nginx挂了,keepalived能够探测到,并将流量自动迁移到另一台nginx上,整个过程对调用方透明

优点:

(1)解决了高可用的问题

缺点:

(1)资源利用率只有50%

(2)nginx仍然是接入单点,如果接入吞吐量超过的nginx的性能上限怎么办,例如qps达到了5w?

2.5 scale up(垂直扩展)扩容方案-LVS/F5

nginx毕竟是软件,性能比tomcat好,但总有个上限,超出了上限,还是扛不住。

LVS就不一样了,它实施在操作系统层面;F5的性能又更好了,它实施在硬件层面;它们性能比nginx好很多,例如每秒可以抗10w,这样可以利用他们来扩容,常见的架构图如下:

(1)如果通过nginx可以扩展多个tomcat一样,可以通过lvs来扩展多个nginx

(2)通过keepalived+VIP的方案可以保证可用性

99.9999%公司到这一步基本就能解决接入层高可用、扩展性、负载均衡的问题。

但是,不管使用lvs还是f5,这些都是scale up的方案,根本上,lvs/f5还是会有性能上限,假设每秒能处理10w的请求,一天也只能处理80亿的请求(10w秒吞吐量*8w秒[一天]),那万一系统的日PV超过80亿怎么办?

2.6 scale out(水平扩展)扩容方案-DNS轮询

如之前文章所述,水平扩展,才是解决性能问题的根本方案,能够通过加机器扩充性能的方案才具备最好的扩展性。

 

(1)通过DNS轮询来线下扩展入口LVS层的性能

(2)同keepalived来保证高可用

(3)通过lvs来扩展多个nginx

(4)同nginx来做负载均衡,业务七层路由

小结:

(1)接入层架构要考虑的问题域为:高可用、扩展性、反向代理+扩展均衡

(2)nginx、keepalived、lvs、f5可以很好的解决高可用、扩展性、反向代理+扩展均衡的问题

(3)水平扩展scale out是解决扩展性问题的根本方案 

3. 异构服务器的负载均衡和过载保护

后端的service有可能部署在硬件条件不同的服务器上:

(1)如果对标最低配的服务器“均匀”分摊负载,高配的服务器的利用率不足;

(2)如果对标最高配的服务器“均匀”分摊负载,低配的服务器可能会扛不住;

能否根据异构服务器处理能力来动态、自适应进行负载均衡及过载保护,是本文要讨论的问题。

service层的负载均衡,一般是通过service连接池来实现的,调用方连接池会建立与下游服务多个连接,每次请求“随机”获取连接,来保证service访问的均衡性。

这个调用方连接池能否实现,根据service的处理能力,动态+自适应进行负载调度呢?

3.1 通过“静态权重”标示service的处理能力

 

调用方通过连接池主键访问下游service,通常采用“随机”的方式返回连接,以保证下游service访问的均衡性。

要打破这个随机性,最容易想到的方法,只要为每个下游service设置一个“权重”,代表service的处理能力,来调整访问到每个service的概率,例如:

加入service-ip1,service-ip2,service-ip3的处理能力相同,可以设置weight1=1,weight2=1,weight3=1,这样三个service连接被获取到的概率分布式1/3,1/3,1/3,能够保证均衡访问。

假设service-ip1的处理能力是service-ip2,service-ip3的处理能力的2倍,可以设置weight1=2,weight2=1,weight3=1,这样三个service连接被获取到的概率分布式2/4,1/4,1/4,能够保证处理能力强的service分配到等比的流量,不至于资源浪费。

使用nginx做反向代理与负载均衡,就有类似的机制。

这个方案的优点是:简单,能够快速的实现异构服务器的负载均衡。

缺点也很明显:这个权重是固定的,无法自适应动态调整。而很多时候,服务器的处理能力是很难用一个固定的数值量化。

3.2 通过“动态权重”标示service的处理能力

通过什么来标示一个service的处理能力呢?

其实一个service能不能处理得过来,能不能响应得过来,应该由调用方说了算。调用服务,快速处理了,处理能力跟得上;调用服务,处理超时了,处理能力很有可能跟不上了。

动态权重设计:

(1)用一个动态权重来标示每个service的处理能力,默认初始处理能力相同,即分配给每个service的概率相等;

(2)每当service成功处理一个请求,认为色如此恶处理能力足够,权重动态+1;

(3)每当service超时处理一个请求,认为service处理能力可能要跟不上了,权重动态-10(权重下降会更快);

(4)为了方便权重的处理,可以把权重的范围限定为[0, 100],把权重的初始值设为60。

举例说明:

假设service-ip1,service-ip2,service-ip3的动态权重初始值weight1=weight2=weight3=60,刚开始时,请求分配给这3台service的概率分别是60/180,60/180,60/180,即负载是均衡的。

随着时间的推移,处理能力强的service成功处理的请求越来越多,处理能力弱的service偶尔有超时,随着动态权重的增减,权重可能变化成了weight1=100,weight2=60,weight3=40,那么此时,请求分配给这3台service的概率分别是100/200,60/200,40/200,即此处理能力强的service会被分配到更多的流量。

3.3 过载保护

什么是过载保护?

当系统负载超过一个service的处理能力时,如果service不进行自我保护,可能导致对外呈现处理能力为0,且不能自动恢复的现象。而service的过载保护,是指即使系统负载超过一个service的处理能力,service让能保证对外提供有损的稳定服务

如何进行过载保护?

最简易的方式,服务器设定一个负载阈值,超过这个阈值的请求压过来,全部抛弃,这个方式不是特别优雅。

3.4 如何借助“动态权重”来实施过载保护

动态权重使用来标示每个service的处理能力的一个值,它是RPC-Client客户端连接池层面的一个东西。服务端处理超时,客户端RPC-Client连接池都能够知道,这里只要实施一些策略,就能够对“疑似过载”的服务器进行降压,而不是服务器“抛弃请求”这么粗暴的实施过载保护。

应该实施一些什么样的策略呢,例如:

(1)如果某一个service的连接上,连续3个请求都超时,即连续-10三次(即-30),客户端就可以认为,服务器慢慢的要处理不过来了,得给这个service缓一小口气,于是设定策略:接下来的若干时间内,例如1秒(或接下来的若干个请求),请求不再分配给这个service;

(2)如果某一个service的动态权重,降为了0(连续10个请求超时,中间休息了3次还超时),客户端就可以认为,服务器完全处理不过来了,得给这个service喘一口气,于是设定策略:接下来的若干时间内,例如1分钟,请求不再分配给这个service;

(3)可以有更复杂的保护策略。

这样的话,不但能借助“动态权重”来试试动态自适应的异构服务器负载均衡,还能够在客户端层面更优雅的实施过载保护,在某个下游service快要响应不过来的时候,给其喘息的机会。

需要注意的是:要防止客户端的过载保护引起的service的雪崩,如果“整体负载”已经超过了“service集群”的处理能力,怎么转移请求也是处理不过来的,还得通过抛弃请求来实施自我保护。

posted @ 2018-08-21 11:52  小路不懂2  阅读(554)  评论(0编辑  收藏  举报