集群与分布式基础
1.集群 Cluster
Cluster:集群,为解决某个特定问题将多台计算机组合起来形成的单个系统
Cluster分为三种类型:
- LB:Load Balancing,负载均衡,多个主机组成,每个主机只承担一部分访问请求
 - HA:High Availiablity,高可用,避免SPOF(single Point Of failure)
 - HPC:High-performance computing,高性能
 
2.分布式系统
分布式存储: Ceph,GlusterFS,FastDFS,MogileFS
分布式计算:hadoop,Spark
分布式常见应用:
- 分布式应用-服务按照功能拆分,使用微服务
 - 分布式静态资源--静态资源放在不同的存储集群上
 - 分布式数据和存储--使用key-value缓存系统
 - 分布式计算--对特殊业务使用分布式计算,比如Hadoop集群
 
3.集群和分布式的关系
集群:
同一个业务系统,部署在多台服务器上。集群中,每一台服务器实现的功能没有差别,数据和代码都是一样的
分布式:
一个业务被拆成多个子业务,或者本身就是不同的业务,部署在多台服务器上。分布式中,每一台服务器实现的功能是有差别的,数据和代码也是不一样的,分布式每台服务器功能加起来,才是完整的业务
关系:
分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率。
对于大型网站,访问用户很多,实现一个群集,在前面部署一个负载均衡服务器,后面几台服务器完成同一业务。如果有用户进行相应业务访问时,负载均衡器根据后端哪台服务器的负载情况,决定由给哪一台去完成响应,并且一台服务器垮了,其它的服务器可以顶上来。分布式的每一个节点,都完成不同的业务,如果一个节点垮了,那这个业务可能就会失败
4.集群的设计原则
- 可扩展性—集群的横向扩展能力
 - 可用性—无故障时间 (SLA service level agreement)
 - 性能—访问响应时间
 - 容量—单位时间内的最大并发吞吐量(C10K 并发问题)
 
5.集群的设计实现
5.1基础设施方面
提升硬件资源性能—从入口防火墙到后端 web server 均使用更高性能的硬件资源
多域名—DNS 轮询A记录解析
多入口—将A记录解析到多个公网IP入口
多机房—同城+异地容灾
CDN(Content Delivery Network)—基于GSLB(Global Server Load Balance)实现全局负载均衡,如:DNS
5.2业务方面
分层:安全层、负载层、静态层、动态层、(缓存层、存储层)持久化与非持久化
分割:基于功能分割大业务为小服务
分布式:对于特殊场景的业务,使用分布式计算
6.LB Cluster 负载均衡集群
6.1实现方式划分
硬件:
F5 Big-IP
Citrix Netscaler
A10 A10
软件:
lvs:Linux Virtual Server,阿里四层 SLB (Server Load Balance)使用
nginx:支持七层调度,阿里七层SLB使用 Tengine
haproxy:支持七层调度
ats:Apache Traffic Server,yahoo捐助给apache
perlbal:Perl 编写
pound
6.2协议层次划分
- 传输层(通用):DNAT 和 DPORT
 
LVS:
nginx:stream
haproxy:mode tcp- 应用层(专用):针对特定协议,常称为 proxy server
 
http:nginx, httpd, haproxy(mode http), ...
fastcgi:nginx, httpd, ...
mysql:mysql-proxy, mycat...
6.3负载均衡的会话保持
- session sticky:同一用户调度固定服务器
Source IP:LVS sh算法(对某一特定服务而言)
Cookie - session replication:每台服务器拥有全部session
session multicast cluster - session server:专门的session服务器
Memcached,Redis 
7.HA 高可用集群
keepalived:vrrp协议
Ais:应用接口规范
  heartbeat
  cman+rgmanager(RHCS)
  coresync_pacemaker
                    
                
                
            
        
浙公网安备 33010602011771号