Nacos 实现 AP+CP原理[Raft 算法 NO]

来源于网络

一、什么是 Raft算法

Raft 适用于一个管理日志一致性的协议，相比于 Paxos 协议 Raft 更易于理解和去实现它。为了提高理解性，Raft 将一致性算法分为了几个部分，包括领导选取（leader selection）、日志复制（log replication）、安全（safety），并且使用了更强的一致性来减少了必须需要考虑的状态。

Raft算法将 Server划分为3种状态，或者也可以称作角色：
【1】Leader：负责 Client交互和 log复制，同一时刻系统中最多存在1个。
【2】Follower：被动响应请求RPC，从不主动发起请求RPC。
【3】Candidate：一种临时的角色，只存在于 Leader的选举阶段，某个节点想要变成 Leader，那么就发起投票请求，同时自己变成 Candidate。如果选举成功，则变为 Candidate，否则退回为 Follower

状态或者说角色的流转如下：

在 Raft中，问题分解为：领导选取、日志复制、安全和成员变化。

复制状态机通过复制日志来实现

日志：每台机器保存一份日志，日志来自于客户端的请求，包含一系列的命令
状态机：状态机会按顺序执行这些命令
一致性模型：分布式环境下，保证多机的日志是一致的，这样回放到状态机中的状态是一致的

Raft算法选主流程

Raft中有 Term的概念，Term类比中国历史上的朝代更替，Raft 算法将时间划分成为任意不同长度的任期（term）。

选举流程

1、Follower增加当前的term，转变为 Candidate。
2、Candidate投票给自己，并发送RequestVote RPC给集群中的其他服务器。
3、收到 RequestVote的服务器，在同一 term中只会按照先到先得投票给至多一个Candidate。且只会投票给 log至少和自身一样新的Candidate。

关于Raft更详细的描述，可以查看这里，从分布式一致性到共识机制（二）Raft算法

二、Nacos中的 CP一致性

Spring Cloud Alibaba Nacos 在 1.0.0 正式支持 AP 和 CP 两种一致性协议，其中 CP一致性协议实现，是基于简化的 Raft 的 CP 一致性。

如何实现 Raft算法

Nacos server在启动时，会通过 RunningConfig.onApplicationEvent()方法调用 RaftCore.init()方法。

启动选举

 1 public static void init() throws Exception {
 2  
 3     Loggers.RAFT.info("initializing Raft sub-system");
 4  
 5     // 启动Notifier，轮询Datums，通知RaftListener
 6     executor.submit(notifier);
 7      
 8     // 获取Raft集群节点，更新到PeerSet中
 9     peers.add(NamingProxy.getServers());
10  
11     long start = System.currentTimeMillis();
12  
13     // 从磁盘加载Datum和term数据进行数据恢复
14     RaftStore.load();
15  
16     Loggers.RAFT.info("cache loaded, peer count: {}, datum count: {}, current term: {}",
17         peers.size(), datums.size(), peers.getTerm());
18  
19     while (true) {
20         if (notifier.tasks.size() <= 0) {
21             break;
22         }
23         Thread.sleep(1000L);
24         System.out.println(notifier.tasks.size());
25     }
26  
27     Loggers.RAFT.info("finish to load data from disk, cost: {} ms.", (System.currentTimeMillis() - start));
28  
29     GlobalExecutor.register(new MasterElection()); // Leader选举
30     GlobalExecutor.register1(new HeartBeat()); // Raft心跳
31     GlobalExecutor.register(new AddressServerUpdater(), GlobalExecutor.ADDRESS_SERVER_UPDATE_INTERVAL_MS);
32  
33     if (peers.size() > 0) {
34         if (lock.tryLock(INIT_LOCK_TIME_SECONDS, TimeUnit.SECONDS)) {
35             initialized = true;
36             lock.unlock();
37         }
38     } else {
39         throw new Exception("peers is empty.");
40     }
41  
42     Loggers.RAFT.info("timer started: leader timeout ms: {}, heart-beat timeout ms: {}",
43         GlobalExecutor.LEADER_TIMEOUT_MS, GlobalExecutor.HEARTBEAT_INTERVAL_MS);
44 }

在 init方法主要做了如下几件事：

获取 Raft集群节点 peers.add(NamingProxy.getServers());
Raft集群数据恢复 RaftStore.load();
Raft选举 GlobalExecutor.register(new MasterElection());
Raft心跳 GlobalExecutor.register(new HeartBeat());
Raft发布内容
Raft保证内容一致性

选举流程

其中，raft集群内部节点间是通过暴露的 Restful接口，代码在 RaftController 中。RaftController控制器是 Raft集群内部节点间通信使用的，具体的信息如下

 1 POST HTTP://{ip:port}/v1/ns/raft/vote : 进行投票请求
 2 
 3 POST HTTP://{ip:port}/v1/ns/raft/beat : Leader向Follower发送心跳信息
 4 
 5 GET HTTP://{ip:port}/v1/ns/raft/peer : 获取该节点的RaftPeer信息
 6 
 7 PUT HTTP://{ip:port}/v1/ns/raft/datum/reload : 重新加载某日志信息
 8 
 9 POST HTTP://{ip:port}/v1/ns/raft/datum : Leader接收传来的数据并存入
10 
11 DELETE HTTP://{ip:port}/v1/ns/raft/datum : Leader接收传来的数据删除操作
12 
13 GET HTTP://{ip:port}/v1/ns/raft/datum : 获取该节点存储的数据信息
14 
15 GET HTTP://{ip:port}/v1/ns/raft/state : 获取该节点的状态信息{UP or DOWN}
16 
17 POST HTTP://{ip:port}/v1/ns/raft/datum/commit : Follower节点接收Leader传来得到数据存入操作
18 
19 DELETE HTTP://{ip:port}/v1/ns/raft/datum : Follower节点接收Leader传来的数据删除操作
20 
21 GET HTTP://{ip:port}/v1/ns/raft/leader : 获取当前集群的Leader节点信息
22 
23 GET HTTP://{ip:port}/v1/ns/raft/listeners : 获取当前Raft集群的所有事件监听者
24 RaftPeerSet

心跳机制

Raft中使用心跳机制来触发 Leader选举。心跳定时任务是在 GlobalExecutor 中，通过 GlobalExecutor.register(new HeartBeat())注册心跳定时任务，具体操作包括：

重置 Leader节点的heart timeout、election timeout；
sendBeat()发送心跳包

 1  public class HeartBeat implements Runnable {
 2         @Override
 3         public void run() {
 4             try {
 5 
 6                 if (!peers.isReady()) {
 7                     return;
 8                 }
 9 
10                 RaftPeer local = peers.local();
11                 local.heartbeatDueMs -= GlobalExecutor.TICK_PERIOD_MS;
12                 if (local.heartbeatDueMs > 0) {
13                     return;
14                 }
15 
16                 local.resetHeartbeatDue();
17 
18                 sendBeat();
19             } catch (Exception e) {
20                 Loggers.RAFT.warn("[RAFT] error while sending beat {}", e);
21             }
22 
23         }
24 }

简单说明了下Nacos中的Raft一致性实现，更详细的流程，可以下载源码，查看 RaftCore 进行了解。源码可以通过以下地址检出：链接

三、Nacos AP 实现

AP协议：Distro协议。Distro是阿里巴巴的私有协议，目前流行的 Nacos服务管理框架就采用了 Distro协议。Distro 协议被定位为临时数据的一致性协议：该类型协议， 不需要把数据存储到磁盘或者数据库 ，因为临时数据通常和服务器保持一个session会话， 该会话只要存在，数据就不会丢失 。

Distro 协议保证写必须永远是成功的，即使可能会发生网络分区。当网络恢复时，把各数据分片的数据进行合并。

Distro 协议具有以下特点：

专门为了注册中心而创造出的协议；
客户端与服务端有两个重要的交互，服务注册与心跳发送；
客户端以服务为维度向服务端注册，注册后每隔一段时间向服务端发送一次心跳，心跳包需要带上注册服务的全部信息，在客户端看来，服务端节点对等，所以请求的节点是随机的；
客户端请求失败则换一个节点重新发送请求；
服务端节点都存储所有数据，但每个节点只负责其中一部分服务，在接收到客户端的“写”（注册、心跳、下线等）请求后，服务端节点判断请求的服务是否为自己负责，如果是，则处理，否则交由负责的节点处理；
每个服务端节点主动发送健康检查到其他节点，响应的节点被该节点视为健康节点；
服务端在接收到客户端的服务心跳后，如果该服务不存在，则将该心跳请求当做注册请求来处理；
服务端如果长时间未收到客户端心跳，则下线该服务；
负责的节点在接收到服务注册、服务心跳等写请求后将数据写入后即返回，后台异步地将数据同步给其他节点；
节点在收到读请求后直接从本机获取后返回，无论数据是否为最新。

Distro协议服务端节点发现使用寻址机制来实现服务端节点的管理。在 Nacos中，寻址模式有三种：

单机模式：StandaloneMemberLookup

文件模式：FileConfigMemberLookup -- 利用监控 cluster.conf文件的变动实现节点的管理。核心代码如下：

服务器模式：AddressServerMemberLookup – 使用地址服务器存储节点信息，服务端节点定时拉取信息进行管理

核心代码：

初始全量同步

Distro协议节点启动时会从其他节点全量同步数据。在 Nacos中，整体流程如下：

启动一个定时任务线程 DistroLoadDataTask加载数据，调用 load()方法加载数据
调用 loadAllDataSnapshotFromRemote()方法从远程机器同步所有的数据
从 namingProxy代理获取所有的数据data
- 构造 http请求，调用 httpGet方法从指定的 server获取数据
- 从获取的结果 result中获取数据 bytes
处理数据 processData
- 从data反序列化出 datumMap
- 把数据存储到 dataStore，也就是本地缓存 dataMap
- 监听器不包括 key，就创建一个空的 service，并且绑定监听器
监听器 listener执行成功后，就更新 data store

核心代码如下：

增量同步

新增数据使用异步广播同步：

DistroProtocol 使用 sync() 方法接收增量数据
向其他节点发布广播任务
- 调用 distroTaskEngineHolder 发布延迟任务
调用 DistroDelayTaskProcessor.process() 方法进行任务投递：将延迟任务转换为异步变更任务
执行变更任务 DistroSyncChangeTask.run() 方法：向指定节点发送消息
- 调用 DistroHttpAgent.syncData() 方法发送数据
- 调用 NamingProxy.syncData() 方法发送数据
异常任务调用 handleFailedTask() 方法进行处理
- 调用 DistroFailedTaskHandler 处理失败任务
- 调用 DistroHttpCombinedKeyTaskFailedHandler 将失败任务重新投递成延迟任务。