分布式系统的时间,时钟,以及事件的有序性
Time, clocks, and the ordering of events in a distributed system
这篇是Lamport在1978年写的关于分布式系统中的逻辑时钟的经典论文[1]。探讨了在分布式系统中如何保持事件之间的有序性的问题。
背景
在分布式系统中,确定两个事件之间的先后顺序并不是那么容易的一件事。具体来说,我们认为a比b先发生是说a发生的时间早于b发生的时间。如果a和b分别是两台机器上的进程,我们则需要首先保证两台机器之间的时间是同步的,否则没有记录的时间没有意义。但是这在实际中非常难以做到。因此作者不依赖物理时间重新定义了 “先发生于” 这个关系,这就是 部分有序。
部分有序(Partial Ordering)
假设有多台机器,每台机器上运行多个进程,每个进程中会运行事件。同时进程可能会给其他机器发送消息,这个发送消息也是事件。
首先定义符号\(\rightarrow\),表示先发生于:
- 如果a和b发生于同一台机器上,且a先发生,那么有\(a\rightarrow b\);
- 如果a给b发送消息,那么也有\(a\rightarrow b\);
- 如果\(a\rightarrow b\),\(b\rightarrow c\),那么\(a\rightarrow c\);
- 如果\(a\nrightarrow b\),\(b\nrightarrow a\),那么a和b是并发的;
在时空图(space-time diagram)中,水平方向表示空间,竖直方向表示时间,向上为更近的时间。水平方向上分布了不同机器上的多个进程,如下图所示。

图中相同进程中的事件很容易看出时序关系。
比如进程P中有:\(p1\rightarrow p2\),\(p2\rightarrow p3\).……
而不同进程之间根据定义也在部分事件中存在时序关系:\(p1\rightarrow q2\),\(q4\rightarrow r3\)……
同时根据传递性,我们也可以得到:\(p1\rightarrow q3\),\(q3\rightarrow p4\)……
最后,p3与q3,q4都是并发的关系
如果有\(a\rightarrow b\),那么也说a 因果影响(causally affect) b。同时可以看到在不同进程中有很多并发的事件,即使从物理时间上我们很容易能区分出先后顺序。但是在逻辑时钟上,当两个进程独立运行时我们不做推断,只有两个进程进行通信时,相关的事件才表现出因果影响的关系。
逻辑时钟
如果将时间抽象出来,可以认为时钟不过是附加给事件一串数字,表示事件发生的时间。定义进程\(P_i\)拥有时钟\(C_i\),作为赋予事件时间的一个函数,那么\(C_i\langle a\rangle\)就表示给\(P_i\)上的事件\(a\)赋一个数字
根据先发生于的关系,可以定义逻辑时钟的关系:
时钟条件(Clock Condition).对于事件\(a,b\),如果有\(a\rightarrow b\),那么\(C\langle a\rangle < C\langle b\rangle\)
根据\(\rightarrow\)的定义和时钟条件的定义,可以看到要满足时钟条件,需要满足如下情况:
C1.如果a和b同属于进程\(P_i\),且a先发生,那么有\(C_i\langle a\rangle < C_i\langle b\rangle\)
C2.如果a属于\(P_i\),b属于\(P_j\),且a发消息给b,那么有\(C_i\langle a\rangle < C_j\langle b\rangle\)
再看时空图,有了逻辑时钟我们可以在时空图中绘制时刻线,假设两个事件之间逻辑时钟也会不停的运行。例如\(C\langle a\rangle=4\),\(C\langle b\rangle=7\),那么时钟在两个事件之间走过了5,6,7。如果要保证事件之间能表示出先后顺序,我们需要保证C1,即每同一进程中的两个事件之间至少有一条时刻线,和C2,即消息传递要至少跨越一条时间线。绘制满足这两个条件的时空图如下所示:

根据上面的描述,很容易得到进程中的逻辑时钟的算法:
IR1.进程\(P_i\)在连续的两个事件中间要增加\(C_i\)的值
IR2.进程\(P_i\)中的事件a发送带有时间戳\(T_m=C_i\langle a\rangle\)的消息,进程\(P_j\)的事件b接收消息后将\(C_j\)更新为大于\(T_m\)的值,且不小于原值
全局有序
通过逻辑时钟算法,可以对一个系统中的所有事件进行排序。
扩展\(\rightarrow\)到\(\Rightarrow\):
对于事件a、b,仅有(i)\(C_i\langle a\rangle < C_j\langle b\rangle\),或者(ii)\(C_i\langle a\rangle = C_j\langle b\rangle\)且\(P_i\prec P_j\)时有\(a\Rightarrow b\)
可以看到\(\Rightarrow\)依赖于时钟\(C_i\),而\(\rightarrow\)仅依赖于先发生于的事件关系。
互斥问题
应用全局有序如何解决经典的互斥问题?假设有多个进程争夺一个互斥资源,要程序正确运行,需要满足以下条件:
(I)一个进程使用结束后要先释放再分配给其他进程
(II)多个进程的请求要按照请求顺序进行分配
(III)如果每个进程都在使用后最终释放资源,那么所有的请求最终都会被满足
方便起见,我们忽略网络的不确定性的影响,即一个进程发送的消息最终都会有序的到达另一个进程。因此对于该问题,定义如下算法:
- 进程\(P_i\)在请求资源时,先发送\(T_m:P_i\)消息给其他所有进程,并将该消息入请求队列。其中\(T_m\)为逻辑时间戳。
- 当进程\(P_j\)接收到\(T_m:P_i\)消息时,将它入请求队列,并回复当前时间戳。
- 当进程\(P_i\)释放资源时,它将\(T_m:P_i\)出请求队列,并发送带有时间戳的\(P_i\)释放消息给其他进程。
- 当进程\(P_j\)接收到来自\(P_i\)的释放消息时,将出\(T_m:P_i\)请求队列。
- 只有当满足如下条件时,\(P_i\)才被分配该资源:(i)请求队列中存在\(T_m:P_i\)且\(T_m:P_i\Rightarrow\)其他请求消息。(ii)\(P_i\)接收到来自其他所有的进程的回复,且时间戳都晚于\(T_m\)。
证明简单略。
这个算法还是很Naive的,真正要在工程上使用还需要做很多工作。
其他
除了逻辑时钟,作者提到了系统中可能出现的异常行为,简单说来一个系统无法识别来自系统外的事件的依赖关系,因此可能会发生逻辑依赖倒置的情况。要解决这个问题必须依赖外部的必要信息,比如相互的依赖关系,或者使用物理时钟作为参考。
作者也提到了逻辑时钟无法验证一个机器是否还能正常工作,即无法验证超时,而这是分布式系统中不得不面对的问题。因此必须要引入物理时钟。后面作者对该系统中的物理时钟需要满足的条件做出了描述和证明,这里略过。
[1]Leslie Lamport. 1978. Time, clocks, and the ordering of events in a distributed system. Commun. ACM 21, 7 (July 1978), 558–565. DOI:https://doi.org/10.1145/359545.359563

浙公网安备 33010602011771号