分布式事务及2PC实现、PostgreSQL&MySQL中的实现

　　X/Open 组织（即现在的 Open Group ）定义了分布式事务处理模型。 X/Open DTP 模型（ 1994 ）包括应用程序（ AP ）、事务管理器（ TM，如Tuxedo, Oracle WebLogic Server，Oracle，PostgreSQL、IBM WebSphere Application Server ）、资源管理器（符合XA的RM，如Oracle、IBM DB2, MS-SQL, IBM MQ-Series、PostgreSQL ）、通信资源管理器（ CRM ）四部分。一般，常见的事务管理器（ TM ）是中间件或应用程序（在分布式数据库中是CN节点也是事务管理器），常见的资源管理器（ RM ）是数据库，常见的通信资源管理器（ CRM ）是消息中间件。通常把一个数据库内部的事务处理，如对多个表的操作，作为本地事务看待。数据库的事务处理对象是本地事务，而分布式事务处理的对象是全局事务。所谓全局事务，是指分布式事务处理环境中，多个数据库可能需要共同完成一个工作，这个工作即是一个全局事务，例如，一个事务中可能更新几个不同的数据库。对数据库的操作发生在系统的各处但必须全部被提交或回滚。此时一个数据库对自己内部所做操作的提交不仅依赖本身操作是否成功，还要依赖与全局事务相关的其它数据库的操作是否成功，如果任一数据库的任一操作失败，则参与此事务的所有数据库所做的所有操作都必须回滚。一般情况下，某一数据库无法知道其它数据库在做什么，因此，在一个 DTP 环境中，交易中间件是必需的，由它通知和协调相关数据库的提交或回滚。而一个数据库只将其自己所做的操作（可恢复）影射到全局事务中。

　　XA 就是 X/Open DTP 定义的交易中间件与数据库之间的接口规范（即接口函数，头文件），交易中间件用它来通知数据库事务的开始、结束以及提交、回滚等。 XA 接口函数由数据库厂商提供，一般通过C API和JDBC接口以及相关数据库参数对外提供。

　　分布式数据库流行之前，java容器或一些专门的中间件如Atomikos、dTM通常负责实现分布式事务的TM部分（所以练习分布式从Atomikos开始是最好的，go语言则是dTM，当然PG提供了SQL接口，可以供TM调用，citus就是直接借助PG的XA接口）。

　　二阶提交协议和三阶提交协议就是根据这一思想衍生出来的。可以说二阶段提交其实就是实现XA分布式事务的关键(确切地说：两阶段提交主要保证了分布式事务的原子性：即所有结点要么全做要么全不做)

　　其中协调者可以是任何的应用，比如java、go应用都可以，只要里面有个模块或者三方库实现了XA协议即可，通常它会调用具体db（orace/mysql/pg）的xa接口。当然也可以是具体的数据库自己实现了分布式整套，如lightdb分布式、oracle dblink。

　　citus提供了2阶段的实现，如下：

　　dTM架构的实现（虽然应用通常作为协调者，但是分布式事务本身还是需要存储的。比如dTM默认走redis，且其本身也是一个tcp服务）如下：

　　二阶段提交看起来确实能够提供原子性的操作，但是不幸的事，二阶段提交还是有几个缺点的：

　　1、同步阻塞问题。执行过程中，所有参与节点都是事务阻塞型的。当参与者占有公共资源加锁后，其他操作想要操作该公共资源必须得等该公共资源释放后，即第二阶段结束（事务提交），具有性能影响。

　　2、协调者挂机导致参与者阻塞。由于协调者的重要性，一旦协调者发生故障，参与者就会处于阻塞状态。尤其在第二阶段，协调者发生故障，那么所有的参与者还都处于锁定事务资源的状态中，而无法继续完成事务操作，这时可以重新选举一个新地协调者，在新协调者成功启动之前参与者将会一直处于阻塞状态。

　　3、数据不一致。在二阶段提交的阶段二中，当协调者向参与者发送commit请求之后，发生了局部网络异常或者在发送commit请求过程中协调者发生了故障，这回导致只有一部分参与者接受到了commit请求。而在这部分参与者接到commit请求之后就会执行commit操作。但是其他部分未接到commit请求的机器则无法执行事务提交。于是整个分布式系统便出现了数据部一致性的现象。

　　4、二阶段无法解决的问题：协调者在发出commit消息之后宕机，而唯一接收到这条消息的参与者同时也宕机了。那么即使协调者通过选举协议产生了新的协调者，这条事务的状态也是不确定的，没人知道事务是否被已经提交。现在的分布式和数据库实现在参与者（pg_twophase）和协调者（pg_dist_transaction）双方都记录了是否成功的标志、同时支持幂等重发，所以逻辑上不存在不确定的结果。

注：如果两个语句只操作了一个节点上的数据，则一般XA实现都会降级为传统集中式事务。基本上所有的分布式都是这么实现，包括citus。

　　另外，有些数据库为了降低时延，在第一步prepare transaction成功之后，应答就返回给客户端，commit transaction由后台异步（这涉及到几个后端tcp连接要托管给其他进程。异步你还得去检查，会影响前台进程的交互，所以必须是托管给其它进程才能0影响）完成（因为这一步是一定会成功的）。

/*
 * Activate2PCIfModifyingTransactionExpandsToNewNode sets the coordinated
 * transaction to use 2PC under the following circumstances:
 *     - We're already in a transaction block
 *     - At least one of the previous commands in the transaction block
 *       made a modification, which have not set 2PC itself because it
 *       was a single shard command
 *     - The input "session" is used for a distributed execution which
 *       modifies the database. However, the session (and hence the
 *       connection) is established to a different worker than the ones
 *       that is used previously in the transaction.
 *
 *  To give an example,
 *      BEGIN;
 *          -- assume that the following INSERT goes to worker-A
 *          -- also note that this single command does not activate
 *          -- 2PC itself since it is a single shard modification
 *          INSERT INTO distributed_table (dist_key) VALUES (1);
 *
 *          -- do one more single shard UPDATE hitting the same
 *          shard (or worker node in general)
 *          -- this wouldn't activate 2PC, since we're operating on the
 *          -- same worker node that we've modified earlier
 *          -- so the executor would use the same connection
 *            UPDATE distributed_table SET value = 10 WHERE dist_key = 1;
 *
 *          -- now, do one more INSERT, which goes to worker-B
 *          -- At this point, this function would activate 2PC
 *          -- since we're now expanding to a new node
 *          -- for example, if this command were a SELECT, we wouldn't
 *          -- activate 2PC since we're only interested in modifications/DDLs
 *          INSERT INTO distributed_table (dist_key) VALUES (2);
 */
static void
Activate2PCIfModifyingTransactionExpandsToNewNode(WorkerSession *session)
{
    DistributedExecution *execution = session->workerPool->distributedExecution;
    if (TransactionModifiedDistributedTable(execution) &&
        DistributedExecutionModifiesDatabase(execution) &&
        !ConnectionModifiedPlacement(session->connection))
    {
        /*
         * We already did a modification, but not on the connection that we
         * just opened, which means we're now going to make modifications
         * over multiple connections. Activate 2PC!
         */
        Use2PCForCoordinatedTransaction();
    }
}

3PC

　　三阶段提交（Three-phase commit），也叫三阶段提交协议（Three-phase commit protocol），是二阶段提交（2PC）的改进版本。

　　与两阶段提交不同的是，三阶段提交有两个改动点。

　　1、引入超时机制。同时在协调者和参与者中都引入超时机制。
　　2、在第一阶段和第二阶段中插入一个准备阶段。保证了在最后提交阶段之前各参与节点的状态是一致的。

　　也就是说，除了引入超时机制之外，3PC把2PC的准备阶段再次一分为二，这样三阶段提交就有CanCommit、PreCommit、DoCommit三个阶段。

CanCommit阶段
　　3PC的CanCommit阶段其实和2PC的准备阶段很像。协调者向参与者发送commit请求，参与者如果可以提交就返回Yes响应，否则返回No响应。

　　1.事务询问协调者向参与者发送CanCommit请求。询问是否可以执行事务提交操作。然后开始等待参与者的响应。注意此阶段并没有执行事务，执行事务是在PreCommit阶段，也就是没有加锁。

　　2.响应反馈参与者接到CanCommit请求之后，正常情况下，如果其自身认为可以顺利执行事务，则返回Yes响应，并进入预备状态。否则反馈No

PreCommit阶段
　　协调者根据参与者在CanCommit阶段的反应情况来决定是否可以记性事务的PreCommit操作。根据响应情况，有以下两种可能。

　　假如协调者在CanCommit阶段从所有的参与者获得的反馈都是Yes响应，那么就会执行事务的预执行。

　　1.发送预提交请求协调者向参与者发送PreCommit请求，并进入Prepared阶段。

　　2.事务预提交参与者接收到PreCommit请求后，会执行事务操作，并将undo和redo信息记录到事务日志中，对资源进行加锁。

　　3.响应反馈如果参与者成功的执行了事务操作，则返回ACK响应，同时开始等待最终指令。

　　假如在CanCommit阶段有任何一个参与者向协调者发送了No响应，或者等待超时之后，协调者都没有接到参与者的响应，那么就执行事务的中断。

　　1.发送中断请求协调者向所有参与者发送abort请求。

　　2.中断事务参与者收到来自协调者的abort请求之后（或超时之后，仍未收到协调者的请求），执行事务的中断。

doCommit阶段
　　该阶段进行真正的事务提交，即对所有资源进行释放，也可以分为以下两种情况。

执行提交

　　1.发送提交请求协调者在PreCommit阶段接收到参与者发送的ACK响应，那么他将从预提交状态进入到提交状态。并向所有参与者发送doCommit请求。

　　2.事务提交参与者接收到doCommit请求之后，执行正式的事务提交。并在完成事务提交之后释放所有事务资源。

　　3.响应反馈事务提交完之后，向协调者发送Ack响应。

　　4.完成事务协调者接收到所有参与者的ack响应之后，完成事务。

中断事务协调者在PreCommit阶段没有接收到某个参与者发送的ACK响应（可能是接受者发送的不是ACK响应，也可能响应超时），那么就会执行中断事务。

　　1.发送中断请求协调者向所有参与者发送abort请求

　　2.事务回滚参与者接收到abort请求之后，利用其在阶段二记录的undo信息来执行事务的回滚操作，并在完成回滚之后释放所有的事务资源。

　　3.反馈结果参与者完成事务回滚之后，向协调者发送ACK消息

　　4.中断事务协调者接收到参与者反馈的ACK消息之后，执行事务的中断。

　　在doCommit阶段，如果参与者无法及时接收到来自协调者的doCommit或者rebort请求时，会在等待超时之后，会继续进行事务的提交。（其实这个应该是基于概率来决定的，当进入第三阶段时，说明参与者在第二阶段已经收到了PreCommit请求，那么协调者产生PreCommit请求的前提条件是他在第二阶段开始之前，收到所有参与者的CanCommit响应都是Yes。（一旦参与者收到了PreCommit，意味他知道大家其实都同意修改了）所以，一句话概括就是，当进入第三阶段时，由于网络超时等原因，虽然参与者没有收到commit或者abort响应，但是他有理由相信：成功提交的几率很大。）

2PC与3PC的区别　　相对于2PC，3PC主要解决了协调者宕机之后事务阻塞的问题，因为一旦参与者无法及时收到来自协调者的信息之后，他会默认执行commit。而不会一直持有事务资源并处于阻塞状态。但是这种机制也会导致数据一致性问题，因为，由于网络原因，协调者发送的abort响应没有及时被参与者接收到，那么参与者在等待超时之后执行了commit操作。这样就和其他接到abort命令并执行回滚的参与者之间存在数据不一致的情况。很多人只看到3PC的优点，却忽视了3PC的缺点，实际上它只适用于环境很不稳定的场景，而分布式通常运行在一个网段内，所以实际中仍然以2PC为主，具体可以参见https://jbossts.blogspot.com/2013/05/2pc-or-3pc.html。

分布式事务示例，citus

[zjh@hs-10-20-30-193 ~]$ pstack 86257
#0  0x00007f9dab6330c3 in __epoll_wait_nocancel () from /lib64/libc.so.6
#1  0x000000000079dea6 in WaitEventSetWaitBlock (nevents=1, occurred_events=0x1fe51e8, cur_timeout=-1, set=0x1fe5488) at latch.c:1295
#2  WaitEventSetWait (set=0x1fe5488, timeout=timeout@entry=-1, occurred_events=occurred_events@entry=0x1fe51e8, nevents=nevents@entry=1, wait_event_info=wait_event_info@entry=100663296) at latch.c:1247
#3  0x00007f9da1ee49c2 in WaitForAllConnections (connectionList=connectionList@entry=0x1fe5408, raiseInterrupts=raiseInterrupts@entry=false) at connection/remote_commands.c:855
#4  0x00007f9da1f65693 in CoordinatedRemoteTransactionsCommit () at transaction/remote_transaction.c:895
#5  0x00007f9da1f663ea in CoordinatedTransactionCallback (event=<optimized out>, arg=<optimized out>) at transaction/transaction_management.c:501
#6  0x000000000051514a in CallXactCallbacks (event=XACT_EVENT_PRE_COMMIT) at xact.c:3606
#7  CommitTransaction () at xact.c:2114
#8  0x00000000005162a5 in CommitTransactionCommand () at xact.c:3124
#9  0x00000000007be147 in finish_xact_command () at postgres.c:2764
#10 0x00000000007c01fe in exec_simple_query (query_string=0x1e6c9d8 "commit;") at postgres.c:1287
#11 0x00000000007c164b in PostgresMain (argc=<optimized out>, argv=argv@entry=0x1ece538, dbname=0x1e69328 "postgres", username=<optimized out>) at postgres.c:4498
#12 0x000000000048cf52 in BackendRun (port=<optimized out>, port=<optimized out>) at postmaster.c:5063
#13 BackendStartup (port=0x1ec6bd0) at postmaster.c:4747
#14 ServerLoop () at postmaster.c:1952
#15 0x000000000074495f in PostmasterMain (argc=argc@entry=3, argv=argv@entry=0x1e672a0) at postmaster.c:1586
#16 0x000000000048df4d in main (argc=3, argv=0x1e672a0) at main.c:232