聊聊分布式事务
前言
随着业务的快速发展、业务复杂度越来越高,传统单体应用逐渐暴露出了一些问题,例如开发效率低、可维护性差、架构扩展性差、部署不灵活、健壮性差等等。
微服务架构是一个分布式的系统,按业务进行划分为独立的服务单元,解决单体系统的不足,同时也满足越来越复杂的业务需求。每个微服务仅关注于完成一件任务并很好地完成该任务。
微服务架构的特点
微服务架构的优势非常明显,在近些年迅猛发展。
- 将复杂的业务拆分成多个小的业务,能够达到更好的业务复用,有利于人员组织分工
- 服务独立部署,独立扩容,每个服务的修改和部署对其他服务没有影响
- 每个服务可以根据业务场景选取合适的编程语言和数据库
微服务有以上的优势,但是微服务也带来不少的新问题,例如:
- 服务数量众多,其测试、部署、监控等都变的更加困难。
- 单体应用拆分为分布式系统后,进程间的通讯机制和故障处理措施变的更加复杂
- 系统微服务化后,原先是一个服务内部的本地数据库事务,被拆到了多个服务,需要在分布式环境下保证事务的一致性
上述的各项问题中,1、2都可以通过近几年涌现的各项微服务技术解决,例如Kubernetes
提供了服务发现、服务治理等。
因此分布式事务已经成为微服务落地最大的阻碍,也是最具挑战性的一个技术难题。
CAP 理论
一个分布式系统最多只能同时满足 一致性(Consistency)
、可用性(Availability)
和分区容错性(Partition tolerance)
这三项中的两项。
分布式事务方案
分布式事务模式常见的有XA
、TCC
、SAGA
、可靠消息
。
两阶段提交XA
XA
是由X/Open
组织提出的分布式事务的规范,XA
规范主要定义了(全局)事务管理器(TM)和(局部)资源管理器(RM)之间的接口。本地的数据库如MySQL
在XA
中扮演的是RM
角色。
XA
一共分为两阶段:
第一阶段(prepare):即所有的参与者RM准备执行事务并锁住需要的资源。参与者ready时,向TM报告已准备就绪。
第二阶段(commit/rollback):当事务管理者(TM)确认所有参与者(RM)都ready后,向所有参与者发送commit命令。
目前主流的数据库基本都支持XA
事务,包括MySQL
、Oracle
、SQLServer
、PostgreSQL
。
一个成功完成的XA
事务时序图如下:
TCC
事务方案
TCC
方案其实是XA
提交的一种改进。其将整个业务逻辑的每个分支显式的分成了Try
、Confirm
、Cancel
三个操作。Try
部分完成业务的准备工作,confirm
部分完成业务的提交,cancel
部分完成事务的回滚。
事务开始时,业务应用会向事务协调器注册启动事务。之后业务应用会调用所有服务的try
接口,完成一阶段准备。之后事务协调器会根据try
接口返回情况,决定调用confirm接口
或者cancel接口
。如果接口调用失败,会进行重试。
一个成功完成的TCC
事务时序图如下:
SAGA事务方案
Saga
和TCC
一样,也是最终一致性事务、柔性事务。Saga的本质就是把一个长事务分隔成一个个小的事务,每个事务都包含一个执行模块和补偿模块。
Saga
没有try
,直接提交事务,可能出现脏读的情况,在某些对一致性要求较高的场景下,是不可接受的。
在启动一个Saga
事务时,事务管理器会告诉第一个Saga
参与者,也就是子事务,去执行本地事务。事务完成之后Saga
的会按照执行顺序调用Saga
的下一个参与的子事务。这个过程会一直持续到Saga
事务执行完毕。
如果在执行子事务的过程中遇到子事务对应的本地事务失败,则Saga
会按照相反的顺序执行补偿事务。
一个成功完成的SAGA事务时序图如下:
可靠消息
消息一致性方案是通过消息中间件保证上下游应用数据操作的一致性。基本思路是将本地操作和发送消息放在一个本地事务中,保证本地操作和消息发送要么两者都成功或者都失败。下游应用向消息系统订阅该消息,收到消息后执行相应操作。
RocketMQ
提供了典型的可靠消息接口,可以参考。
分布式事务开源项目
当前的分布式事务领域,有java
语言的开源项目,以seata
为代表。在非Java领域,Go语言的 DTM
是代表项目。 DTM
支持XA
、TCC
、SAGA
、可靠消息,架构图如下:
图中的各角色与XA
模型中的角色模型一致,分别解释如下:
- AP应用程序(定义和提交事务,当前支持Go语言,即将支持
Nodejs
、Python
、PHP
、Rust等) - RM资源管理器(负责管理本地事务,不限语言,只要提供了
http
相关的接口即可) - TM事务管理器(
DTM
,协调全局事务,进行提交以及回滚)
在上述的架构图中,AP
通过DTM
提供的分布式事务接口,与RM
和TM
交互,对现有的微服务,侵入很小。
另外在实际的业务中,AP和RM角色可能会有重叠,例如TCC
模式下,AP可能有自己的本地事务,也会注册并调用其他事务分支。