摘要:MySQL被广泛用于海量业务的存储数据库,在大数据时代,我们亟需对其中的海量数据进行分析,但在MySQL之上进行大数据分析显然是不现实的,这会影响业务系统的运行稳定。如果我们要实时地分析这些数据,则需要实时地将其复制到适合OLAP的数据系统上。本文介绍一种CDC工具——Canal,由阿里巴巴开源,且广泛用于阿里的生产系统,它模拟MySQL Slave结点,实时获取变化的binlog,我们将把canal获取到的binlog投递到kafka上以供后续系统消费。本文基于Ubuntu 16.04 LTS。 阅读全文
posted @ 2021-02-27 15:49 JasonCeng 阅读(167) 评论(0) 推荐(0) 编辑
摘要:Kafka 是一个分布式的基于push-subscribe的消息系统,它具备快速、可扩展、可持久化的特点。由 LinkedIn 开源,用作 LinkedIn 的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。现在是Apache旗下的一个开源系统,作为Hadoop生态系统的一部分,被各种商业公司广泛应用。它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于Hadoop的批处理系统、低延迟的实时系统、Flink/Storm/Spark流式处理引擎。可以说是现代分布式系统的基石,学习kafka的使用、原理变得十分必要。本文基于Ubuntu 16.04 LTS,介绍如何搭建1主2备的kafka集群。 阅读全文
posted @ 2021-02-27 15:41 JasonCeng 阅读(160) 评论(0) 推荐(0) 编辑
摘要:Zookeeper是针对大型分布式系统的高可靠的协调系统。它基于对Paxos算法的实现,使该框架保证了分布式环境中数据的强一致性,也正是基于这样的特性,使得ZooKeeper解决很多分布式问题。把分布式集群当成zoo,那么zookeeper就是管理员。zookeeper本身也可以是个集群,通过几台follow机器选举leader。zookeeper的主要作用包括,命名服务,配置管理,分布式一致性锁,HA(High available)。真是因为zookeeper在分布式系统领域如此重要,可以说是基石,所以我们绕不开要学习其使用及原理。本文基于Ubuntu 16.04 LTS,介绍如何搭建1主2从的zookeeper集群。 阅读全文
posted @ 2021-02-27 15:22 JasonCeng 阅读(250) 评论(0) 推荐(2) 编辑