摘要: MySQL被广泛用于海量业务的存储数据库,在大数据时代,我们亟需对其中的海量数据进行分析,但在MySQL之上进行大数据分析显然是不现实的,这会影响业务系统的运行稳定。如果我们要实时地分析这些数据,则需要实时地将其复制到适合OLAP的数据系统上。本文介绍一种数据采集工具——Flume,由cloudera软件公司于2009年被捐赠了apache软件基金会,现已成为apache top项目之一。本文使用Flume构建一个对MySQL数据的采集,并投递到Kafka的一个链路。 阅读全文
posted @ 2021-03-01 12:52 JasonCeng 阅读(911) 评论(6) 推荐(0) 编辑
摘要: flume是由cloudera软件公司产出的可分布式日志收集系统,后于2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件不断丰富,用户在开发的过程中使用的便利性得到很大的改善,现已成为apache top项目之一。本文介绍如何在Linux下安装Flume。 阅读全文
posted @ 2021-03-01 12:50 JasonCeng 阅读(584) 评论(0) 推荐(0) 编辑
摘要: 这是6.824分布式系统课程,分布式系统的核心是通过网络以完成一致任务的一组协作计算机。因此我们将在本课程中重点介绍各种实例,例如大型网站的存储或MapReduce等大数据计算之类的东西,还有一些更奇特的事情,例如点对点文件共享,这些都只是我们研究分布式系统过程中的一些示例。我们将通过本文了解分布式系统发展的驱动力和所面临的挑战。 阅读全文
posted @ 2021-02-28 20:30 JasonCeng 阅读(222) 评论(0) 推荐(0) 编辑
摘要: MySQL被广泛用于海量业务的存储数据库,在大数据时代,我们亟需对其中的海量数据进行分析,但在MySQL之上进行大数据分析显然是不现实的,这会影响业务系统的运行稳定。如果我们要实时地分析这些数据,则需要实时地将其复制到适合OLAP的数据系统上。本文介绍一种CDC工具——Canal,由阿里巴巴开源,且广泛用于阿里的生产系统,它模拟MySQL Slave结点,实时获取变化的binlog,我们将把canal获取到的binlog投递到kafka上以供后续系统消费。本文基于Ubuntu 16.04 LTS。 阅读全文
posted @ 2021-02-27 15:49 JasonCeng 阅读(957) 评论(0) 推荐(0) 编辑
摘要: Kafka 是一个分布式的基于push-subscribe的消息系统,它具备快速、可扩展、可持久化的特点。由 LinkedIn 开源,用作 LinkedIn 的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。现在是Apache旗下的一个开源系统,作为Hadoop生态系统的一部分,被各种商业公司广泛应用。它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于Hadoop的批处理系统、低延迟的实时系统、Flink/Storm/Spark流式处理引擎。可以说是现代分布式系统的基石,学习kafka的使用、原理变得十分必要。本文基于Ubuntu 16.04 LTS,介绍如何搭建1主2备的kafka集群。 阅读全文
posted @ 2021-02-27 15:41 JasonCeng 阅读(721) 评论(0) 推荐(0) 编辑
摘要: Zookeeper是针对大型分布式系统的高可靠的协调系统。它基于对Paxos算法的实现,使该框架保证了分布式环境中数据的强一致性,也正是基于这样的特性,使得ZooKeeper解决很多分布式问题。把分布式集群当成zoo,那么zookeeper就是管理员。zookeeper本身也可以是个集群,通过几台follow机器选举leader。zookeeper的主要作用包括,命名服务,配置管理,分布式一致性锁,HA(High available)。真是因为zookeeper在分布式系统领域如此重要,可以说是基石,所以我们绕不开要学习其使用及原理。本文基于Ubuntu 16.04 LTS,介绍如何搭建1主2从的zookeeper集群。 阅读全文
posted @ 2021-02-27 15:22 JasonCeng 阅读(1892) 评论(0) 推荐(2) 编辑
摘要: 本文主要记录笔者在使用frp实现内网穿透访问内网多台Linux服务器的全过程,包括公网服务器的配置、frp服务端、客户端的下载与配置,以及配置systmctl来实现系统级启停frp,并记录我遇到的一些问题。希望对大家有所帮助。 阅读全文
posted @ 2021-02-04 21:35 JasonCeng 阅读(2841) 评论(0) 推荐(0) 编辑
摘要: As we all know, Go是一门注重简单、可靠、高效的编程语言。它比其他语言都简单,所以学起来更快。今天我们就尝试在Windows下搭建Go开发环境!本文带领大家一步步搭建Go环境,并介绍GoLand这个IDE的安装及激活流程。 阅读全文
posted @ 2021-01-12 22:31 JasonCeng 阅读(542) 评论(2) 推荐(0) 编辑
摘要: 最近在Hive中使用Spark引擎进行执行时(`set hive.execution.engine=spark`),经常遇到`return code 30041`的报错,为了深入探究其原因,阅读了官方issue、相关博客进行了研究。下面从报错现象、原因分析、解决方案几个方面进行介绍,最后做一下小结。 阅读全文
posted @ 2021-01-05 20:32 JasonCeng 阅读(8777) 评论(0) 推荐(2) 编辑
摘要: 本文介绍如何在windows下搭建Hive开发环境,主要依赖的环境是Java和Hadoop,其他大部分工作主要是动手配置的工作,按照下面的介绍一步步操作即可完成搭建。 阅读全文
posted @ 2021-01-02 23:03 JasonCeng 阅读(993) 评论(0) 推荐(0) 编辑