摘要: kafka kafka的介绍 1.Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2. Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时 阅读全文
posted @ 2018-04-30 17:08 SCLi 阅读(1963) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 1、课程目标 1、掌握sparkStreaming底层原理和架构 2、掌握DStream的原理 3、掌握sparkStreaming与flume整合 4、掌握sparkStreaming与kafka整合 1、掌握sparkStreaming底层原理和架构 2、掌握DS 阅读全文
posted @ 2018-04-28 23:15 SCLi 阅读(238) 评论(0) 推荐(0) 编辑
摘要: Spark RDD 1、课程目标 1、掌握RDD的原理 2、熟练使用RDD的算子来完成计算任务 3、掌握RDD的宽窄依赖 4、掌握RDD的缓存机制 5、掌握划分stage 1、掌握RDD的原理 2、熟练使用RDD的算子来完成计算任务 3、掌握RDD的宽窄依赖 4、掌握RDD的缓存机制 5、掌握划分s 阅读全文
posted @ 2018-04-28 22:55 SCLi 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 一.Spark SQL概述 1.Spark SQL的前生今世 Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容。Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询,但是Shark继承了Hive的大 阅读全文
posted @ 2018-04-28 17:50 SCLi 阅读(281) 评论(0) 推荐(0) 编辑
摘要: Spark入门 1、课程目标 1、熟悉spark相关概念 2、搭建一个spark集群 3、编写简单spark应用程序 1、熟悉spark相关概念 2、搭建一个spark集群 3、编写简单spark应用程序 2、spark概述 spark是什么 是基于内存的分布式计算引擎,计算速度非常快,仅仅只是涉及 阅读全文
posted @ 2018-04-27 13:05 SCLi 阅读(120) 评论(0) 推荐(0) 编辑
摘要: YARN整理 是一个资源管理.任务调度的框架,主要包含三大模块: ResourceManager(RM):负责所有资源的监控.分配和管理 ApplicationMaster(AM):负责每一个应用程序的调度和协调 NodeManager(NM):负责每一个节点维护 是一个资源管理.任务调度的框架,主 阅读全文
posted @ 2018-04-26 18:36 SCLi 阅读(518) 评论(0) 推荐(0) 编辑
摘要: 单点故障: 如果某一个节点或服务出了问题,导致服务不可用 单点故障解决方式: 1.给容易出故障的地方安排备份 2.一主一备,要求同一时刻只能有一个对外提供服务 3.当active挂掉之后,standby很短时间内切换成为active,保证服务可用性 HA脑裂问题: 1.主备互相认为对方挂掉,都去启动 阅读全文
posted @ 2018-04-26 18:33 SCLi 阅读(279) 评论(0) 推荐(0) 编辑