摘要:
构造以spark为核心的数据仓库: 0.说明 在大数据领域,hive作为老牌的数据仓库比较流行,spark可以考虑兼容hive。但是如果不想用hive做数据仓库也无妨,大不了我们用spark建立最新的数据仓库。 sparkSQL的发展历程表明了,spark本身就可以做数据仓库,而不需要hive。sp 阅读全文
posted @ 2018-06-22 21:48
大葱拌豆腐
阅读(1546)
评论(0)
推荐(0)
摘要:
导语 Spark2.0于2016-07-27正式发布,伴随着更简单、更快速、更智慧的新特性,spark 已经逐步替代 hadoop 在大数据中的地位,成为大数据处理的主流标准。本文主要以代码和绘图的方式结合,对运行架构、RDD 的实现、spark 作业原理、Sort-Based Shuffle 的存 阅读全文
posted @ 2018-06-22 21:41
大葱拌豆腐
阅读(404)
评论(0)
推荐(0)
摘要:
Storage模块 在Spark中提及最多的是RDD,而RDD所交互的数据是通过Storage来实现和管理 Storage模块整体架构 1. 存储层 在Spark里,单节点的Storage的管理是通过block来管理的,每个Block的存储可以在内存里或者在磁盘中,在BlockManager里既可以 阅读全文
posted @ 2018-06-22 17:19
大葱拌豆腐
阅读(682)
评论(0)
推荐(0)
摘要:
1. 究竟是怎么运行的? 很多的博客里大量的讲了什么是RDD, Dependency, Shuffle.......但是究竟那些Executor是怎么运行你提交的代码段的? 下面是一个日志分析的例子,来自Spark的example def main(args: Array[String]) { va 阅读全文
posted @ 2018-06-22 13:43
大葱拌豆腐
阅读(425)
评论(0)
推荐(0)
摘要:
1. 启动任务 在前面一篇博客中(Driver 启动、分配、调度Task)介绍了Driver是如何调动、启动任务的,Driver向Executor发送了LaunchTask的消息,Executor接收到了LaunchTask的消息后,进行了任务的启动,在CoarseGrainedExecutorBa 阅读全文
posted @ 2018-06-22 12:37
大葱拌豆腐
阅读(848)
评论(0)
推荐(0)
摘要:
1. 什么是Task? 在前面的章节里描述过几个角色,Driver(Client),Master,Worker(Executor),Driver会提交Application到Master进行Worker上的Executor上的调度,显然这些都不是Task. Spark上的几个关系可以这样理解: Ap 阅读全文
posted @ 2018-06-22 11:22
大葱拌豆腐
阅读(1507)
评论(0)
推荐(0)
浙公网安备 33010602011771号