随笔分类 -  Spark

摘要:(一)Kafka Kafka是一个基于zookeeper的高吞吐低延迟的分布式的发布、订阅消息系统【消息队列】。它能实时处理大量的消息数据以满足各种需求。Kafka是中间件的一种。 在java高并发中有 生产者-消费者-仓库模式。为解决生产能力和消费能力不匹配的问题。其中,仓库是为了降低生产者和消费 阅读全文
posted @ 2020-11-09 13:39 IT迷途小书童 阅读(171) 评论(0) 推荐(0)
摘要:(一)内存管理 内存管理指的是executor的内存管理。 1. 内存分类--堆内存和堆外内存 内存分类分为 堆内存和堆外内存。堆内存分为存储storage内存、execution运算内存、other内存。比例是6:2:2 堆内存:Executor内存管理是建立在JVM内存管理之上的。JVM内存就是 阅读全文
posted @ 2020-11-09 13:08 IT迷途小书童 阅读(267) 评论(0) 推荐(0)
摘要:(一)任务(作业)调度 任务调度相关的3个概念:job、stage、task。 Job:根据用的的spark逻辑任务。以action方法为界,遇到一个action 方法,则触发一个job。 Stage:stage是job的子集。以宽依赖(shuffle)为界。遇到遇到一个shuffle,做一次划分。 阅读全文
posted @ 2020-11-09 13:06 IT迷途小书童 阅读(144) 评论(0) 推荐(0)
摘要:(一)RDD、DataFream、DataSet 理解 1. RDD理解 (1) RDD定义为弹性分布式数据集合。 MR运算之间数据共享差: MR的计算之间的数据共享只能通过将数据写入外部存储系统。后一步计算需要从外部存储系统中加载进来的方式进行。 Spark 思路相反,设计了一种抽象-RDD(弹性 阅读全文
posted @ 2020-11-09 13:00 IT迷途小书童 阅读(179) 评论(0) 推荐(0)