Spark - 随笔分类 - IT迷途小书童

Kafka 学习（一）

摘要：（一）Kafka Kafka是一个基于zookeeper的高吞吐低延迟的分布式的发布、订阅消息系统【消息队列】。它能实时处理大量的消息数据以满足各种需求。Kafka是中间件的一种。在java高并发中有生产者-消费者-仓库模式。为解决生产能力和消费能力不匹配的问题。其中，仓库是为了降低生产者和消费阅读全文

posted @ 2020-11-09 13:39 IT迷途小书童阅读(171) 评论(0) 推荐(0)

spark学习（三）--内存管理和性能调优

摘要：（一）内存管理内存管理指的是executor的内存管理。 1. 内存分类--堆内存和堆外内存内存分类分为堆内存和堆外内存。堆内存分为存储storage内存、execution运算内存、other内存。比例是6：2：2 堆内存：Executor内存管理是建立在JVM内存管理之上的。JVM内存就是阅读全文

posted @ 2020-11-09 13:08 IT迷途小书童阅读(267) 评论(0) 推荐(0)

spark学习（二）--作业调度和shuffle解析

摘要：（一）任务（作业）调度任务调度相关的3个概念：job、stage、task。 Job：根据用的的spark逻辑任务。以action方法为界，遇到一个action 方法，则触发一个job。 Stage：stage是job的子集。以宽依赖（shuffle）为界。遇到遇到一个shuffle，做一次划分。阅读全文

posted @ 2020-11-09 13:06 IT迷途小书童阅读(144) 评论(0) 推荐(0)

spark学习（一） --spark基本概念和任务提交

摘要：（一）RDD、DataFream、DataSet 理解 1. RDD理解 (1) RDD定义为弹性分布式数据集合。 MR运算之间数据共享差： MR的计算之间的数据共享只能通过将数据写入外部存储系统。后一步计算需要从外部存储系统中加载进来的方式进行。 Spark 思路相反，设计了一种抽象-RDD（弹性阅读全文

posted @ 2020-11-09 13:00 IT迷途小书童阅读(179) 评论(0) 推荐(0)

IT迷路小书童

默且思且行

随笔分类 - Spark

公告

IT迷路小书童

默 且思且行

随笔分类 - Spark

公告

默且思且行