会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
wellDoneGaben
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
8
9
10
11
12
13
14
15
下一页
2019年10月26日
Spark Shuffle
摘要: 1. SparkShuffle 概念 reduceByKey 会将上一个RDD中的每一个key对应的所有 value 聚合成一个 value, 然后生成一个value, 然后生成一个新的 RDD, 元素资源是 对的形式, 这样每一个 key 对应 一个聚合起来的 value。 问题: 聚合之前, 每
阅读全文
posted @ 2019-10-26 08:31 wellDoneGaben
阅读(199)
评论(0)
推荐(0)
2019年10月25日
Spark 广播变量 和 累加器
摘要: 1. 广播变量 理解图 使用示例 源码 scala package org.apache.spark.broadcast import java.io.Serializable import scala.reflect.ClassTag import org.apache.spark.SparkEx
阅读全文
posted @ 2019-10-25 16:10 wellDoneGaben
阅读(242)
评论(0)
推荐(0)
2019年10月24日
Spark 资源调度 与 任务调度
摘要: Spark 资源调度与任务调度的流程(Standalone): 启动集群后, Worker 节点会向 Master 节点汇报资源情况, Master掌握了集群资源状况。 当 Spark 提交一个 Application 后, 根据 RDD 之间的依赖关系将 Application 形成一个 DAG
阅读全文
posted @ 2019-10-24 20:36 wellDoneGaben
阅读(889)
评论(0)
推荐(0)
2019年10月23日
Spark 集群 任务提交模式
摘要: Spark 集群的模式及提交任务的方式 本文大致的内容图 Spark 集群的两种模式: Standalone 模式 Standalone client 任务提交方式 提交命令 || 执行原理 执行流程 1. client 模式提交任务后, 会在客户端启动Driver进程 2. Driver 会向 M
阅读全文
posted @ 2019-10-23 22:16 wellDoneGaben
阅读(2153)
评论(0)
推荐(0)
Spark RDD 宽窄依赖
摘要: RDD 宽窄依赖 RDD之间有一系列的依赖关系, 可分为窄依赖和宽依赖 窄依赖 从 RDD 的 parition 角度来看 父 RRD 的 parition 和 子 RDD 的 parition 之间的关系是一对一的 (或 者是多对一的)。 不会有 shuffle 产生 宽依赖 父 RRD 的 pa
阅读全文
posted @ 2019-10-23 17:49 wellDoneGaben
阅读(386)
评论(0)
推荐(0)
2019年10月22日
Spark 资源调度包 stage 类解析
摘要: spark 资源调度包 Stage(阶段) 类解析 Stage 概念 Spark 任务会根据 RDD 之间的依赖关系, 形成一个DAG有向无环图, DAG会被提交给DAGScheduler, DAGSchedular 会把DAG划分为相互依赖的多个stage。 而划分stage的依据就是RDD之间的
阅读全文
posted @ 2019-10-22 22:48 wellDoneGaben
阅读(380)
评论(0)
推荐(0)
堆内内存与堆外内存
摘要: 最近看Spark的 StorageLevel(存储级别) 源码的时候 看到有 useOffHeap 这个标签, 觉得有必要挖掘一下 堆内内存(on heap memory) 堆内内存是java程序员在日常工作中解除比较多的, 可以在jvm参数中使用 Xms, Xmx 等参数来设置堆的大小和最大值 堆
阅读全文
posted @ 2019-10-22 10:57 wellDoneGaben
阅读(14984)
评论(4)
推荐(2)
2019年10月21日
Spark笔记(一)
摘要: 1. 简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不
阅读全文
posted @ 2019-10-21 22:17 wellDoneGaben
阅读(558)
评论(0)
推荐(0)
2019年10月20日
scala 语言特性
摘要: Scala 语言特性 Unit 表示无值, 等价于java, C++中的void Null 表示空值或空引用 Nothing 所有其他类型的子类型, 表示没有值 Any 所有类型的超类, 任何实例都属于Any类型 AnyRef 所有引用类型的超类 AnyVal 所有值类型的超类 变量: var(va
阅读全文
posted @ 2019-10-20 20:44 wellDoneGaben
阅读(337)
评论(0)
推荐(0)
Centos7.4 Storm2.0.0 + Zookeeper3.5.5 高可用集群搭建
摘要: 想了下还是把kafka集群和storm集群分开比较好 1. 集群规划: | | Nimbus | Supervisor | | | | | | storm01 | √ | √ | | storm02 | √(备份) | √ | | storm03 | | √ | 2. 准备工作 老样子复制三台虚拟机
阅读全文
posted @ 2019-10-20 00:45 wellDoneGaben
阅读(306)
评论(0)
推荐(0)
上一页
1
···
8
9
10
11
12
13
14
15
下一页
公告