上一页 1 ··· 103 104 105 106 107 108 109 110 111 ··· 123 下一页
摘要: 讨论QQ:1586558083 目录 一、SparkSQL的进化之路 二、认识SparkSQL 2.1 什么是SparkSQL? 2.2 SparkSQL的作用 2.3 运行原理 2.4 特点 2.5 SparkSession 2.7 DataFrames 三、RDD转换成为DataFrame 3. 阅读全文
posted @ 2019-06-11 11:55 技术研究与问题解决 阅读(268) 评论(0) 推荐(0)
摘要: 讨论QQ:1586558083 目录 一、分区的概念 二、为什么要进行分区 三、Spark分区原则及方法 3.1 本地模式 3.2 YARN模式 四、分区器 正文 回到顶部 一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式 阅读全文
posted @ 2019-06-11 11:53 技术研究与问题解决 阅读(244) 评论(0) 推荐(0)
摘要: 讨论QQ:1586558083 目录 一、概述 二、源码解读 2.2 find-spark-home 2.3 spark-class 2.4 SparkSubmit 正文 回到顶部 一、概述 上一篇主要是介绍了spark启动的一些脚本,这篇主要分析一下Spark源码中提交任务脚本的处理逻辑,从spa 阅读全文
posted @ 2019-06-11 11:51 技术研究与问题解决 阅读(190) 评论(0) 推荐(0)
摘要: 讨论QQ:1586558083 目录 一、启动脚本分析 1.1 start-all.sh 1.2 start-master.sh 1.3 spark-config.sh(1.2的第5步) 1.4 load-spark-env.sh(1.2的第6步) 1.5 spark-env.sh 1.6 spar 阅读全文
posted @ 2019-06-11 11:50 技术研究与问题解决 阅读(388) 评论(0) 推荐(0)
摘要: 讨论QQ:1586558083 目录 一、概述 二、垃圾收集器(garbage collector (GC)) 是什么? 三、为什么需要GC? 四、为什么需要多种GC? 五、对象存活的判断 六、垃圾回收算法 6.1 标记 -清除算法 6.2 复制算法 6.3 标记-整理算法 6.4 分代收集算法 七 阅读全文
posted @ 2019-06-11 11:49 技术研究与问题解决 阅读(147) 评论(0) 推荐(0)
摘要: 讨论QQ:1586558083 目录 一、JVM的结构图 1.1 Java内存结构 1.2 如何通过参数来控制各区域的内存大小 1.3 控制参数 1.4 JVM和系统调用之间的关系 二、JVM各区域的作用 2.1 Java堆(Heap) 2.2 方法区(Method Area) 2.3 程序计数器( 阅读全文
posted @ 2019-06-11 11:48 技术研究与问题解决 阅读(142) 评论(0) 推荐(0)
摘要: 讨论QQ:1586558083 目录 一、概述 二、Spark作业基本运行原理 三、资源参数调优 3.1 num-executors 3.2 executor-memory 3.3 executor-cores 3.4 driver-memory 3.5 spark.default.parallel 阅读全文
posted @ 2019-06-11 11:47 技术研究与问题解决 阅读(169) 评论(0) 推荐(0)
摘要: 讨论QQ:1586558083 目录 一、概述 二、shuffle的定义 三、ShuffleManager发展概述 四、HashShuffleManager的运行原理 4.1 未经优化的HashShuffleManager 4.2 优化后的HashShuffleManager 五、SortShuff 阅读全文
posted @ 2019-06-11 11:46 技术研究与问题解决 阅读(190) 评论(0) 推荐(0)
摘要: 讨论QQ:1586558083 目录 一、概述 二、堆内和堆外内存规划 2.1 堆内内存 2.2 堆外内存 2.3 内存管理接口 三、内存空间分配 3.1 静态内存管理 3.2 统一内存管理 四、存储内存管理 4.1 RDD 的持久化机制 4.2 RDD 缓存的过程 4.3 淘汰和落盘 五、 执行内 阅读全文
posted @ 2019-06-11 11:46 技术研究与问题解决 阅读(145) 评论(0) 推荐(0)
摘要: 讨论QQ:1586558083 目录 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 某个task执行特别慢的情况 某个task莫名其妙内存溢出的情况 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二: 阅读全文
posted @ 2019-06-11 11:45 技术研究与问题解决 阅读(207) 评论(0) 推荐(0)
上一页 1 ··· 103 104 105 106 107 108 109 110 111 ··· 123 下一页