摘要:
一、 并行查询 并行查询允许将一个sql select语句划分为多个较小的查询,每个部分的查询并发地运行,然后将各个部分的结果组合起来,提供最终的结果,多用于全表扫描,索引全扫描等,大表的扫描和连接、创建大的索引、分区索引扫描、大批量插入更新和删除 1. 启用并行查询SQL> ALTER TABLE 阅读全文
posted @ 2019-06-11 17:40
技术研究与问题解决
阅读(1641)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、简介 1.1 概述 1.2 一个小栗子 2.2 初始化StreamingContext 2.3 离散数据流 (DStreams) 2.4 输入DStream和接收器 2.5 接收器可靠性 二、基本概念 2.1 链接依赖项 三、DStream支持的transf 阅读全文
posted @ 2019-06-11 12:06
技术研究与问题解决
阅读(323)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、引言 二、图存储模式 2.1 边分割(Edge-Cut) 2.2 点分割(Vertex-Cut) 2.3 对比 三、图计算模式 3.1 超步 3.2 Pregel模型——像顶点一样思考 3.3 GAS模型——邻居更新模型 正文 回到顶部 一、引言 在了解Gr 阅读全文
posted @ 2019-06-11 12:02
技术研究与问题解决
阅读(192)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、图 1.1 基本概念 二、术语 2.1 顶点和边 2.2 有向图和无向图 2.3 有环图和无环图 2.4 度、出边、入边、出度、入度 2.5 超步 三、图处理技术 3.1 图数据库 3.2 图数据查询 3.3 图数据分析 3.4 图数据可视化 正文 回到顶部 阅读全文
posted @ 2019-06-11 12:01
技术研究与问题解决
阅读(218)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明 2.2 文字解说 三、SparkStreaming的3个组成部分 四、 离散流(DStream) 五、小栗子 5.1 阅读全文
posted @ 2019-06-11 12:00
技术研究与问题解决
阅读(282)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、概述 二、Spark-SQL脚本 正文 回到顶部 一、概述 SparkSQL 的元数据的状态有两种: 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。 换句话说 阅读全文
posted @ 2019-06-11 11:58
技术研究与问题解决
阅读(463)
评论(0)
推荐(0)
摘要:
Spark学习之路 (二十一)SparkSQL的开窗函数和DataSet 阅读全文
posted @ 2019-06-11 11:58
技术研究与问题解决
阅读(275)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcatio 阅读全文
posted @ 2019-06-11 11:56
技术研究与问题解决
阅读(359)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、SparkSQL的进化之路 二、认识SparkSQL 2.1 什么是SparkSQL? 2.2 SparkSQL的作用 2.3 运行原理 2.4 特点 2.5 SparkSession 2.7 DataFrames 三、RDD转换成为DataFrame 3. 阅读全文
posted @ 2019-06-11 11:55
技术研究与问题解决
阅读(268)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、分区的概念 二、为什么要进行分区 三、Spark分区原则及方法 3.1 本地模式 3.2 YARN模式 四、分区器 正文 回到顶部 一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式 阅读全文
posted @ 2019-06-11 11:53
技术研究与问题解决
阅读(244)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、概述 二、源码解读 2.2 find-spark-home 2.3 spark-class 2.4 SparkSubmit 正文 回到顶部 一、概述 上一篇主要是介绍了spark启动的一些脚本,这篇主要分析一下Spark源码中提交任务脚本的处理逻辑,从spa 阅读全文
posted @ 2019-06-11 11:51
技术研究与问题解决
阅读(190)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、启动脚本分析 1.1 start-all.sh 1.2 start-master.sh 1.3 spark-config.sh(1.2的第5步) 1.4 load-spark-env.sh(1.2的第6步) 1.5 spark-env.sh 1.6 spar 阅读全文
posted @ 2019-06-11 11:50
技术研究与问题解决
阅读(388)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、概述 二、垃圾收集器(garbage collector (GC)) 是什么? 三、为什么需要GC? 四、为什么需要多种GC? 五、对象存活的判断 六、垃圾回收算法 6.1 标记 -清除算法 6.2 复制算法 6.3 标记-整理算法 6.4 分代收集算法 七 阅读全文
posted @ 2019-06-11 11:49
技术研究与问题解决
阅读(147)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、JVM的结构图 1.1 Java内存结构 1.2 如何通过参数来控制各区域的内存大小 1.3 控制参数 1.4 JVM和系统调用之间的关系 二、JVM各区域的作用 2.1 Java堆(Heap) 2.2 方法区(Method Area) 2.3 程序计数器( 阅读全文
posted @ 2019-06-11 11:48
技术研究与问题解决
阅读(142)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、概述 二、Spark作业基本运行原理 三、资源参数调优 3.1 num-executors 3.2 executor-memory 3.3 executor-cores 3.4 driver-memory 3.5 spark.default.parallel 阅读全文
posted @ 2019-06-11 11:47
技术研究与问题解决
阅读(169)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、概述 二、shuffle的定义 三、ShuffleManager发展概述 四、HashShuffleManager的运行原理 4.1 未经优化的HashShuffleManager 4.2 优化后的HashShuffleManager 五、SortShuff 阅读全文
posted @ 2019-06-11 11:46
技术研究与问题解决
阅读(190)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、概述 二、堆内和堆外内存规划 2.1 堆内内存 2.2 堆外内存 2.3 内存管理接口 三、内存空间分配 3.1 静态内存管理 3.2 统一内存管理 四、存储内存管理 4.1 RDD 的持久化机制 4.2 RDD 缓存的过程 4.3 淘汰和落盘 五、 执行内 阅读全文
posted @ 2019-06-11 11:46
技术研究与问题解决
阅读(145)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 某个task执行特别慢的情况 某个task莫名其妙内存溢出的情况 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二: 阅读全文
posted @ 2019-06-11 11:45
技术研究与问题解决
阅读(207)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 调优概述 原则一:避免创建重复的RDD 一个简单的例子 原则二:尽可能复用同一个RDD 一个简单的例子 原则三:对多次使用的RDD进行持久化 对多次使用的RDD进行持久化的代码示例 Spark的持久化级别 如何选择一种最合适的持久化策略 原则四:尽量避免使用sh 阅读全文
posted @ 2019-06-11 11:44
技术研究与问题解决
阅读(198)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 Transformation算子 基本的初始化 一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1 map 1.2 flatMap 1.3 mapPartitions 1.4 mapPartitionsWi 阅读全文
posted @ 2019-06-11 11:43
技术研究与问题解决
阅读(173)
评论(0)
推荐(0)
浙公网安备 33010602011771号