摘要:
本博文的主要内容是: 1. Hive本质解析 2. Hive安装实战 3. 使用Hive操作搜索引擎数据实战 SparkSQL前身是Shark,Shark强烈依赖于Hive。Spark原来没有做SQL多维度数据查询工具,后来开发了Shark,Shark依赖于Hive的解释引擎,部分在Spark中运行 阅读全文
posted @ 2016-10-09 17:47
大数据和AI躺过的坑
阅读(1175)
评论(0)
推荐(0)
摘要:
本博文的主要内容: 1、Hash Shuffle彻底解密 2、Shuffle Pluggable解密 3、Sorted Shuffle解密 4、Shuffle性能优化 一:到底什么是Shuffle? Shuffle中文翻译为“洗牌”,需要Shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚 阅读全文
posted @ 2016-10-09 15:55
大数据和AI躺过的坑
阅读(6375)
评论(2)
推荐(0)
摘要:
本博文主要内容: 1、再次思考pipeline 2、窄依赖物理执行内幕 3、宽依赖物理执行内幕 4、Job提交流程 一:再次思考pipeline 即使采用pipeline的方式,函数f对依赖的RDD中的数据的操作也会有2种方式: 1:f(record), f作用于集合的每一条记录,每次只作用于一条记 阅读全文
posted @ 2016-10-09 15:13
大数据和AI躺过的坑
阅读(509)
评论(0)
推荐(0)
摘要:
本期内容: 1、RDD依赖关系的本质内幕 2、依赖关系下的数据流视图 3、经典的RDD依赖关系解析 4、RDD依赖关系源码内幕 1、RDD依赖关系的本质内幕 由于RDD是粗粒度的操作数据集,每个Transformation操作都会生成一个新的RDD,所以RDD之间就会形成类似流水线的前后依赖关系;在 阅读全文
posted @ 2016-10-09 14:46
大数据和AI躺过的坑
阅读(4595)
评论(0)
推荐(1)
摘要:
本博文的主要内容如下: 1、通过案例观察Spark架构 2、手动绘制Spark内部架构 3、Spark Job的逻辑视图解析 4、Spark Job的物理视图解析 1、通过案例观察Spark架构 spark-shell中,默认情况下,没有任何的Job。 从Master角度讲: 1、管理CPU、MEM 阅读全文
posted @ 2016-10-09 11:52
大数据和AI躺过的坑
阅读(1610)
评论(0)
推荐(0)
摘要:
本博文内容: 1、基础Top N算法实战 2、分组Top N算法实战 3、排序算法RangePartitioner内幕解密 1、基础Top N算法实战 Top N是排序,Take是直接拿出几个元素,没排序。 新建 从源码,来说话,take返回的是数组,不是RDD。而colletc需要的是RDD。 则 阅读全文
posted @ 2016-10-09 09:25
大数据和AI躺过的坑
阅读(994)
评论(0)
推荐(0)

浙公网安备 33010602011771号