spark - 随笔分类 - bitbitbyte

SparkSQL & Spark on Hive & Hive on Spark[转载]

摘要：SparkSQL & Spark on Hive & Hive on SparkSpark On Hive, 将Hive做为数据库, 获得表数据后, 使用Spark SQL对表操作.Hive On Spark, 将Hive的计算引擎替换Spark RDD操作. 阅读全文

posted @ 2020-06-25 15:59 bitbitbyte 阅读(136) 评论(0) 推荐(0)

spark缓存的作用, 避免行动算子重复计算

摘要：缓存的作用, 避免行动算子导致之前的转换算子重复计算(尤其是之前的转换算子中存在副作用) SparkCache的几点思考https://blog.csdn.net/qq_27639777/article/details/82319560 阅读全文

posted @ 2020-06-06 10:45 bitbitbyte 阅读(409) 评论(0) 推荐(0)

Spark中的transform, mappartions, foreachPartion,foreachRDD

摘要：rdd.mapPartitions与Dstream.transform需要返回值RDD, 是转换算子(存在重复计算的问题)rdd.foreachPartion与Dstream.foreachRDD不需要返回值, 是行动算子注意:如果没有缓存, 没调用一次行动算子, 都会对涉及到的转换算子计算一次. 阅读全文

posted @ 2020-06-01 10:39 bitbitbyte 阅读(292) 评论(0) 推荐(0)

Spark之Yarn Cluster运行机制内核源码解读

摘要：简介 Spark有3种集群管理器: Standalone Hadoop YARN 又分为yarn client与yarn cluser Apache Mesos 生产环境中一般使用yarn cluser模式个人理解 yarn主要有两个作用. 一个是创建Container以此来分配计算资源另外一个是在Container上运行ExecutorBackend建立起除yarn之外的... 阅读全文

posted @ 2020-05-24 10:33 bitbitbyte 阅读(491) 评论(0) 推荐(0)

随笔分类 - spark

公告