随笔分类 -  spark

摘要:SparkSQL & Spark on Hive & Hive on SparkSpark On Hive, 将Hive做为数据库, 获得表数据后, 使用Spark SQL对表操作.Hive On Spark, 将Hive的计算引擎替换Spark RDD操作. 阅读全文
posted @ 2020-06-25 15:59 bitbitbyte 阅读(131) 评论(0) 推荐(0)
摘要:缓存的作用, 避免行动算子导致之前的转换算子重复计算(尤其是之前的转换算子中存在副作用) SparkCache的几点思考https://blog.csdn.net/qq_27639777/article/details/82319560 阅读全文
posted @ 2020-06-06 10:45 bitbitbyte 阅读(405) 评论(0) 推荐(0)
摘要:rdd.mapPartitions与Dstream.transform需要返回值RDD, 是转换算子(存在重复计算的问题)rdd.foreachPartion与Dstream.foreachRDD不需要返回值, 是行动算子注意:如果没有缓存, 没调用一次行动算子, 都会对涉及到的转换算子计算一次. 阅读全文
posted @ 2020-06-01 10:39 bitbitbyte 阅读(290) 评论(0) 推荐(0)
摘要:简介 Spark有3种集群管理器: Standalone Hadoop YARN 又分为yarn client与yarn cluser Apache Mesos 生产环境中一般使用yarn cluser模式 个人理解 yarn主要有两个作用. 一个是创建Container以此来分配计算资源 另外一个是在Container上运行ExecutorBackend建立起除yarn之外的... 阅读全文
posted @ 2020-05-24 10:33 bitbitbyte 阅读(474) 评论(0) 推荐(0)