随笔分类 - spark
摘要:SparkSQL & Spark on Hive & Hive on SparkSpark On Hive, 将Hive做为数据库, 获得表数据后, 使用Spark SQL对表操作.Hive On Spark, 将Hive的计算引擎替换Spark RDD操作.
阅读全文
摘要:缓存的作用, 避免行动算子导致之前的转换算子重复计算(尤其是之前的转换算子中存在副作用) SparkCache的几点思考https://blog.csdn.net/qq_27639777/article/details/82319560
阅读全文
摘要:rdd.mapPartitions与Dstream.transform需要返回值RDD, 是转换算子(存在重复计算的问题)rdd.foreachPartion与Dstream.foreachRDD不需要返回值, 是行动算子注意:如果没有缓存, 没调用一次行动算子, 都会对涉及到的转换算子计算一次.
阅读全文
摘要:简介 Spark有3种集群管理器: Standalone Hadoop YARN 又分为yarn client与yarn cluser Apache Mesos 生产环境中一般使用yarn cluser模式 个人理解 yarn主要有两个作用. 一个是创建Container以此来分配计算资源 另外一个是在Container上运行ExecutorBackend建立起除yarn之外的...
阅读全文
浙公网安备 33010602011771号