随笔分类 -  Spark

摘要:SparkSQL和DataFrame SparkSQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快! SparkSQL的特性 1 阅读全文
posted @ 2017-09-28 22:36 LSPZ 阅读(1287) 评论(0) 推荐(0)
摘要:SparkRDD简介/常用算子/依赖/缓存 RDD简介 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD是一个类 RDD的属性 1.一个列表,存储存取每个Partitio 阅读全文
posted @ 2017-09-27 09:56 LSPZ 阅读(694) 评论(0) 推荐(0)