随笔分类 - bigData-Spark
摘要:RDD怎么理解? RDD 是 Spark 的灵魂,也称为弹性分布式数据集。一个 RDD 代表一个可以被分区的只读数据集。RDD 内部可以有许多分区(partitions),每个分区又拥有大量的记录(records)。Rdd的五个特征: 1. dependencies: 建立 RDD 的依赖关系,主要
阅读全文
摘要:Pair RDD转化操作 val rdd = sc.parallelize(List((1,2),(3,4),(3,6))) //reduceByKey,通过key来做合并val r1 = rdd.reduceByKey((x,y)=>x+y).collect()val r1 = rdd.reduc
阅读全文
摘要:1、最基本的Map用法 val data = Array(1, 2, 3, 4, 5)val distData = sc.parallelize(data)val result = distData.map(x=>x*x)println(result.collect().mkString(","))
阅读全文
摘要:1、创建数据框架 Creating DataFrames val df = spark.read.json("file:///usr/local/spark/examples/src/main/resources/people.json");df.show(); 写到hdfs路径:df.select
阅读全文

浙公网安备 33010602011771号