bigData-Spark - 随笔分类 - 昕友软件开发

Spark面试题

摘要：RDD怎么理解？ RDD 是 Spark 的灵魂，也称为弹性分布式数据集。一个 RDD 代表一个可以被分区的只读数据集。RDD 内部可以有许多分区(partitions)，每个分区又拥有大量的记录(records)。Rdd的五个特征： 1. dependencies: 建立 RDD 的依赖关系，主要阅读全文

posted @ 2019-03-14 16:12 昕友软件开发阅读(2825) 评论(0) 推荐(0)

Spark基础脚本入门实践3:Pair RDD开发

摘要：Pair RDD转化操作 val rdd = sc.parallelize(List((1,2),(3,4),(3,6))) //reduceByKey，通过key来做合并val r1 = rdd.reduceByKey((x,y)=>x+y).collect()val r1 = rdd.reduc 阅读全文

posted @ 2017-06-16 16:46 昕友软件开发阅读(306) 评论(0) 推荐(0)

Spark基础脚本入门实践2:基础开发

摘要：1、最基本的Map用法 val data = Array(1, 2, 3, 4, 5)val distData = sc.parallelize(data)val result = distData.map(x=>x*x)println(result.collect().mkString(",")) 阅读全文

posted @ 2017-06-15 16:38 昕友软件开发阅读(446) 评论(0) 推荐(0)

Spark基础脚本入门实践1

摘要：1、创建数据框架 Creating DataFrames val df = spark.read.json("file:///usr/local/spark/examples/src/main/resources/people.json");df.show(); 写到hdfs路径：df.select 阅读全文

posted @ 2017-06-14 17:35 昕友软件开发阅读(1242) 评论(0) 推荐(0)

昕友软件开发

知行合一

随笔分类 - bigData-Spark