08 2017 档案

摘要:1、创建Spark Session 2、将RDD隐式转换为DataFrame import spark.implicits._ 3、SparkSession 介绍 spark中包含 sparkContext和 sqlContext两个对象 sparkContext 是操作 RDD 的 sqlCont 阅读全文
posted @ 2017-08-26 21:46 Super_Orco 阅读(662) 评论(0) 推荐(1)
摘要:前言:一些逻辑用spark core 来写,会比较麻烦,如果用sql 来表达,那简直太方便了 一、Spark SQL 是什么 是专门处理结构化数据的 Spark 组件 Spark SQL 提供了两种操作数据的方法: sql 查询 DataFrames/Datasets API Spark SQL = 阅读全文
posted @ 2017-08-16 15:19 Super_Orco 阅读(756) 评论(0) 推荐(0)
摘要:只作为我个人笔记,没有过多解释 Transfor map filter filter之后,依然有三个分区,第二个分区为空,但不会消失 flatMap reduceByKey groupByKey() sortByKey() mapValues(_ + 1) mapvalues是忽略掉key,只把va 阅读全文
posted @ 2017-08-10 22:21 Super_Orco 阅读(343) 评论(0) 推荐(0)
摘要:Spark程序设计—创建RDD:从Scala集合构造成RDD parallelize(a, 3) makeRDD(a, 3) 他俩使用方式一样,只不过名字不一样 Spark程序设计—创建RDD:本地文件/HDFS textFile(path, 100) sequenceFile wholeTextF 阅读全文
posted @ 2017-08-09 23:08 Super_Orco 阅读(326) 评论(0) 推荐(0)