08 2017 档案
摘要:1、创建Spark Session 2、将RDD隐式转换为DataFrame import spark.implicits._ 3、SparkSession 介绍 spark中包含 sparkContext和 sqlContext两个对象 sparkContext 是操作 RDD 的 sqlCont
阅读全文
摘要:前言:一些逻辑用spark core 来写,会比较麻烦,如果用sql 来表达,那简直太方便了 一、Spark SQL 是什么 是专门处理结构化数据的 Spark 组件 Spark SQL 提供了两种操作数据的方法: sql 查询 DataFrames/Datasets API Spark SQL =
阅读全文
摘要:只作为我个人笔记,没有过多解释 Transfor map filter filter之后,依然有三个分区,第二个分区为空,但不会消失 flatMap reduceByKey groupByKey() sortByKey() mapValues(_ + 1) mapvalues是忽略掉key,只把va
阅读全文
摘要:Spark程序设计—创建RDD:从Scala集合构造成RDD parallelize(a, 3) makeRDD(a, 3) 他俩使用方式一样,只不过名字不一样 Spark程序设计—创建RDD:本地文件/HDFS textFile(path, 100) sequenceFile wholeTextF
阅读全文

浙公网安备 33010602011771号