2017 年 8月随笔档案 - Super_Orco

SparkSQL程序设计

摘要：1、创建Spark Session 2、将RDD隐式转换为DataFrame import spark.implicits._ 3、SparkSession 介绍 spark中包含 sparkContext和 sqlContext两个对象 sparkContext 是操作 RDD 的 sqlCont 阅读全文

posted @ 2017-08-26 21:46 Super_Orco 阅读(662) 评论(0) 推荐(1)

Spark SQL概述

摘要：前言：一些逻辑用spark core 来写，会比较麻烦，如果用sql 来表达，那简直太方便了一、Spark SQL 是什么是专门处理结构化数据的 Spark 组件 Spark SQL 提供了两种操作数据的方法： sql 查询 DataFrames/Datasets API Spark SQL = 阅读全文

posted @ 2017-08-16 15:19 Super_Orco 阅读(756) 评论(0) 推荐(0)

常用RDD

摘要：只作为我个人笔记，没有过多解释 Transfor map filter filter之后，依然有三个分区，第二个分区为空，但不会消失 flatMap reduceByKey groupByKey() sortByKey() mapValues(_ + 1) mapvalues是忽略掉key，只把va 阅读全文

posted @ 2017-08-10 22:21 Super_Orco 阅读(343) 评论(0) 推荐(0)

spark程序设计

摘要：Spark程序设计—创建RDD：从Scala集合构造成RDD parallelize(a, 3) makeRDD(a, 3) 他俩使用方式一样，只不过名字不一样 Spark程序设计—创建RDD：本地文件/HDFS textFile(path, 100) sequenceFile wholeTextF 阅读全文

posted @ 2017-08-09 23:08 Super_Orco 阅读(326) 评论(0) 推荐(0)

Super_Orco

08 2017 档案

公告