摘要: ctrl+D 复制一行代码 shift+alt+上下键 代码上/下移 ctrl+shift+R 全局查找和替换 代码格式化 ctrl+alt+L ctrl+shift+alt+N 通过类名快速查找某个类 选中接口名之后,ctrl+h 查找某个接口的实现类 阅读全文
posted @ 2020-03-02 14:31 盛夏群岛 阅读(105) 评论(0) 推荐(0)
摘要: 用户自定义聚合函数 强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数, 如 count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。 弱类型用户自定义聚合函数 通过继承UserDefinedAggrega 阅读全文
posted @ 2020-03-01 19:40 盛夏群岛 阅读(952) 评论(0) 推荐(0)
摘要: 首先导入maven依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</version> </depend 阅读全文
posted @ 2020-03-01 14:59 盛夏群岛 阅读(1666) 评论(0) 推荐(0)
摘要: 转载自https://www.yiibai.com/scala/scala-case-classes-and-case-object.html 案例类(Case classes)和普通类差不多,只有几点关键差别,接下来的介绍将会涵盖这些差别。案例类非常适合用于不可变的数据。 定义一个案例类 一个最简 阅读全文
posted @ 2020-02-29 17:46 盛夏群岛 阅读(206) 评论(0) 推荐(0)
摘要: SparkSession新的起点 在老的版本中,SparkSQL提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于连接Hive的查询。 SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和 阅读全文
posted @ 2020-02-29 15:34 盛夏群岛 阅读(2073) 评论(0) 推荐(0)
摘要: 概述 spark中的三大数据类型: RDD:分布式数据集 累加器:分布式只写变量,可以支持多个分区同时向该RDD写入数据,并将数据返回 广播变量:分布式只读变量 累加器 示例程序如下:系统通过引用一个外部的自由变量sum,将多个分区的数据累加到sum上。 def main(args: Array[S 阅读全文
posted @ 2020-02-28 09:50 盛夏群岛 阅读(425) 评论(0) 推荐(0)
摘要: 需求: 数据结构:时间戳,省份,城市,用户,广告,中间字段使用空格分割。 样本如下: 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 思路分析如下: 第一步:过滤无关的数据字段,只留下省份,广告第二步:省 阅读全文
posted @ 2020-02-27 15:07 盛夏群岛 阅读(300) 评论(0) 推荐(0)
摘要: (1)添加依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</version> </dependency 阅读全文
posted @ 2020-02-27 13:07 盛夏群岛 阅读(548) 评论(0) 推荐(0)
摘要: 在实际开发中我们往往需要自己定义一些对于RDD的操作,那么此时需要考虑的主要问题是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。 传递一个方法 import org.apache.spark.rdd.RDD class Se 阅读全文
posted @ 2020-02-27 13:05 盛夏群岛 阅读(598) 评论(0) 推荐(0)
摘要: reduce(func) 通过func函数聚集RDD中的所有元素并得到最终的结果,先聚合分区内数据,再聚合分区间数据。Func函数决定了聚合的方式。 def main(args: Array[String]): Unit = { val sc: SparkContext = new SparkCon 阅读全文
posted @ 2020-02-27 11:43 盛夏群岛 阅读(236) 评论(0) 推荐(0)