盛夏群岛

2020年3月2日

摘要： ctrl+D 复制一行代码 shift+alt+上下键代码上/下移 ctrl+shift+R 全局查找和替换代码格式化 ctrl+alt+L ctrl+shift+alt+N 通过类名快速查找某个类选中接口名之后，ctrl+h 查找某个接口的实现类阅读全文

posted @ 2020-03-02 14:31 盛夏群岛阅读(107) 评论(0) 推荐(0)

2020年3月1日

SparkSQL(四)——用户自定义函数

摘要：用户自定义聚合函数强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数，如 count()，countDistinct()，avg()，max()，min()。除此之外，用户可以设定自己的自定义聚合函数。弱类型用户自定义聚合函数通过继承UserDefinedAggrega 阅读全文

posted @ 2020-03-01 19:40 盛夏群岛阅读(953) 评论(0) 推荐(0)

SparkSQL(三)——idea开发SparkSQL程序

摘要：首先导入maven依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</version> </depend 阅读全文

posted @ 2020-03-01 14:59 盛夏群岛阅读(1668) 评论(0) 推荐(0)

2020年2月29日

案例类

摘要：转载自https://www.yiibai.com/scala/scala-case-classes-and-case-object.html 案例类（Case classes）和普通类差不多，只有几点关键差别，接下来的介绍将会涵盖这些差别。案例类非常适合用于不可变的数据。定义一个案例类一个最简阅读全文

posted @ 2020-02-29 17:46 盛夏群岛阅读(210) 评论(0) 推荐(0)

SparkSQL(二)——基本操作

摘要： SparkSession新的起点在老的版本中，SparkSQL提供两种SQL查询起始点：一个叫SQLContext，用于Spark自己提供的SQL查询；一个叫HiveContext，用于连接Hive的查询。 SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和阅读全文

posted @ 2020-02-29 15:34 盛夏群岛阅读(2077) 评论(0) 推荐(0)

2020年2月28日

累加器与广播变量

摘要：概述 spark中的三大数据类型： RDD：分布式数据集累加器：分布式只写变量，可以支持多个分区同时向该RDD写入数据，并将数据返回广播变量：分布式只读变量累加器示例程序如下：系统通过引用一个外部的自由变量sum，将多个分区的数据累加到sum上。 def main(args: Array[S 阅读全文

posted @ 2020-02-28 09:50 盛夏群岛阅读(427) 评论(0) 推荐(0)

2020年2月27日

RDD(十)——案例实操

摘要：需求：数据结构：时间戳，省份，城市，用户，广告，中间字段使用空格分割。样本如下： 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 思路分析如下：第一步：过滤无关的数据字段，只留下省份，广告第二步：省阅读全文

posted @ 2020-02-27 15:07 盛夏群岛阅读(300) 评论(0) 推荐(0)

JdbcRDD连接MySQL

摘要：（1）添加依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</version> </dependency 阅读全文

posted @ 2020-02-27 13:07 盛夏群岛阅读(548) 评论(0) 推荐(0)

RDD(九)——序列化问题

摘要：在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要考虑的主要问题是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。传递一个方法 import org.apache.spark.rdd.RDD class Se 阅读全文

posted @ 2020-02-27 13:05 盛夏群岛阅读(599) 评论(0) 推荐(0)

RDD(五)——action

摘要： reduce(func) 通过func函数聚集RDD中的所有元素并得到最终的结果，先聚合分区内数据，再聚合分区间数据。Func函数决定了聚合的方式。 def main(args: Array[String]): Unit = { val sc: SparkContext = new SparkCon 阅读全文

posted @ 2020-02-27 11:43 盛夏群岛阅读(237) 评论(0) 推荐(0)

公告