会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
盛夏群岛
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
下一页
2020年3月2日
常用快捷键
摘要: ctrl+D 复制一行代码 shift+alt+上下键 代码上/下移 ctrl+shift+R 全局查找和替换 代码格式化 ctrl+alt+L ctrl+shift+alt+N 通过类名快速查找某个类 选中接口名之后,ctrl+h 查找某个接口的实现类
阅读全文
posted @ 2020-03-02 14:31 盛夏群岛
阅读(105)
评论(0)
推荐(0)
2020年3月1日
SparkSQL(四)——用户自定义函数
摘要: 用户自定义聚合函数 强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数, 如 count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。 弱类型用户自定义聚合函数 通过继承UserDefinedAggrega
阅读全文
posted @ 2020-03-01 19:40 盛夏群岛
阅读(952)
评论(0)
推荐(0)
SparkSQL(三)——idea开发SparkSQL程序
摘要: 首先导入maven依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</version> </depend
阅读全文
posted @ 2020-03-01 14:59 盛夏群岛
阅读(1666)
评论(0)
推荐(0)
2020年2月29日
案例类
摘要: 转载自https://www.yiibai.com/scala/scala-case-classes-and-case-object.html 案例类(Case classes)和普通类差不多,只有几点关键差别,接下来的介绍将会涵盖这些差别。案例类非常适合用于不可变的数据。 定义一个案例类 一个最简
阅读全文
posted @ 2020-02-29 17:46 盛夏群岛
阅读(206)
评论(0)
推荐(0)
SparkSQL(二)——基本操作
摘要: SparkSession新的起点 在老的版本中,SparkSQL提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于连接Hive的查询。 SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和
阅读全文
posted @ 2020-02-29 15:34 盛夏群岛
阅读(2073)
评论(0)
推荐(0)
2020年2月28日
累加器与广播变量
摘要: 概述 spark中的三大数据类型: RDD:分布式数据集 累加器:分布式只写变量,可以支持多个分区同时向该RDD写入数据,并将数据返回 广播变量:分布式只读变量 累加器 示例程序如下:系统通过引用一个外部的自由变量sum,将多个分区的数据累加到sum上。 def main(args: Array[S
阅读全文
posted @ 2020-02-28 09:50 盛夏群岛
阅读(425)
评论(0)
推荐(0)
2020年2月27日
RDD(十)——案例实操
摘要: 需求: 数据结构:时间戳,省份,城市,用户,广告,中间字段使用空格分割。 样本如下: 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 思路分析如下: 第一步:过滤无关的数据字段,只留下省份,广告第二步:省
阅读全文
posted @ 2020-02-27 15:07 盛夏群岛
阅读(300)
评论(0)
推荐(0)
JdbcRDD连接MySQL
摘要: (1)添加依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</version> </dependency
阅读全文
posted @ 2020-02-27 13:07 盛夏群岛
阅读(548)
评论(0)
推荐(0)
RDD(九)——序列化问题
摘要: 在实际开发中我们往往需要自己定义一些对于RDD的操作,那么此时需要考虑的主要问题是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。 传递一个方法 import org.apache.spark.rdd.RDD class Se
阅读全文
posted @ 2020-02-27 13:05 盛夏群岛
阅读(598)
评论(0)
推荐(0)
RDD(五)——action
摘要: reduce(func) 通过func函数聚集RDD中的所有元素并得到最终的结果,先聚合分区内数据,再聚合分区间数据。Func函数决定了聚合的方式。 def main(args: Array[String]): Unit = { val sc: SparkContext = new SparkCon
阅读全文
posted @ 2020-02-27 11:43 盛夏群岛
阅读(236)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
下一页
公告