会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
hyunbar
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
9
10
11
12
13
14
15
16
17
···
22
下一页
2019年12月17日
Spark-Core RDD中函数(变量)传递
摘要: 我们进行 Spark 进行编程的时候, 初始化工作是在driver端完成的 ,而 实际的运行程序是在executor端进行 ,所以就涉及到了进程间的通讯,数据是需要序列化的 1、传递函数 说明: (1)直接运行程序会报错: 。因为 用到了 ,所以对象 this需要序列化 , 才能把对象从driver
阅读全文
posted @ 2019-12-17 12:44 hyunbar
阅读(557)
评论(0)
推荐(0)
2019年12月16日
Spark-Core RDD行动算子
摘要: 1、reduce(func) 通过func函数聚集RDD 中的所有元素, 先聚合分区内数据,再聚合分区间数据。 2、collect 以 的形式返回 RDD 中的所有元素. 所以要慎用 3、count 返回 RDD 中元素的个数. 4、take(n) 返回 RDD 中 组成的 . take 的数据也会
阅读全文
posted @ 2019-12-16 12:27 hyunbar
阅读(317)
评论(0)
推荐(0)
2019年12月15日
Spark-Core RDD转换算子-kv型
摘要: 大多数的 Spark 操作可以用在任意类型的 RDD 上, 但是有一些比较特殊的操作只能用在key value类型的 RDD 上. 这些特殊操作大多都涉及到 shuffle 操作, 比如: 按照 key 分组(group), 聚集(aggregate)等. 在 Spark 中, 这些操作在包含 的
阅读全文
posted @ 2019-12-15 21:36 hyunbar
阅读(696)
评论(0)
推荐(0)
Spark-Core RDD转换算子-双Value型交互
摘要: 1、union(otherDataSet) 作用 : . 对源 RDD 和参数 RDD 求并集后返回一个新的 RDD 2、subtract(otherDataSet) 作用: 从原 RDD 中减去 原 RDD 和otherDataset 中的共同的部分. 3、intersection(otherDa
阅读全文
posted @ 2019-12-15 19:45 hyunbar
阅读(223)
评论(0)
推荐(0)
Spark-Core RDD转换算子-Value型
摘要: 1、 map(func) 作用 : 返回一个新的 RDD, 该 RDD 是由原 RDD 的每个元素经过函数转换后的值而组成. 就是对 RDD 中的数据做转换. 创建一个包含1 10的的 RDD,然后将每个元素 2形成新的 RDD 2、mapPartitions(func) 作用 : 类似于map(f
阅读全文
posted @ 2019-12-15 19:28 hyunbar
阅读(396)
评论(0)
推荐(0)
2019年12月13日
Spark-Core RDD的创建
摘要: 一、RDD创建的3种方式: 1、从集合中创建RDD 2、从外部存储创建RDD 3、从其他RDD转换得到新的RDD 二、从集合中创建RDD 1、使用parallelize函数创建 1 scala> val arr = Array(10,20,30,40,50,60) 2 arr: Array[Int]
阅读全文
posted @ 2019-12-13 09:56 hyunbar
阅读(293)
评论(0)
推荐(0)
2019年12月10日
Spark-Core RDD概述
摘要: 一、什么是RDD 1、RDD(Resilient Distributed DataSet)弹性分布式数据集 2、是Spark中最基本的数据抽象 3、在代码中是一个抽象类,它代表一个弹性的、不可变的、可分区,里面的元素可并行计算的集合 二、RDD的5个主要属性(property) 1、A list o
阅读全文
posted @ 2019-12-10 21:13 hyunbar
阅读(437)
评论(0)
推荐(0)
2019年11月18日
数仓理论
摘要: 一、表的分类 1、实体表 实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。 2、维度表 维度表,一般是指对应一些业务状态,编号的解释表。也可以称之为码表。 比如地区表,订单状态,支付方式,审批状态,商品分类等等。 3、事务型事实表 事务型事实表,一般指随着业务发生不断产生的
阅读全文
posted @ 2019-11-18 19:10 hyunbar
阅读(662)
评论(0)
推荐(0)
2019年11月7日
flume 进阶
摘要: 一、flume事务 put事务流程: 1、doPut:将批量数据先写入临时缓冲区putList 2、doCommit:检查Channel内存队列是否足够, (1)达到一定时间没有数据写入到putList (2)达到了putListCapcity容量 3、doRollback:Channel内存队列空
阅读全文
posted @ 2019-11-07 15:58 hyunbar
阅读(213)
评论(1)
推荐(0)
2019年10月28日
Yarn 工作机制
摘要: 1、工作机制详述 (1)MR程序提交到客户端所在的节点。 (2)YarnRunner向ResourceManager申请一个Application。 (3)RM将该应用程序的资源路径返回给YarnRunner。 (4)该程序将运行所需资源提交到HDFS上。 (5)程序资源提交完毕后,申请运行mrAp
阅读全文
posted @ 2019-10-28 18:26 hyunbar
阅读(760)
评论(0)
推荐(0)
上一页
1
···
9
10
11
12
13
14
15
16
17
···
22
下一页
公告