会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
QZhen
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
13
下一页
2020年4月24日
Spark:任务中如何确定spark分区数、task数目、core个数、worker节点个数、excutor数量
摘要: 先上图: 每一个过程的任务数,对应一个inputSplit1, Partition输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。 当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入
阅读全文
posted @ 2020-04-24 20:20 Q1Zhen
阅读(1426)
评论(1)
推荐(0)
2020年4月23日
RDD中WithScope
摘要: withScope是最近的发现版中新增加的一个模块,它是用来做DAG可视化的(DAG visualization on SparkUI) 以前的sparkUI中只有stage的执行情况,也就是说我们不可以看到上个RDD到下个RDD的具体信息。于是为了在 sparkUI中能展示更多的信息。所以把所有创
阅读全文
posted @ 2020-04-23 23:21 Q1Zhen
阅读(282)
评论(0)
推荐(0)
reduceByKey和groupByKey区别与用法
摘要: 在spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。 针对pair RDD这样的特殊形式,spark中定义了
阅读全文
posted @ 2020-04-23 21:05 Q1Zhen
阅读(415)
评论(0)
推荐(0)
EasyExcel
摘要: 喝水不忘挖井人,感谢阿里巴巴项目组提供了easyexcel工具类,github地址:https://github.com/alibaba/easyexcel 原文链接:https://blog.csdn.net/qq_32258777/article/details/89031479 文章目录环境搭
阅读全文
posted @ 2020-04-23 18:53 Q1Zhen
阅读(251)
评论(0)
推荐(0)
2020年4月22日
在idea中运行spark时出现NativeCrc32.nativeComputeChunkedSumsByteArray错误
摘要: ==java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray== 解决步骤: 1.到spark官网查询spark与hadoop版本的兼容信息 2.下载对应版
阅读全文
posted @ 2020-04-22 23:18 Q1Zhen
阅读(542)
评论(0)
推荐(0)
RDD常见函数
摘要: 原文链接:[https://blog.csdn.net/qq_35885488/article/details/102745211] 相关链接:[https://www.cnblogs.com/StitchSun/p/10656246.html] RDD提供了两种类型的操作:transformati
阅读全文
posted @ 2020-04-22 17:08 Q1Zhen
阅读(454)
评论(0)
推荐(0)
RDD
摘要: 什么是RDD(Resilient Distributed Dataset) ==RDD==叫作弹性分布式数据集合,是spark中最基本的数据(计算、逻辑)抽象,在代码中它是一个抽象类,代表一个不可变、可分区、里面的元素的可并行计算的集合。 RDD属性 1.一组分区,即数据集的基本组成单位 2.一个计
阅读全文
posted @ 2020-04-22 00:55 Q1Zhen
阅读(338)
评论(0)
推荐(0)
2020年4月21日
Standalone部署入门
摘要: Standalone 构建一个由==Master+Slave==构成的Spark集群。 安装使用 1.进入spark安装目录的conf文件夹 2.修改spark env.sh,默认是只有spark env.sh.template文件,将其重命名或者拷贝重命名 3.修改slave文件,添加worker
阅读全文
posted @ 2020-04-21 18:22 Q1Zhen
阅读(141)
评论(0)
推荐(0)
Spark Yarn部署入门
摘要: Yarn模式 Spark客户端直接连接Yarn,不需要额外构建Spark集群。有$\color{red}{Yarn client}$和$\color{red}{Yarn cluster}$两种模式。主要区别在于Driver程序的运行节点。 1.yarn client:Driver程序运行在客户端,适
阅读全文
posted @ 2020-04-21 16:53 Q1Zhen
阅读(314)
评论(0)
推荐(0)
2020年4月19日
java8新特新
摘要: 一、接口的默认方法 Java 8允许我们给接口添加一个非抽象的方法实现,只需要使用 default关键字即可,这个特征又叫做扩展方法,示例如下: interface Formula { double calculate(int a); default double sqrt(int a) { ret
阅读全文
posted @ 2020-04-19 21:47 Q1Zhen
阅读(289)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
13
下一页
公告