会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大葱拌豆腐
专注于Spark、Flink、Kafka、HBase、大数据、机器学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
9
10
11
12
13
14
15
16
17
···
45
下一页
2018年11月29日
spark.yarn.jar和spark.yarn.archive的使用
摘要: 启动Spark任务时,在没有配置spark.yarn.archive或者spark.yarn.jars时, 会看到不停地上传jar非常耗时;使用spark.yarn.archive可以大大地减少任务的启动时间,整个处理过程如下 1.在本地创建zip文件 2.上传至HDFS并更改权限 3.配置spar
阅读全文
posted @ 2018-11-29 22:39 大葱拌豆腐
阅读(1780)
评论(0)
推荐(0)
2018年11月25日
利用SparkLauncher 类以JAVA API 编程的方式提交Spark job
摘要: 一.环境说明和使用软件的版本说明: hadoop-version:hadoop-2.9.0.tar.gz spark-version:spark-2.2.0-bin-hadoop2.7.tgz java-version:jdk1.8.0_151 集群环境:单机伪分布式环境。 二.适用背景 在学习Sp
阅读全文
posted @ 2018-11-25 16:08 大葱拌豆腐
阅读(1793)
评论(0)
推荐(1)
2018年11月21日
spark提交任务的三种的方法
摘要: 在学习Spark过程中,资料中介绍的提交Spark Job的方式主要有三种: 第一种: 通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交,官网和大多数参考资料都是已这种方式提交的,提交命令示例如下:./spark-submit --class com.learn.s
阅读全文
posted @ 2018-11-21 23:38 大葱拌豆腐
阅读(8026)
评论(0)
推荐(0)
yarn client中的一个BUG的修复
摘要: org.apache.spark.deploy.yarn.Client.scala中的monitorApplication方法: 其中: yarn state为finished的时候的状态细分不够明确,将原来的 reportLauncherState(SparkAppHandle.State.FAI
阅读全文
posted @ 2018-11-21 23:30 大葱拌豆腐
阅读(911)
评论(0)
推荐(0)
2018年11月18日
Hive metastore表结构设计分析
摘要: 今天总结下,Hive metastore的结构设计。什么是metadata呢,对于它的描述,可以理解为数据的数据,主要是描述数据的属性的信息。它是用来支持如存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录。为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数
阅读全文
posted @ 2018-11-18 16:27 大葱拌豆腐
阅读(591)
评论(0)
推荐(0)
Hbase预分区种子生成
摘要: 提前生成Hbase预分区种子,在创建Hbase表时也进行相应的预分区,同时设置预分区的个数,预分区的范围对应Hbase监控页面的Region Server的start key与End key,从而使数据能够均匀的分布于各个Region中。
阅读全文
posted @ 2018-11-18 11:30 大葱拌豆腐
阅读(280)
评论(0)
推荐(0)
2018年11月15日
Spark资源调度
摘要: 一:任务调度和资源调度的区别: 任务调度是指通过DAGScheduler,TaskScheduler,SchedulerBackend完成的job的调度 资源调度是指应用程序获取资源的调度,他是通过schedule方法完成的 二:资源调度解密 因为master负责资源管理和调度,所以资源调度的方法s
阅读全文
posted @ 2018-11-15 23:26 大葱拌豆腐
阅读(410)
评论(0)
推荐(0)
Spark Worker启动Driver和Executor工作流程
摘要: 二:Spark Worker启动Driver源码解析 补充说明:如果Cluster上的driver启动失败或者崩溃的时候,如果driverDescription的supervise设置的为true的时候,会自动重启,由worker负责它的重新启动。 DriverRunner对象 DriverRunn
阅读全文
posted @ 2018-11-15 23:04 大葱拌豆腐
阅读(2605)
评论(0)
推荐(0)
获取spark-submit --files的文件内容
摘要: 参考https://community.hortonworks.com/questions/9265/how-can-i-add-configuration-files-to-a-spark-job-r.html 我的总结(以--files README.md为例):方法1:按照上面所说,--fil
阅读全文
posted @ 2018-11-15 12:41 大葱拌豆腐
阅读(7789)
评论(0)
推荐(1)
JVM虚拟机选项:Xms Xmx PermSize MaxPermSize区别(转)
摘要: java虽然是自动回收内存,但是应用程序,尤其服务器程序最好根据业务情况指明内存分配限制。否则可能导致应用程序宕掉。举例说明含义:-Xms128m表示JVM Heap(堆内存)最小尺寸128MB,初始分配-Xmx512m表示JVM Heap(堆内存)最大允许的尺寸256MB,按需分配。说明:如果-X
阅读全文
posted @ 2018-11-15 11:43 大葱拌豆腐
阅读(661)
评论(0)
推荐(1)
上一页
1
···
9
10
11
12
13
14
15
16
17
···
45
下一页
公告