摘要: 原理介绍: 并行度:其实就是指的是,spark作业中,各个stage的task数量,也代表了spark作业做得各个阶段的stage的并行度 设置参数: spark.default.parallelism 官网推荐 此参数设置成cpu core数量的2~3倍,比如150个cpu core,分配了150 阅读全文
posted @ 2018-05-14 12:19 大漠无影 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 原理: spark作业sparkcontext、DAGDAGSchedler、taskSchulder、会将编写算子、切割成大量的task,会提交到application的excutor上执行如何资源设置cup core和excutor较少,就会造成能并行处理的task数量较少,从而就会增加task 阅读全文
posted @ 2018-05-14 12:04 大漠无影 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 1、代码结构 1)注释 单行注释:# 多行注释:""" """ """ a=11111 print(a) """ 2)基本数据类型 boolean: True 和False (python里边boolean类型的区分大小写) int: 整数类型 (python不区分short,long,int 统一 阅读全文
posted @ 2017-08-30 10:12 大漠无影 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 提交spark程序(apliaction) 会通过反射再本机上生成一个driveractor(提交方式是standalone)执行application程序首先构造出sparkconf然后构造出sparkcontextsparkcontext初始化的时候生出两个调度器DASGSchuleder和Ta 阅读全文
posted @ 2017-05-18 09:33 大漠无影 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 1/运行mr程序出错connecting to resoucemanager retrying .... retrying ..... 原因是没有启动yarn或者启动失败 2/初始化工作目录结构hdfs namenode -format 只是初始化了namenode的工作目录而datanode的工作 阅读全文
posted @ 2017-04-19 09:25 大漠无影 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 服务端 1.hbase.regionserver.handler.count:rpc请求的线程数量,默认值是10,生产环境建议使用100,也不是越大越好,特别是当请求内容很大的时候,比如scan/put几M的数据,会占用过多的内存,有可能导致频繁的GC,甚至出现内存溢出。 2.hbase.maste 阅读全文
posted @ 2017-04-18 16:10 大漠无影 阅读(565) 评论(1) 推荐(0) 编辑
摘要: 问题: 继续 输入root密码 输入命令 fsck /dev/sda2 fix :yes 允许修复: 一般两个磁盘错误 同样的修复就解决了! 阅读全文
posted @ 2016-11-16 22:46 大漠无影 阅读(323) 评论(0) 推荐(0) 编辑
摘要: crontab -e 编辑任务 ### first crontab */1 * * * * /bin/date >> /home/hadoop/app/log.txt crontab 基本定义 * * * * * +命令 1.六个字段之间使用逗号隔开 2.字段含义 * * * * * 分 (1-59 阅读全文
posted @ 2016-11-16 22:40 大漠无影 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 1、修改eth0(删除uuid,删除Harddr) 2、rm -rf /etc/udev/rules.d/70-persistent-net.rules 3、reboot 网络问题解决! 阅读全文
posted @ 2016-11-12 16:16 大漠无影 阅读(186) 评论(0) 推荐(0) 编辑