dairui130

导航

2019年5月30日 #

hive引擎的选择:tez和spark

摘要: 背景 mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。 选择 tez 使用有向无环图。内存式计算。 spark 可以同时作为批式和流式的处理引擎,减少学习成本。 问题&&不便 tez: 在hive sql中使用了union 或 join操作 tez会将任务切分,每个小任务,创 阅读全文

posted @ 2019-05-30 12:10 dairui130 阅读(2742) 评论(0) 推荐(0) 编辑

2019年5月9日 #

解决ideal使用maven打包OutOfMemory

摘要: https://blog.csdn.net/zhongzunfa/article/details/82229948 阅读全文

posted @ 2019-05-09 16:58 dairui130 阅读(419) 评论(0) 推荐(0) 编辑

元数据 概念及分类

摘要: 转自https://mp.weixin.qq.com/s/efh5JRmPfYmBTG5x8b30lA 1.物理元数据 描述物理资源的元数据,包括但不限于服务器、操作系统、机房位置等信息。 2.数据源元数据 描述数据源的元数据,通常包括四类信息: 数据源地址(IP、PORT等) 物理拓扑(主备、角色 阅读全文

posted @ 2019-05-09 14:11 dairui130 阅读(7172) 评论(0) 推荐(0) 编辑

hive on mr 参数设置

摘要: set mapreduce.map.memory.mb = 4096; set mapreduce.reduce.memory.mb = 4096; 阅读全文

posted @ 2019-05-09 11:58 dairui130 阅读(408) 评论(0) 推荐(0) 编辑

hive on spark 常用配置

摘要: 常用设置 任务占用资源计算 cores : 核心数executor.memory :单个excutor分配内存executor.instances=10:executor个数任务占用总核心数:2 * 10 + 1 = 21 1是driver占用的核数占用总内存:2 * 4 * 10 = 40 阅读全文

posted @ 2019-05-09 11:17 dairui130 阅读(3254) 评论(0) 推荐(0) 编辑

2019年5月8日 #

查看某个进程的错误日志 ps axu 结合 grep -i

摘要: 某台机器的flume报错,想要快速看到报错的内容,可以结合ps axu 和grep -i来实现。 阅读全文

posted @ 2019-05-08 14:09 dairui130 阅读(611) 评论(0) 推荐(0) 编辑

python 遍历一个数组

摘要: 结果是 1 2 3 4 5 注意 阅读全文

posted @ 2019-05-08 11:21 dairui130 阅读(294) 评论(0) 推荐(0) 编辑

python 执行shell命令

摘要: 这里用 '%s' %(shell)会报错 阅读全文

posted @ 2019-05-08 10:48 dairui130 阅读(304) 评论(0) 推荐(0) 编辑

2019年5月6日 #

shell 命令 tar -zxvf 解压 tar -zcvf 压缩

摘要: tar -zxvf 解压 tar -zcvf 压缩 阅读全文

posted @ 2019-05-06 20:47 dairui130 阅读(2774) 评论(0) 推荐(0) 编辑

2019年5月5日 #

一点随想

摘要: 今天是5月5日。五一节后的第一天。 4月30号那天,我领了结婚证,和相伴4年的女朋友走到了一起。 我们一直有出国的想法,一是想多走多看,二是女票的专业是翻译,该用在真正的英语环境中。 领证之后,心态有了很大不同,看着公司里刚工作不久的小伙子,仿佛能看到几年前的自己。 没有什么压力,上班的时候就等着下 阅读全文

posted @ 2019-05-05 13:48 dairui130 阅读(131) 评论(0) 推荐(0) 编辑