dairui130

导航

05 2019 档案

hive引擎的选择:tez和spark
摘要:背景 mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。 选择 tez 使用有向无环图。内存式计算。 spark 可以同时作为批式和流式的处理引擎,减少学习成本。 问题&&不便 tez: 在hive sql中使用了union 或 join操作 tez会将任务切分,每个小任务,创 阅读全文

posted @ 2019-05-30 12:10 dairui130 阅读(2888) 评论(0) 推荐(0)

解决ideal使用maven打包OutOfMemory
摘要:https://blog.csdn.net/zhongzunfa/article/details/82229948 阅读全文

posted @ 2019-05-09 16:58 dairui130 阅读(440) 评论(0) 推荐(0)

元数据 概念及分类
摘要:转自https://mp.weixin.qq.com/s/efh5JRmPfYmBTG5x8b30lA 1.物理元数据 描述物理资源的元数据,包括但不限于服务器、操作系统、机房位置等信息。 2.数据源元数据 描述数据源的元数据,通常包括四类信息: 数据源地址(IP、PORT等) 物理拓扑(主备、角色 阅读全文

posted @ 2019-05-09 14:11 dairui130 阅读(7516) 评论(0) 推荐(0)

hive on mr 参数设置
摘要:set mapreduce.map.memory.mb = 4096; set mapreduce.reduce.memory.mb = 4096; 阅读全文

posted @ 2019-05-09 11:58 dairui130 阅读(432) 评论(0) 推荐(0)

hive on spark 常用配置
摘要:常用设置 任务占用资源计算 cores : 核心数executor.memory :单个excutor分配内存executor.instances=10:executor个数任务占用总核心数:2 * 10 + 1 = 21 1是driver占用的核数占用总内存:2 * 4 * 10 = 40 阅读全文

posted @ 2019-05-09 11:17 dairui130 阅读(3291) 评论(0) 推荐(0)

查看某个进程的错误日志 ps axu 结合 grep -i
摘要:某台机器的flume报错,想要快速看到报错的内容,可以结合ps axu 和grep -i来实现。 阅读全文

posted @ 2019-05-08 14:09 dairui130 阅读(650) 评论(0) 推荐(0)

python 遍历一个数组
摘要:结果是 1 2 3 4 5 注意 阅读全文

posted @ 2019-05-08 11:21 dairui130 阅读(308) 评论(0) 推荐(0)

python 执行shell命令
摘要:这里用 '%s' %(shell)会报错 阅读全文

posted @ 2019-05-08 10:48 dairui130 阅读(319) 评论(0) 推荐(0)

shell 命令 tar -zxvf 解压 tar -zcvf 压缩
摘要:tar -zxvf 解压 tar -zcvf 压缩 阅读全文

posted @ 2019-05-06 20:47 dairui130 阅读(2862) 评论(0) 推荐(0)

一点随想
摘要:今天是5月5日。五一节后的第一天。 4月30号那天,我领了结婚证,和相伴4年的女朋友走到了一起。 我们一直有出国的想法,一是想多走多看,二是女票的专业是翻译,该用在真正的英语环境中。 领证之后,心态有了很大不同,看着公司里刚工作不久的小伙子,仿佛能看到几年前的自己。 没有什么压力,上班的时候就等着下 阅读全文

posted @ 2019-05-05 13:48 dairui130 阅读(143) 评论(0) 推荐(0)

hive on spark 释放session资源
摘要:背景 启动hive时,可以看到2.0以后的版本,将要弃用mr引擎,官方建议使用spark,tez等引擎。 spark同时支持批式流式处理,可以减少学习成本。所以选用了spark作为执行引擎。 hive on spark 参数优化 使用hive on spark 默认只用2个container。任务处 阅读全文

posted @ 2019-05-05 13:34 dairui130 阅读(1519) 评论(0) 推荐(0)