随笔档案「2019年5月」 - dairui130

hive引擎的选择：tez和spark

摘要：背景 mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。选择 tez 使用有向无环图。内存式计算。 spark 可以同时作为批式和流式的处理引擎，减少学习成本。问题&&不便 tez：在hive sql中使用了union 或 join操作 tez会将任务切分,每个小任务，创阅读全文

posted @ 2019-05-30 12:10 dairui130 阅读(2911) 评论(0) 推荐(0)

解决ideal使用maven打包OutOfMemory

摘要：https://blog.csdn.net/zhongzunfa/article/details/82229948 阅读全文

posted @ 2019-05-09 16:58 dairui130 阅读(441) 评论(0) 推荐(0)

元数据概念及分类

摘要：转自https://mp.weixin.qq.com/s/efh5JRmPfYmBTG5x8b30lA 1.物理元数据描述物理资源的元数据，包括但不限于服务器、操作系统、机房位置等信息。 2.数据源元数据描述数据源的元数据，通常包括四类信息：数据源地址（IP、PORT等）物理拓扑（主备、角色阅读全文

posted @ 2019-05-09 14:11 dairui130 阅读(7533) 评论(0) 推荐(0)

hive on mr 参数设置

摘要：set mapreduce.map.memory.mb = 4096; set mapreduce.reduce.memory.mb = 4096; 阅读全文

posted @ 2019-05-09 11:58 dairui130 阅读(432) 评论(0) 推荐(0)

hive on spark 常用配置

摘要：常用设置任务占用资源计算 cores ：核心数executor.memory ：单个excutor分配内存executor.instances=10：executor个数任务占用总核心数：2 * 10 + 1 = 21 1是driver占用的核数占用总内存：2 * 4 * 10 = 40 阅读全文

posted @ 2019-05-09 11:17 dairui130 阅读(3299) 评论(0) 推荐(0)

查看某个进程的错误日志 ps axu 结合 grep -i

摘要：某台机器的flume报错，想要快速看到报错的内容，可以结合ps axu 和grep -i来实现。阅读全文

posted @ 2019-05-08 14:09 dairui130 阅读(654) 评论(0) 推荐(0)

python 遍历一个数组

摘要：结果是 1 2 3 4 5 注意阅读全文

posted @ 2019-05-08 11:21 dairui130 阅读(311) 评论(0) 推荐(0)

python 执行shell命令

摘要：这里用 '%s' %(shell)会报错阅读全文

posted @ 2019-05-08 10:48 dairui130 阅读(323) 评论(0) 推荐(0)

shell 命令 tar -zxvf 解压 tar -zcvf 压缩

摘要：tar -zxvf 解压 tar -zcvf 压缩阅读全文

posted @ 2019-05-06 20:47 dairui130 阅读(2865) 评论(0) 推荐(0)

一点随想

摘要：今天是5月5日。五一节后的第一天。 4月30号那天，我领了结婚证，和相伴4年的女朋友走到了一起。我们一直有出国的想法，一是想多走多看，二是女票的专业是翻译，该用在真正的英语环境中。领证之后，心态有了很大不同，看着公司里刚工作不久的小伙子，仿佛能看到几年前的自己。没有什么压力，上班的时候就等着下阅读全文

posted @ 2019-05-05 13:48 dairui130 阅读(144) 评论(0) 推荐(0)

hive on spark 释放session资源

摘要：背景启动hive时，可以看到2.0以后的版本，将要弃用mr引擎，官方建议使用spark，tez等引擎。 spark同时支持批式流式处理，可以减少学习成本。所以选用了spark作为执行引擎。 hive on spark 参数优化使用hive on spark 默认只用2个container。任务处阅读全文

posted @ 2019-05-05 13:34 dairui130 阅读(1528) 评论(0) 推荐(0)

dairui130

导航

公告

05 2019 档案