摘要:背景 mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。 选择 tez 使用有向无环图。内存式计算。 spark 可以同时作为批式和流式的处理引擎,减少学习成本。 问题&&不便 tez: 在hive sql中使用了union 或 join操作 tez会将任务切分,每个小任务,创
阅读全文
摘要:https://blog.csdn.net/zhongzunfa/article/details/82229948
阅读全文
摘要:转自https://mp.weixin.qq.com/s/efh5JRmPfYmBTG5x8b30lA 1.物理元数据 描述物理资源的元数据,包括但不限于服务器、操作系统、机房位置等信息。 2.数据源元数据 描述数据源的元数据,通常包括四类信息: 数据源地址(IP、PORT等) 物理拓扑(主备、角色
阅读全文
摘要:set mapreduce.map.memory.mb = 4096; set mapreduce.reduce.memory.mb = 4096;
阅读全文
摘要:常用设置 任务占用资源计算 cores : 核心数executor.memory :单个excutor分配内存executor.instances=10:executor个数任务占用总核心数:2 * 10 + 1 = 21 1是driver占用的核数占用总内存:2 * 4 * 10 = 40
阅读全文
摘要:某台机器的flume报错,想要快速看到报错的内容,可以结合ps axu 和grep -i来实现。
阅读全文
摘要:tar -zxvf 解压 tar -zcvf 压缩
阅读全文
摘要:今天是5月5日。五一节后的第一天。 4月30号那天,我领了结婚证,和相伴4年的女朋友走到了一起。 我们一直有出国的想法,一是想多走多看,二是女票的专业是翻译,该用在真正的英语环境中。 领证之后,心态有了很大不同,看着公司里刚工作不久的小伙子,仿佛能看到几年前的自己。 没有什么压力,上班的时候就等着下
阅读全文
摘要:背景 启动hive时,可以看到2.0以后的版本,将要弃用mr引擎,官方建议使用spark,tez等引擎。 spark同时支持批式流式处理,可以减少学习成本。所以选用了spark作为执行引擎。 hive on spark 参数优化 使用hive on spark 默认只用2个container。任务处
阅读全文