摘要:转自https://mp.weixin.qq.com/s/efh5JRmPfYmBTG5x8b30lA 1.物理元数据 描述物理资源的元数据,包括但不限于服务器、操作系统、机房位置等信息。 2.数据源元数据 描述数据源的元数据,通常包括四类信息: 数据源地址(IP、PORT等) 物理拓扑(主备、角色
阅读全文
摘要:set mapreduce.map.memory.mb = 4096; set mapreduce.reduce.memory.mb = 4096;
阅读全文
摘要:常用设置 任务占用资源计算 cores : 核心数executor.memory :单个excutor分配内存executor.instances=10:executor个数任务占用总核心数:2 * 10 + 1 = 21 1是driver占用的核数占用总内存:2 * 4 * 10 = 40
阅读全文
摘要:背景 启动hive时,可以看到2.0以后的版本,将要弃用mr引擎,官方建议使用spark,tez等引擎。 spark同时支持批式流式处理,可以减少学习成本。所以选用了spark作为执行引擎。 hive on spark 参数优化 使用hive on spark 默认只用2个container。任务处
阅读全文
摘要:首先用desc function,查看hive给出的函数解释 如果为空,则返回default值。 结果是0. 类似用法的函数还有:
阅读全文
摘要:code reviewer之后,需要把dev分支的代码merge到master分支。通过在azkaban的服务器上git pull,最终将代码上线。 git dev 分支merge到master 打上版本标签 将master分支合并到dev
阅读全文
摘要:azkban实现任务重跑 我们执行sql的方式是将hql文件上传到服务器本地。然后执行shell命令 注:hive -e 是执行依据短sql,hive -f是执行hql文件 test_scheduler.hql的内容是需要执行的sql语句,参数的写法如下图: azkaban 传入参数 1.配置job
阅读全文
摘要:set hive.merge.mapfiles=true; set hive.merge.mapredfiles=true; set hive.merge.size.per.task=100000000; set mapred.task.timeout=60000000; set hive.exec.compress.intermediate=true; set hive.exec.parall...
阅读全文
摘要:current_date() 获取当天时间 结果是 实际操作中,这种写法只能获取日期是今天的数据,不适合数据重跑。 更合适的写法是 ,将日期作为外部参数传入:
阅读全文
摘要:https://blog.csdn.net/chinabestchina/article/details/72799826
阅读全文
摘要:电商数据仓库术语 这篇随笔,我想写写在电商数仓建设中遇到的术语。 可能不是规范,各个公司定义有所不同,但是是比较通用的说法。 口径 就是统一的定义。比如成交的口径就是成交的定义。虽然看似多余,但是涉及运营指标的统计时,口径至关重要。 所以一家公司内,对于某个业务,一定要有统一的口径。 流水 流水一般
阅读全文
摘要:话不多说,直接上代码 部署时遇到一个问题: 解决方法是: 原因是某些包没有关联上,装包时,加上[hive]后缀
阅读全文
摘要:https://www.cnblogs.com/zxbzl/p/5853035.html
阅读全文
摘要:开发项目CI(持续化部署)的时候,需要赋予jeckins所在的机器从gitlab远程仓库克隆代码到本地的权限。 之前我们基本都是通过管理gitlab某个项目的成员的方式,管理gitlab的权限。 但是gitlab还支持另一种方式,赋予git clone的权限,就是配置Deploy key。 Depl
阅读全文
摘要:数据etl工具,主要用做数据采集和清洗 待续。。。
阅读全文
摘要:传统的开发方式是:需求方提供文档,实现方按照文档一步步开发,中间很少变动和修改。 但是随着市场的变化,产品更新迭代的加快,也要求开放方更快的响应变化,用最短的时间开发,部署上线。 这样,持续集成(CI coutinuous integration),持续部署(continuous delivery)
阅读全文
摘要:我们在之前的文章中,介绍了二级分区,混合分区,静态分区,动态分区的区别和建表。 今天我们聊下,当我们建好分区表。并且通过程序在表的分区目录(location)下,写入了文件。 如何在hive中查询到插入的分区数据。 假如我们直接查表,会发现因为没有在表的元数据中加入新增的分区信息,导致查不到数据。
阅读全文
摘要:有时,我们需要对比两张表的数据,找到在其中一张表,不在另一张表中的数据 hql 如下:
阅读全文