dairui130

导航

随笔分类 -  数据仓库

1 2 下一页

元数据 概念及分类
摘要:转自https://mp.weixin.qq.com/s/efh5JRmPfYmBTG5x8b30lA 1.物理元数据 描述物理资源的元数据,包括但不限于服务器、操作系统、机房位置等信息。 2.数据源元数据 描述数据源的元数据,通常包括四类信息: 数据源地址(IP、PORT等) 物理拓扑(主备、角色 阅读全文

posted @ 2019-05-09 14:11 dairui130 阅读(7516) 评论(0) 推荐(0)

hive on mr 参数设置
摘要:set mapreduce.map.memory.mb = 4096; set mapreduce.reduce.memory.mb = 4096; 阅读全文

posted @ 2019-05-09 11:58 dairui130 阅读(432) 评论(0) 推荐(0)

hive on spark 常用配置
摘要:常用设置 任务占用资源计算 cores : 核心数executor.memory :单个excutor分配内存executor.instances=10:executor个数任务占用总核心数:2 * 10 + 1 = 21 1是driver占用的核数占用总内存:2 * 4 * 10 = 40 阅读全文

posted @ 2019-05-09 11:17 dairui130 阅读(3291) 评论(0) 推荐(0)

hive on spark 释放session资源
摘要:背景 启动hive时,可以看到2.0以后的版本,将要弃用mr引擎,官方建议使用spark,tez等引擎。 spark同时支持批式流式处理,可以减少学习成本。所以选用了spark作为执行引擎。 hive on spark 参数优化 使用hive on spark 默认只用2个container。任务处 阅读全文

posted @ 2019-05-05 13:34 dairui130 阅读(1519) 评论(0) 推荐(0)

hive 函数 nvl()
摘要:首先用desc function,查看hive给出的函数解释 如果为空,则返回default值。 结果是0. 类似用法的函数还有: 阅读全文

posted @ 2019-04-21 17:31 dairui130 阅读(7568) 评论(0) 推荐(0)

git dev 分支merge到master
摘要:code reviewer之后,需要把dev分支的代码merge到master分支。通过在azkaban的服务器上git pull,最终将代码上线。 git dev 分支merge到master 打上版本标签 将master分支合并到dev 阅读全文

posted @ 2019-04-14 17:25 dairui130 阅读(6749) 评论(0) 推荐(0)

hive 命令行传入参数
摘要:azkban实现任务重跑 我们执行sql的方式是将hql文件上传到服务器本地。然后执行shell命令 注:hive -e 是执行依据短sql,hive -f是执行hql文件 test_scheduler.hql的内容是需要执行的sql语句,参数的写法如下图: azkaban 传入参数 1.配置job 阅读全文

posted @ 2019-04-09 23:49 dairui130 阅读(1647) 评论(0) 推荐(0)

emr hadoop 参数调优
摘要:set hive.merge.mapfiles=true; set hive.merge.mapredfiles=true; set hive.merge.size.per.task=100000000; set mapred.task.timeout=60000000; set hive.exec.compress.intermediate=true; set hive.exec.parall... 阅读全文

posted @ 2019-04-09 21:47 dairui130 阅读(325) 评论(0) 推荐(0)

hive 语法 case when 语法
摘要:注意: end不能少 阅读全文

posted @ 2019-04-09 17:36 dairui130 阅读(4261) 评论(0) 推荐(0)

er图
摘要:实体是长方形,属性是椭圆形,关系为菱形。 阅读全文

posted @ 2019-04-09 13:35 dairui130 阅读(255) 评论(0) 推荐(0)

hive 函数 current_date()
摘要:current_date() 获取当天时间 结果是 实际操作中,这种写法只能获取日期是今天的数据,不适合数据重跑。 更合适的写法是 ,将日期作为外部参数传入: 阅读全文

posted @ 2019-04-08 13:25 dairui130 阅读(11627) 评论(0) 推荐(0)

mysql 函数 round
摘要:https://blog.csdn.net/chinabestchina/article/details/72799826 阅读全文

posted @ 2019-04-04 14:42 dairui130 阅读(166) 评论(0) 推荐(0)

数仓术语
摘要:电商数据仓库术语 这篇随笔,我想写写在电商数仓建设中遇到的术语。 可能不是规范,各个公司定义有所不同,但是是比较通用的说法。 口径 就是统一的定义。比如成交的口径就是成交的定义。虽然看似多余,但是涉及运营指标的统计时,口径至关重要。 所以一家公司内,对于某个业务,一定要有统一的口径。 流水 流水一般 阅读全文

posted @ 2019-04-01 20:52 dairui130 阅读(850) 评论(0) 推荐(0)

python 读取hive数据
摘要:话不多说,直接上代码 部署时遇到一个问题: 解决方法是: 原因是某些包没有关联上,装包时,加上[hive]后缀 阅读全文

posted @ 2019-03-31 16:44 dairui130 阅读(7950) 评论(1) 推荐(0)

kettle学习
摘要:https://www.cnblogs.com/zxbzl/p/5853035.html 阅读全文

posted @ 2019-03-26 15:20 dairui130 阅读(86) 评论(0) 推荐(0)

Gitlab 赋予某台机器git clone的权限 Deploy key
摘要:开发项目CI(持续化部署)的时候,需要赋予jeckins所在的机器从gitlab远程仓库克隆代码到本地的权限。 之前我们基本都是通过管理gitlab某个项目的成员的方式,管理gitlab的权限。 但是gitlab还支持另一种方式,赋予git clone的权限,就是配置Deploy key。 Depl 阅读全文

posted @ 2019-03-25 16:16 dairui130 阅读(4174) 评论(0) 推荐(0)

kettle学习
摘要:数据etl工具,主要用做数据采集和清洗 待续。。。 阅读全文

posted @ 2019-03-21 14:55 dairui130 阅读(117) 评论(0) 推荐(0)

CI、CD和dev-ops概念
摘要:传统的开发方式是:需求方提供文档,实现方按照文档一步步开发,中间很少变动和修改。 但是随着市场的变化,产品更新迭代的加快,也要求开放方更快的响应变化,用最短的时间开发,部署上线。 这样,持续集成(CI coutinuous integration),持续部署(continuous delivery) 阅读全文

posted @ 2019-03-21 13:40 dairui130 阅读(953) 评论(0) 推荐(0)

hive 修复分区、添加二级分区
摘要:我们在之前的文章中,介绍了二级分区,混合分区,静态分区,动态分区的区别和建表。 今天我们聊下,当我们建好分区表。并且通过程序在表的分区目录(location)下,写入了文件。 如何在hive中查询到插入的分区数据。 假如我们直接查表,会发现因为没有在表的元数据中加入新增的分区信息,导致查不到数据。 阅读全文

posted @ 2019-03-19 20:44 dairui130 阅读(2884) 评论(0) 推荐(0)

hive sql 查询一张表的数据不在另一张表中
摘要:有时,我们需要对比两张表的数据,找到在其中一张表,不在另一张表中的数据 hql 如下: 阅读全文

posted @ 2019-03-18 15:26 dairui130 阅读(6501) 评论(0) 推荐(0)

1 2 下一页