数据仓库 - 随笔分类 - dairui130

元数据概念及分类

摘要：转自https://mp.weixin.qq.com/s/efh5JRmPfYmBTG5x8b30lA 1.物理元数据描述物理资源的元数据，包括但不限于服务器、操作系统、机房位置等信息。 2.数据源元数据描述数据源的元数据，通常包括四类信息：数据源地址（IP、PORT等）物理拓扑（主备、角色阅读全文

posted @ 2019-05-09 14:11 dairui130 阅读(7564) 评论(0) 推荐(0)

hive on mr 参数设置

摘要：set mapreduce.map.memory.mb = 4096; set mapreduce.reduce.memory.mb = 4096; 阅读全文

posted @ 2019-05-09 11:58 dairui130 阅读(439) 评论(0) 推荐(0)

hive on spark 常用配置

摘要：常用设置任务占用资源计算 cores ：核心数executor.memory ：单个excutor分配内存executor.instances=10：executor个数任务占用总核心数：2 * 10 + 1 = 21 1是driver占用的核数占用总内存：2 * 4 * 10 = 40 阅读全文

posted @ 2019-05-09 11:17 dairui130 阅读(3307) 评论(0) 推荐(0)

hive on spark 释放session资源

摘要：背景启动hive时，可以看到2.0以后的版本，将要弃用mr引擎，官方建议使用spark，tez等引擎。 spark同时支持批式流式处理，可以减少学习成本。所以选用了spark作为执行引擎。 hive on spark 参数优化使用hive on spark 默认只用2个container。任务处阅读全文

posted @ 2019-05-05 13:34 dairui130 阅读(1536) 评论(0) 推荐(0)

hive 函数 nvl()

摘要：首先用desc function，查看hive给出的函数解释如果为空，则返回default值。结果是0. 类似用法的函数还有：阅读全文

posted @ 2019-04-21 17:31 dairui130 阅读(7592) 评论(0) 推荐(0)

git dev 分支merge到master

摘要：code reviewer之后，需要把dev分支的代码merge到master分支。通过在azkaban的服务器上git pull，最终将代码上线。 git dev 分支merge到master 打上版本标签将master分支合并到dev 阅读全文

posted @ 2019-04-14 17:25 dairui130 阅读(6760) 评论(0) 推荐(0)

hive 命令行传入参数

摘要：azkban实现任务重跑我们执行sql的方式是将hql文件上传到服务器本地。然后执行shell命令注：hive -e 是执行依据短sql，hive -f是执行hql文件 test_scheduler.hql的内容是需要执行的sql语句，参数的写法如下图： azkaban 传入参数 1.配置job 阅读全文

posted @ 2019-04-09 23:49 dairui130 阅读(1660) 评论(0) 推荐(0)

摘要：set hive.merge.mapfiles=true; set hive.merge.mapredfiles=true; set hive.merge.size.per.task=100000000; set mapred.task.timeout=60000000; set hive.exec.compress.intermediate=true; set hive.exec.parall... 阅读全文

posted @ 2019-04-09 21:47 dairui130 阅读(332) 评论(0) 推荐(0)

hive 语法 case when 语法

摘要：注意： end不能少阅读全文

posted @ 2019-04-09 17:36 dairui130 阅读(4270) 评论(0) 推荐(0)

er图

摘要：实体是长方形，属性是椭圆形，关系为菱形。阅读全文

posted @ 2019-04-09 13:35 dairui130 阅读(258) 评论(0) 推荐(0)

hive 函数 current_date()

摘要：current_date() 获取当天时间结果是实际操作中，这种写法只能获取日期是今天的数据，不适合数据重跑。更合适的写法是，将日期作为外部参数传入：阅读全文

posted @ 2019-04-08 13:25 dairui130 阅读(11654) 评论(0) 推荐(0)

mysql 函数 round

摘要：https://blog.csdn.net/chinabestchina/article/details/72799826 阅读全文

posted @ 2019-04-04 14:42 dairui130 阅读(170) 评论(0) 推荐(0)

数仓术语

摘要：电商数据仓库术语这篇随笔，我想写写在电商数仓建设中遇到的术语。可能不是规范，各个公司定义有所不同，但是是比较通用的说法。口径就是统一的定义。比如成交的口径就是成交的定义。虽然看似多余，但是涉及运营指标的统计时，口径至关重要。所以一家公司内，对于某个业务，一定要有统一的口径。流水流水一般阅读全文

posted @ 2019-04-01 20:52 dairui130 阅读(882) 评论(0) 推荐(0)

python 读取hive数据

摘要：话不多说，直接上代码部署时遇到一个问题：解决方法是：原因是某些包没有关联上，装包时，加上[hive]后缀阅读全文

posted @ 2019-03-31 16:44 dairui130 阅读(7973) 评论(1) 推荐(0)

kettle学习

摘要：https://www.cnblogs.com/zxbzl/p/5853035.html 阅读全文

posted @ 2019-03-26 15:20 dairui130 阅读(93) 评论(0) 推荐(0)

Gitlab 赋予某台机器git clone的权限 Deploy key

摘要：开发项目CI（持续化部署）的时候，需要赋予jeckins所在的机器从gitlab远程仓库克隆代码到本地的权限。之前我们基本都是通过管理gitlab某个项目的成员的方式，管理gitlab的权限。但是gitlab还支持另一种方式，赋予git clone的权限，就是配置Deploy key。 Depl 阅读全文

posted @ 2019-03-25 16:16 dairui130 阅读(4291) 评论(0) 推荐(0)

kettle学习

摘要：数据etl工具，主要用做数据采集和清洗待续。。。阅读全文

posted @ 2019-03-21 14:55 dairui130 阅读(120) 评论(0) 推荐(0)

CI、CD和dev-ops概念

摘要：传统的开发方式是：需求方提供文档，实现方按照文档一步步开发，中间很少变动和修改。但是随着市场的变化，产品更新迭代的加快，也要求开放方更快的响应变化，用最短的时间开发，部署上线。这样，持续集成(CI coutinuous integration)，持续部署(continuous delivery) 阅读全文

posted @ 2019-03-21 13:40 dairui130 阅读(978) 评论(0) 推荐(0)

hive 修复分区、添加二级分区

摘要：我们在之前的文章中，介绍了二级分区，混合分区，静态分区，动态分区的区别和建表。今天我们聊下，当我们建好分区表。并且通过程序在表的分区目录（location）下，写入了文件。如何在hive中查询到插入的分区数据。假如我们直接查表，会发现因为没有在表的元数据中加入新增的分区信息，导致查不到数据。阅读全文

posted @ 2019-03-19 20:44 dairui130 阅读(2949) 评论(0) 推荐(0)

hive sql 查询一张表的数据不在另一张表中

摘要：有时，我们需要对比两张表的数据，找到在其中一张表，不在另一张表中的数据 hql 如下：阅读全文

posted @ 2019-03-18 15:26 dairui130 阅读(6523) 评论(0) 推荐(0)

dairui130

导航

公告

随笔分类 - 数据仓库

元数据概念及分类

hive on mr 参数设置

hive on spark 常用配置

hive on spark 释放session资源

hive 函数 nvl()

git dev 分支merge到master

hive 命令行传入参数

emr hadoop 参数调优

hive 语法 case when 语法

er图

hive 函数 current_date()

mysql 函数 round

数仓术语

python 读取hive数据

kettle学习

Gitlab 赋予某台机器git clone的权限 Deploy key

kettle学习

CI、CD和dev-ops概念

hive 修复分区、添加二级分区

hive sql 查询一张表的数据不在另一张表中