dairui130

导航

04 2019 档案

hive on spark 参数设置
摘要:set spark.executor.instances=20; set spark.executor.cores=5; set spark.executor.memory=5G; 阅读全文

posted @ 2019-04-26 22:54 dairui130 阅读(787) 评论(0) 推荐(0)

hive 数值计算函数
摘要:Hive数值计算函数 (1)round(45.666,2)作用:四舍五入,保留2位小数 ceil(45.6) 作用:向上取整 floor(45.6) 作用:向下取整 (2)rand()返回一个0到1范围内的随机数 (3)exp(double a)返回自然对数e的a次方ln(double a)返回a的 阅读全文

posted @ 2019-04-23 11:23 dairui130 阅读(994) 评论(0) 推荐(0)

hive -help hive命令行执行sql参数
摘要:在shell命令行执行 结果如下: 我们逐一解释一下: 阅读全文

posted @ 2019-04-22 19:20 dairui130 阅读(1895) 评论(0) 推荐(0)

hive 函数 nvl()
摘要:首先用desc function,查看hive给出的函数解释 如果为空,则返回default值。 结果是0. 类似用法的函数还有: 阅读全文

posted @ 2019-04-21 17:31 dairui130 阅读(7568) 评论(0) 推荐(0)

beeline方式连接hive
摘要:什么是beeline 常用操作 https://www.cnblogs.com/xinfang520/p/7684598.html 阅读全文

posted @ 2019-04-19 16:22 dairui130 阅读(197) 评论(0) 推荐(0)

UDF函数 解码url
摘要:背景 URL 的编码 是ASCII十六进制格式。数仓接受到前端上报的URL,要对URL字段解码。 如要将 解码为: 方式 hive sql中,通过反射调用java.net.URLDecoder方法 问题 实践中发现,部分https开头的url解析不完整。例如解码下面的URL, 通过上面的方法,结果是 阅读全文

posted @ 2019-04-18 16:34 dairui130 阅读(1294) 评论(0) 推荐(0)

hive 使用反射函数
摘要:在hive中通过反射,调用java.net.URLDecoder,解码url 代码入下: 阅读全文

posted @ 2019-04-18 16:21 dairui130 阅读(700) 评论(0) 推荐(0)

hive 添加和删除分区
摘要:命令如下: 增加分区 删除分区 阅读全文

posted @ 2019-04-15 18:58 dairui130 阅读(613) 评论(0) 推荐(0)

shell 命令 grep -R 查询包含指定内容的文件
摘要:grep -R 举个栗子,在有上百个sql文件的目录下,查找使用 spark引擎 执行的文件。 代码是: 返回的就是包含 spark 的sql文件名。 阅读全文

posted @ 2019-04-15 18:56 dairui130 阅读(10888) 评论(0) 推荐(0)

shell 命令 创建/删除 软连接 ln -s
摘要:软链接的作用是, 1. 节省复制造成的空间浪费 2. 保证两个文件的内容同时修改 所以,可以把软连接理解为给文件/文件夹创建了别名,当访问别名时,实际访问的是链接的文件/文件夹 软链文件 软链文件夹 删除软连接 阅读全文

posted @ 2019-04-15 18:53 dairui130 阅读(5066) 评论(0) 推荐(0)

azkaban disable 停用部分工作流
摘要:在使用azkaban作为调度工具的时候,难免遇到只需要跑工作流某部分的情况,这时需要用到停用部分工作的操作, 如图: 阅读全文

posted @ 2019-04-15 15:23 dairui130 阅读(495) 评论(0) 推荐(0)

git dev 分支merge到master
摘要:code reviewer之后,需要把dev分支的代码merge到master分支。通过在azkaban的服务器上git pull,最终将代码上线。 git dev 分支merge到master 打上版本标签 将master分支合并到dev 阅读全文

posted @ 2019-04-14 17:25 dairui130 阅读(6749) 评论(0) 推荐(0)

shell 命令 zip unzip
摘要:工作当中,经常要用到zip压缩。 zip 将文件夹打包: 如文件夹名 xxx unzip -o 覆盖原有的文件夹 查询更多参数:zip --help unzip --help 另外,mac上,右键文件夹,点击压缩,可以将文件直接压缩为zip包。 如下: 阅读全文

posted @ 2019-04-14 14:46 dairui130 阅读(2844) 评论(0) 推荐(0)

git代码同步服务器代码需要注意的问题
摘要:魔鬼藏在细节之中,git代码同步服务器代码需要注意的问题 1. 全文件夹覆盖 git pull 当前文件夹 2. 覆盖前做代码备份 mv origin origin_20190404_bak 阅读全文

posted @ 2019-04-12 14:30 dairui130 阅读(324) 评论(0) 推荐(0)

shell 命令 if elif else fi 用法
摘要:#! /bin/bash if Iam; then echo "it worked two" else ls echo "I am in the else" fi 阅读全文

posted @ 2019-04-11 20:45 dairui130 阅读(2145) 评论(0) 推荐(0)

python 引入本地 module
摘要:数据校验时,需要引入本地的一个告警python代码,引入的方式如下: 阅读全文

posted @ 2019-04-10 20:44 dairui130 阅读(537) 评论(0) 推荐(0)

shell 传入外部参数
摘要:shell脚本传入外部参数的方法: 阅读全文

posted @ 2019-04-10 20:34 dairui130 阅读(634) 评论(0) 推荐(0)

hive 命令行传入参数
摘要:azkban实现任务重跑 我们执行sql的方式是将hql文件上传到服务器本地。然后执行shell命令 注:hive -e 是执行依据短sql,hive -f是执行hql文件 test_scheduler.hql的内容是需要执行的sql语句,参数的写法如下图: azkaban 传入参数 1.配置job 阅读全文

posted @ 2019-04-09 23:49 dairui130 阅读(1647) 评论(0) 推荐(0)

emr hadoop 参数调优
摘要:set hive.merge.mapfiles=true; set hive.merge.mapredfiles=true; set hive.merge.size.per.task=100000000; set mapred.task.timeout=60000000; set hive.exec.compress.intermediate=true; set hive.exec.parall... 阅读全文

posted @ 2019-04-09 21:47 dairui130 阅读(325) 评论(0) 推荐(0)

hive 语法 case when 语法
摘要:注意: end不能少 阅读全文

posted @ 2019-04-09 17:36 dairui130 阅读(4261) 评论(0) 推荐(0)

er图
摘要:实体是长方形,属性是椭圆形,关系为菱形。 阅读全文

posted @ 2019-04-09 13:35 dairui130 阅读(255) 评论(0) 推荐(0)

hive 函数 current_date()
摘要:current_date() 获取当天时间 结果是 实际操作中,这种写法只能获取日期是今天的数据,不适合数据重跑。 更合适的写法是 ,将日期作为外部参数传入: 阅读全文

posted @ 2019-04-08 13:25 dairui130 阅读(11627) 评论(0) 推荐(0)

mysql 函数 round
摘要:https://blog.csdn.net/chinabestchina/article/details/72799826 阅读全文

posted @ 2019-04-04 14:42 dairui130 阅读(166) 评论(0) 推荐(0)

数仓术语
摘要:电商数据仓库术语 这篇随笔,我想写写在电商数仓建设中遇到的术语。 可能不是规范,各个公司定义有所不同,但是是比较通用的说法。 口径 就是统一的定义。比如成交的口径就是成交的定义。虽然看似多余,但是涉及运营指标的统计时,口径至关重要。 所以一家公司内,对于某个业务,一定要有统一的口径。 流水 流水一般 阅读全文

posted @ 2019-04-01 20:52 dairui130 阅读(850) 评论(0) 推荐(0)

python 引入本地module
摘要:我们经常会遇到调用组内其他成员开发的python脚本的情况, 这时,需要借助如下代码: 阅读全文

posted @ 2019-04-01 12:03 dairui130 阅读(651) 评论(0) 推荐(0)

python 连接presto
摘要:首先安装pyhive包 阅读全文

posted @ 2019-04-01 11:11 dairui130 阅读(610) 评论(0) 推荐(0)

shell 网络状态查询 ping curl telnet
摘要:ping curl telnet python -m SimpleHTTPServer 阅读全文

posted @ 2019-04-01 10:45 dairui130 阅读(234) 评论(0) 推荐(0)

shell 命令 rz sz
摘要:尝试了几个版本,下面的是可用的 https://segmentfault.com/a/1190000012166969 阅读全文

posted @ 2019-04-01 10:25 dairui130 阅读(334) 评论(0) 推荐(0)