摘要:set spark.executor.instances=20; set spark.executor.cores=5; set spark.executor.memory=5G;
阅读全文
摘要:Hive数值计算函数 (1)round(45.666,2)作用:四舍五入,保留2位小数 ceil(45.6) 作用:向上取整 floor(45.6) 作用:向下取整 (2)rand()返回一个0到1范围内的随机数 (3)exp(double a)返回自然对数e的a次方ln(double a)返回a的
阅读全文
摘要:在shell命令行执行 结果如下: 我们逐一解释一下:
阅读全文
摘要:首先用desc function,查看hive给出的函数解释 如果为空,则返回default值。 结果是0. 类似用法的函数还有:
阅读全文
摘要:什么是beeline 常用操作 https://www.cnblogs.com/xinfang520/p/7684598.html
阅读全文
摘要:背景 URL 的编码 是ASCII十六进制格式。数仓接受到前端上报的URL,要对URL字段解码。 如要将 解码为: 方式 hive sql中,通过反射调用java.net.URLDecoder方法 问题 实践中发现,部分https开头的url解析不完整。例如解码下面的URL, 通过上面的方法,结果是
阅读全文
摘要:在hive中通过反射,调用java.net.URLDecoder,解码url 代码入下:
阅读全文
摘要:grep -R 举个栗子,在有上百个sql文件的目录下,查找使用 spark引擎 执行的文件。 代码是: 返回的就是包含 spark 的sql文件名。
阅读全文
摘要:软链接的作用是, 1. 节省复制造成的空间浪费 2. 保证两个文件的内容同时修改 所以,可以把软连接理解为给文件/文件夹创建了别名,当访问别名时,实际访问的是链接的文件/文件夹 软链文件 软链文件夹 删除软连接
阅读全文
摘要:在使用azkaban作为调度工具的时候,难免遇到只需要跑工作流某部分的情况,这时需要用到停用部分工作的操作, 如图:
阅读全文
摘要:code reviewer之后,需要把dev分支的代码merge到master分支。通过在azkaban的服务器上git pull,最终将代码上线。 git dev 分支merge到master 打上版本标签 将master分支合并到dev
阅读全文
摘要:工作当中,经常要用到zip压缩。 zip 将文件夹打包: 如文件夹名 xxx unzip -o 覆盖原有的文件夹 查询更多参数:zip --help unzip --help 另外,mac上,右键文件夹,点击压缩,可以将文件直接压缩为zip包。 如下:
阅读全文
摘要:魔鬼藏在细节之中,git代码同步服务器代码需要注意的问题 1. 全文件夹覆盖 git pull 当前文件夹 2. 覆盖前做代码备份 mv origin origin_20190404_bak
阅读全文
摘要:#! /bin/bash if Iam; then echo "it worked two" else ls echo "I am in the else" fi
阅读全文
摘要:数据校验时,需要引入本地的一个告警python代码,引入的方式如下:
阅读全文
摘要:azkban实现任务重跑 我们执行sql的方式是将hql文件上传到服务器本地。然后执行shell命令 注:hive -e 是执行依据短sql,hive -f是执行hql文件 test_scheduler.hql的内容是需要执行的sql语句,参数的写法如下图: azkaban 传入参数 1.配置job
阅读全文
摘要:set hive.merge.mapfiles=true; set hive.merge.mapredfiles=true; set hive.merge.size.per.task=100000000; set mapred.task.timeout=60000000; set hive.exec.compress.intermediate=true; set hive.exec.parall...
阅读全文
摘要:current_date() 获取当天时间 结果是 实际操作中,这种写法只能获取日期是今天的数据,不适合数据重跑。 更合适的写法是 ,将日期作为外部参数传入:
阅读全文
摘要:https://blog.csdn.net/chinabestchina/article/details/72799826
阅读全文
摘要:电商数据仓库术语 这篇随笔,我想写写在电商数仓建设中遇到的术语。 可能不是规范,各个公司定义有所不同,但是是比较通用的说法。 口径 就是统一的定义。比如成交的口径就是成交的定义。虽然看似多余,但是涉及运营指标的统计时,口径至关重要。 所以一家公司内,对于某个业务,一定要有统一的口径。 流水 流水一般
阅读全文
摘要:我们经常会遇到调用组内其他成员开发的python脚本的情况, 这时,需要借助如下代码:
阅读全文
摘要:ping curl telnet python -m SimpleHTTPServer
阅读全文
摘要:尝试了几个版本,下面的是可用的 https://segmentfault.com/a/1190000012166969
阅读全文