会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Kotlin
新随笔
联系
订阅
管理
上一页
1
···
3
4
5
6
7
8
9
10
11
12
下一页
2022年7月30日
hive源码(四)前三篇总结
摘要: 第一篇基本上都是一些异常处理、常用方式处理。 第二篇基本上钩子函数处理比较多,重点就是把SQL转成了AST标准语法树 第三篇目前来说有几点:AST转QB、QB转Operators Operators优化相关的debug了一下,但是感觉前面的还是有点不熟悉,就先暂停回顾一下 第一篇的总结 org.ap
阅读全文
posted @ 2022-07-30 22:17 Kotlin
阅读(207)
评论(0)
推荐(0)
2022年7月26日
hive源码(三)AST->QB->OperatorTree
摘要: 这一篇先把流程走通,后面会接着写里面的详细步骤 org.apache.hadoop.hive.ql.parse.SemanticAnalyzer analyzeInternal方法 public void analyzeInternal(ASTNode ast) throws SemanticExc
阅读全文
posted @ 2022-07-26 09:08 Kotlin
阅读(333)
评论(0)
推荐(0)
2022年7月10日
sparksql结果快速到mysql(scala代码、airflow调度)
摘要: 经常会有这样的需求:在现有数仓表的基础上,写一些sql,然后生成hive表并同步到mysql。 次数多了,就像写一个工具完成这个工作 一:背景、功能、流程介绍 1.背景: 1.数仓使用hive存储,datax导数据、airflow调度 2.不知道怎么利用hive解析sql,拿到对应的schema,但
阅读全文
posted @ 2022-07-10 00:11 Kotlin
阅读(512)
评论(0)
推荐(0)
2022年7月9日
mysql快速同步到数仓(airflow调度、java代码)
摘要: 经常会接到产品的需求:同步***表到hive,做分析。(做多了感觉很烦,就写一个工具) 一:背景、功能、流程介绍 1.背景: 1.数仓使用hive存储,datax导数据、airflow调度 2.虽然数据产品同学对datax进行了封装,可以点点点完成mysql表的同步,但是过程太复杂了 还需要自己手动
阅读全文
posted @ 2022-07-09 23:04 Kotlin
阅读(780)
评论(0)
推荐(0)
2022年6月30日
hive源码(二)输出日志、hook处理 Driver类
摘要: 一:org.apache.hadoop.hive.ql.Driver 类流程 部分方法实体较长、可以直接搜素《《很重要》》 关键字,直接看重要代码 CommandProcessorResponse方法 //重载方法,继续掉用 return run(command, false); CommandPr
阅读全文
posted @ 2022-06-30 19:27 Kotlin
阅读(383)
评论(0)
推荐(0)
hive源码(一)入口类CliDriver
摘要: 源码下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.3/apache-hive-3.1.3-src.tar.gz 一:org.apache.hadoop.hive.cli.CliDriver 类流程 CliDriver 是
阅读全文
posted @ 2022-06-30 15:05 Kotlin
阅读(844)
评论(0)
推荐(0)
SQL常见问题
摘要: 本文章持续记录工作中遇到的SQL的问题,持续更新中…… SQL常见问题 一、full join导致数据量翻倍 原因:空值会导致数据重复 错误SQL: select coalesce(a.user_id,b.user_id,c.user_id,d.user_id,e.user_id,f.user_id
阅读全文
posted @ 2022-06-30 11:27 Kotlin
阅读(170)
评论(0)
推荐(0)
2022年6月25日
好看的 代码格式
摘要: 网站:http://md.aclickall.com/#hmd2all >关注可了解更多的教程及排版技巧。问题或建议,请公众号留言; ###代码块显示效果注:markdown对代码块的语法是开始和结束行都要添加:\`\`\`,其中 \` 为windows键盘左上角那个,如下: ```public c
阅读全文
posted @ 2022-06-25 14:06 Kotlin
阅读(106)
评论(0)
推荐(0)
2022年5月23日
手写一个DQC(DQC简介及数据解析)
摘要: 一:DQC核心流程 Define:数据质检规则(指标)的定义。 你要告警给谁,你要使用什么方式告警(邮件,即时消息),你的规则是什么(空值,波动)等 Measure:数据质检任务的执行 数据在哪存储:hive、mysql是基本的数据库、CK、kylin等 Analyze:数据质检结果量化及可视化展示
阅读全文
posted @ 2022-05-23 20:56 Kotlin
阅读(2712)
评论(0)
推荐(0)
2022年5月5日
数仓常用表设计与实现
摘要: 一:di表、ds表 di表多用于事实表,例如:从数据库抽取的交易记录表,购买详单表等 实现逻辑较为简单,一般直接ETL即可。 ds表一般就是简单汇聚,例如:用户每天使用的pkg的数量表,一般直接group by 就行。 二:dd表,全量表 dd表多用于记录每日的全量状态表例如:用户账号密码表、用户通
阅读全文
posted @ 2022-05-05 13:15 Kotlin
阅读(799)
评论(0)
推荐(0)
上一页
1
···
3
4
5
6
7
8
9
10
11
12
下一页
公告
Live2D