2025年7月29日
摘要: 解题思路: 先按dt, result分组,然后用case when把列转成行,最后sum起来。 select dt, sum(case when result='win' then cnt else 0 end) as win, sum(case when result='loss' then cn 阅读全文
posted @ 2025-07-29 19:21 dw2nn 阅读(8) 评论(0) 推荐(0)
摘要: 思路: 1)使用开窗函数,按照用户分组,按照日期排序 lead(login_dt, 4, -1) over(partition by user_id order by login_dt) as num lead的意思是把一个用户的一个login_dt,往前移动4行,如果没有可以移动的login_dt 阅读全文
posted @ 2025-07-29 18:40 dw2nn 阅读(22) 评论(0) 推荐(0)
  2025年7月8日
摘要: 1. 根据表A, 表B,计算表C select coalesce(A.dt, B.dt) as dt, coalesce(A.colA, 0) as colA, coalesce(B.colB, 0) as colB from A full outer join B on a.dt = b.dt; 阅读全文
posted @ 2025-07-08 18:53 dw2nn 阅读(5) 评论(0) 推荐(0)
  2025年7月7日
摘要: 原始sql的写法如下,可以跑成功但是跑了40分钟。 select user_id, site_id, cc_id from tbl_1 left join tbl_2 on tbl_1.id = tbl_2.id; 查看job details, 发现其中一个stage跑了40分钟,但是这个stage 阅读全文
posted @ 2025-07-07 17:01 dw2nn 阅读(4) 评论(0) 推荐(0)
摘要: 窗口函数不改变原始数据,只在原表上新增字段,并在新增字段实现结果,为每一行都返回一个结果。 一、排名窗口函数 row_number() over(partition by xxx order by xxx desc/asc) 窗口内记录的唯一序号,没有重复值 rank() over(partitio 阅读全文
posted @ 2025-07-07 13:16 dw2nn 阅读(23) 评论(0) 推荐(0)
  2025年7月4日
摘要: 工作中实现了一张表的设计并且数据也已经跑出来了,接下来怎么对这张表做数据质量的监控,来防止数据丢失/错误的出现? 下面列几个常用的例子: 1.DQ:PK duplicate check, pk=slr_id+dt with t as (select slr_id, dt, count(1)from 阅读全文
posted @ 2025-07-04 10:33 dw2nn 阅读(10) 评论(0) 推荐(0)
  2024年12月5日
摘要: 假如想删除某个特定日期前的分区,可以参考下面语句: alter table table_name drop partition (dt<'20231201') purge; 阅读全文
posted @ 2024-12-05 14:59 dw2nn 阅读(164) 评论(0) 推荐(0)
  2024年10月16日
摘要: 1. 一般常用的有5种(textfile, sequencefile, rcfile, orc, parquet),默认的存储格式是textfile。 2. 5种存储格式的区别 存储格式文件存储编码格式建表指定 textfile 将表中的数据在hdfs上以正常文本的格式存储,下载后可以直接查看。 s 阅读全文
posted @ 2024-10-16 15:41 dw2nn 阅读(286) 评论(0) 推荐(0)
  2024年9月10日
摘要: 当多个开发人员同时更改一个文件时,就有可能会遇到冲突。 1. 检测冲突 git fetch upstream之后,git merge upstream/master会检查是否存在冲突,如果存在,会提示哪些文件存在CONFLICT 2.解决冲突 打开冲突的文件,可能会有 或者>>>>>>>的行,删掉。 阅读全文
posted @ 2024-09-10 14:18 dw2nn 阅读(39) 评论(0) 推荐(0)
  2024年9月5日
摘要: 一、fork远程仓库,将会在你的GitHub账号中创建一个副本 1. 找到你想要的github仓库,点击Fork按钮 2. 选择相应的Owner和想要clone的上游原始仓库的repo name, 点击Create fork 3. fork创建成功(大概几秒钟就好了) 二、fork仓库同步上游仓库 阅读全文
posted @ 2024-09-05 11:09 dw2nn 阅读(2122) 评论(0) 推荐(0)