摘要: 1.Azure data lake,data factory, databricks,sql DB 2.文件,DB,API的ETL经验, 3.Azure权限和安全体系 4.逻辑和物理分层模型 5.熟练SQL能力 6.具备编程能力,例如python,C#,scala 7.机器学习 8.Agile项目管 阅读全文
posted @ 2023-08-13 22:30 半个程序猿Cohen_Lee 阅读(16) 评论(0) 推荐(0) 编辑
摘要: hive sql函数 字符串函数:1.length: length(string A)2.reverse: reverse(string A)3.concat: concat(string A,string B)4.concat_ws: concat_ws(string sep,string A,s 阅读全文
posted @ 2023-08-13 22:29 半个程序猿Cohen_Lee 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 关联规则 AB测试 聚类算法 查找问题:漏斗分析 横向分析 小辛野子: 先是一个sql,让算新增用户数,7日内的留存 小辛野子: 然后问了决策树算法、聚类算法、关联规则 小辛野子: 解释贝叶斯定理的公式 小辛野子: 用假设检验和置信区间解释第一类错误第二类错误 小辛野子: 还有各种因果推断方法 阅读全文
posted @ 2023-08-13 22:29 半个程序猿Cohen_Lee 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 1.数据颗粒度, 维度 2.是数据量 3.笛卡尔积 加条件,内连接 外连接等 4.行转列 sql case when的理解 造列 行转列 case when / if 列转行 union all 列转换成字符串GROUP_CONCAT 5.hive 中 MR 6.hive join 7. hive 阅读全文
posted @ 2023-08-13 22:28 半个程序猿Cohen_Lee 阅读(5) 评论(0) 推荐(0) 编辑
摘要: set hive.execution.engine=tez; with dates as ( select date_add("2000-01-01", a.pos) as d from (select posexplode(split(repeat("o", datediff("2023-12-3 阅读全文
posted @ 2023-08-13 22:27 半个程序猿Cohen_Lee 阅读(9) 评论(0) 推荐(0) 编辑