1101011

2020年3月30日

摘要：大O表示法指出了算法有多快。例如，假设列表包含n个元素。简单查找需要检查每个元素，因此需要执行n次操作。使用大O表示法, 这个运行时间为O(n)。大0表示法指得并非以秒为单的速度。大O表示法让你能够比较操作数，它指出了算法运行时间的增速。阅读全文

posted @ 2020-03-30 17:59 1101011 阅读(124) 评论(0) 推荐(0)

二分查找

摘要： def binary_search(list, item): low = 0 high = len(list) - 1 while low <= high: # 结束条件 mid = (low + high) / 2 # 就检查中间的元素 guess = list[mid] if guess == 阅读全文

posted @ 2020-03-30 17:48 1101011 阅读(101) 评论(0) 推荐(0)

2020年3月25日

hive sql 优化 - 2.0

摘要： hive 优化 1、需要计算的指标真的需要从数据仓库的公共明细自行汇总吗？2、真的需要扫描那么多的分区么？3、尽量不要使用 select * from table这样的方式4、输入文件不要是大量的小文件 group by引起的倾斜优化: R:group by引起的倾斜主要是输入数据行按照group 阅读全文

posted @ 2020-03-25 18:20 1101011 阅读(194) 评论(0) 推荐(0)

MapReduce原理

摘要： HSql [Group by] 语句执行阶段：输入文件->输入分片->Map阶段->Combiner阶段->Shuffle阶段->Reduce阶段->输出文件 1) 输入文件 2) 输入分片阶段： split数量由文件大小决定，不同版本split大小不同。hadoop1.x 是64MB, had 阅读全文

posted @ 2020-03-25 16:16 1101011 阅读(145) 评论(0) 推荐(0)

2019年12月5日

指标

摘要：如何梳理指标？？？指标分类 1、新增2、历史3、漏斗这三类又按照主题去分指标种类可划分为：事务型指标（如新增注册会员数）、存量型指标（如商品总数）、复合型指标（如比例、变化量、变化率、排名、均值/分位数等统计）。类型：基础指标衍生指标阅读全文

posted @ 2019-12-05 16:29 1101011 阅读(146) 评论(0) 推荐(0)

2019年11月12日

dw优秀文章

摘要： 1、马蜂窝数据仓库的架构、模型与应用实践 https://juejin.im/post/5d9c2ffaf265da5b7525a78a 2、mark_wu2000 https://blog.csdn.net/mark_wu2000/article/details/82860572 阅读全文

posted @ 2019-11-12 09:35 1101011 阅读(110) 评论(0) 推荐(0)

2019年11月11日

数仓日常工作流程

摘要：数仓日常工作流程开会，需求评审 3 写代码 3 优化架构 2 阅读全文

posted @ 2019-11-11 18:21 1101011 阅读(382) 评论(0) 推荐(0)

2019年11月8日

数据仓库层级划分

摘要：数据仓库层级划分 ods 存储原始数据 hds 存储历史数据。 dwd 分主题数据明细表宽表. 分为三层： common 数据清洗层主题宽表跨主题宽表 dws 分主题数据聚合表，基础指标表，衍生指标表 dm 数据集市给最终用户使用跨主题明细宽表，跨主体指标宽表 dim 维度表 tmp 临阅读全文

posted @ 2019-11-08 11:14 1101011 阅读(1903) 评论(0) 推荐(0)

2019年10月28日

sqoop 数据从hive导入到mysql 遇到的坑

摘要： 1、 sqoop export \--connect jdbc:mysql://127.0.0.1:3306/sqoop_demo \--username test \--password test \--table test_sqoop \--export-dir /user/hive/wareh 阅读全文

posted @ 2019-10-28 18:00 1101011 阅读(2344) 评论(0) 推荐(0)

2019年10月16日

星型模型

摘要：星型模型如何建立维表的建立： 1、明确关联主键2、检测数据是否完整3、检测数据是否正确4、检测数据是否重复阅读全文

posted @ 2019-10-16 00:27 1101011 阅读(235) 评论(0) 推荐(0)

公告