摘要: 大O表示法指出了算法有多快。 例如,假设列表包含n个元素。简单查找需要检查每个元素,因此需要执行n次操作。 使用大O表示法, 这个运行时间为O(n)。 大0表示法指得并非以秒为单的速度。大O表示法让你能够比较操作数,它指出了算法运行时间的增速。 阅读全文
posted @ 2020-03-30 17:59 1101011 阅读(124) 评论(0) 推荐(0)
摘要: def binary_search(list, item): low = 0 high = len(list) - 1 while low <= high: # 结束条件 mid = (low + high) / 2 # 就检查中间的元素 guess = list[mid] if guess == 阅读全文
posted @ 2020-03-30 17:48 1101011 阅读(101) 评论(0) 推荐(0)
摘要: hive 优化 1、需要计算的指标真的需要从数据仓库的公共明细自行汇总吗?2、真的需要扫描那么多的分区么?3、尽量不要使用 select * from table这样的方式4、输入文件不要是大量的小文件 group by引起的倾斜优化: R:group by引起的倾斜主要是输入数据行按照group 阅读全文
posted @ 2020-03-25 18:20 1101011 阅读(194) 评论(0) 推荐(0)
摘要: HSql [Group by] 语句 执行阶段: 输入文件->输入分片->Map阶段->Combiner阶段->Shuffle阶段->Reduce阶段->输出文件 1) 输入文件 2) 输入分片阶段: split数量由文件大小决定,不同版本split大小不同。hadoop1.x 是64MB, had 阅读全文
posted @ 2020-03-25 16:16 1101011 阅读(145) 评论(0) 推荐(0)
摘要: 如何梳理指标??? 指标分类 1、新增2、历史3、漏斗 这三类又按照主题去分 指标种类可划分为:事务型指标(如新增注册会员数)、存量型指标(如商品总数)、复合型指标(如比例、变化量、变化率、排名、均值/分位数等统计)。 类型: 基础指标 衍生指标 阅读全文
posted @ 2019-12-05 16:29 1101011 阅读(146) 评论(0) 推荐(0)
摘要: 1、马蜂窝数据仓库的架构、模型与应用实践 https://juejin.im/post/5d9c2ffaf265da5b7525a78a 2、mark_wu2000 https://blog.csdn.net/mark_wu2000/article/details/82860572 阅读全文
posted @ 2019-11-12 09:35 1101011 阅读(110) 评论(0) 推荐(0)
摘要: 数仓日常工作流程 开会,需求评审 3 写代码 3 优化架构 2 阅读全文
posted @ 2019-11-11 18:21 1101011 阅读(382) 评论(0) 推荐(0)
摘要: 数据仓库层级划分 ods 存储原始数据 hds 存储历史数据。 dwd 分主题数据明细表宽表. 分为三层: common 数据清洗层 主题宽表 跨主题宽表 dws 分主题数据聚合表, 基础指标表, 衍生指标表 dm 数据集市给最终用户使用 跨主题明细宽表, 跨主体指标宽表 dim 维度表 tmp 临 阅读全文
posted @ 2019-11-08 11:14 1101011 阅读(1903) 评论(0) 推荐(0)
摘要: 1、 sqoop export \--connect jdbc:mysql://127.0.0.1:3306/sqoop_demo \--username test \--password test \--table test_sqoop \--export-dir /user/hive/wareh 阅读全文
posted @ 2019-10-28 18:00 1101011 阅读(2344) 评论(0) 推荐(0)
摘要: 星型模型如何建立 维表的建立: 1、明确关联主键2、检测数据是否完整3、检测数据是否正确4、检测数据是否重复 阅读全文
posted @ 2019-10-16 00:27 1101011 阅读(235) 评论(0) 推荐(0)