2021年3月13日

摘要: create table user ( id BIGINT, active_time STRING, status BIGINT, amount double ) 窗口函数 1.排序: i.Row_number() select row_number() over(partition by id o 阅读全文

posted @ 2021-03-13 19:27 SinkingInBigData 阅读(73) 评论(0) 推荐(0)

摘要: HIVE杂项 所有join类型 1.inner join 不多说 常用 2.left outer join 或 right outer join 不多说 常用 3.full join :以两个表的记录为基准,返回两个表的记录去重之和,关联不上的字段为NULL 4.left semi join: (左 阅读全文

posted @ 2021-03-13 19:26 SinkingInBigData 阅读(37) 评论(0) 推荐(0)

摘要: MapReduce 包括Mapper(Mapper类)阶段和Reducer(Reducer类)阶段,其中Map阶段和Reduce阶段都包含部分Shuffle阶段工作。 Map阶段 1.输入分片 input split: 一个大的文件会根据block块切分成多个分片,每个输入分片会让一个map进程来处 阅读全文

posted @ 2021-03-13 19:24 SinkingInBigData 阅读(1211) 评论(0) 推荐(0)

摘要: Join: 1.reduce side join: i.也叫common join,最简单的join方式 ii.在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据对,对每条数 据打一个标签>(tag),(比如tag=1表示来自文件File1,ta 阅读全文

posted @ 2021-03-13 19:22 SinkingInBigData 阅读(359) 评论(0) 推荐(0)

摘要: 数仓分层 分层原因 1.复杂问题简单化: 将一个复杂的任务分解成多个步骤完成,每一层只处理单一的步骤。 2.数据结构清晰: 每一个数据分层都有它的作用域,这样在使用表的时候更方便定位和理解。 同时也便于维护数据准确性,当数据出现问题,不用修复所有数据,只需要修复有问题的分层。 3.提高数据复用性: 阅读全文

posted @ 2021-03-13 19:21 SinkingInBigData 阅读(808) 评论(0) 推荐(0)

摘要: 目的 1.提高性能:帮助快速查找数据,减少I/O吞吐 2.降低成本:减少数据冗余,实现计算结果复用 3.提高效率:提高数据使用效率 4.提高质量:改善数据统计口径的不一致性,减少数据计算错误的可能性 范式建模 1.3NF范式: i.原子性。每个属性必须唯一,不具有多义性(不能拆分成其他几列) ii. 阅读全文

posted @ 2021-03-13 19:20 SinkingInBigData 阅读(281) 评论(0) 推荐(0)