SinkingInBigData - 博客园

HQL不常用语句

摘要： create table user ( id BIGINT, active_time STRING, status BIGINT, amount double ) 窗口函数 1.排序: i.Row_number() select row_number() over(partition by id o 阅读全文

posted @ 2021-03-13 19:27 SinkingInBigData 阅读(78) 评论(0) 推荐(0)

Hive杂项

摘要： HIVE杂项所有join类型 1.inner join 不多说常用 2.left outer join 或 right outer join 不多说常用 3.full join :以两个表的记录为基准，返回两个表的记录去重之和，关联不上的字段为NULL 4.left semi join: （左阅读全文

posted @ 2021-03-13 19:26 SinkingInBigData 阅读(52) 评论(0) 推荐(0)

Hive中mapreduce流程

摘要： MapReduce 包括Mapper（Mapper类)阶段和Reducer(Reducer类)阶段，其中Map阶段和Reduce阶段都包含部分Shuffle阶段工作。 Map阶段 1.输入分片 input split: 一个大的文件会根据block块切分成多个分片，每个输入分片会让一个map进程来处阅读全文

posted @ 2021-03-13 19:24 SinkingInBigData 阅读(1235) 评论(0) 推荐(0)

Hive中三种join的mapreduce执行计划

摘要： Join: 1.reduce side join: i.也叫common join，最简单的join方式 ii.在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value数据对，对每条数据打一个标签>(tag),(比如tag=1表示来自文件File1,ta 阅读全文

posted @ 2021-03-13 19:22 SinkingInBigData 阅读(371) 评论(0) 推荐(0)

数仓分层(原因，结构及实践理解)

摘要：数仓分层分层原因 1.复杂问题简单化: 将一个复杂的任务分解成多个步骤完成，每一层只处理单一的步骤。 2.数据结构清晰: 每一个数据分层都有它的作用域，这样在使用表的时候更方便定位和理解。同时也便于维护数据准确性，当数据出现问题，不用修复所有数据，只需要修复有问题的分层。 3.提高数据复用性: 阅读全文

posted @ 2021-03-13 19:21 SinkingInBigData 阅读(828) 评论(0) 推荐(0)

数仓建模入门及常用方法

摘要：目的 1.提高性能:帮助快速查找数据，减少I/O吞吐 2.降低成本:减少数据冗余，实现计算结果复用 3.提高效率:提高数据使用效率 4.提高质量:改善数据统计口径的不一致性，减少数据计算错误的可能性范式建模 1.3NF范式: i.原子性。每个属性必须唯一，不具有多义性（不能拆分成其他几列) ii. 阅读全文

posted @ 2021-03-13 19:20 SinkingInBigData 阅读(295) 评论(0) 推荐(0)