随笔分类 - 数据仓库相关
摘要:https://betheme.net/a/6125352.html
阅读全文
摘要:一级分区只能按照一个维度进行数据的划分,而很多互联网流水业务都需要按两个维度划分数据:一个维度是时间,数据是按照时间顺序生成的;另外一个维度是用户。 这时候就能使用OceanBase的二级分区的方式来划分数据,时间维度用RANGE分区,用户ID用HASH分区。二级分区的每一级分区方式与一级分区方式相
阅读全文
摘要:https://blog.csdn.net/qq_34901049/article/details/103676959 大数据量下Informatica与Datastage的处理速度是比较快的,比较稳定。Kettle的处理速度相比之下稍慢。 Informatica与Datastage有很好的商业化的
阅读全文
摘要:https://www.aboutyun.com/thread-27654-1-1.html https://www.cnblogs.com/bigdatalearnshare/p/13832709.html
阅读全文
摘要:数据同步工具:离线同步 sqoop /DataX 实时同步 cannal/Flink CDC 权限管理(kerberos,CDH cloudmanager=> sentry ,HDP ambari=>ranger;其中后两者可以做到目录级别用户级别权限管理) 数据质量监控工具-Apache Grif
阅读全文
摘要:https://blog.csdn.net/selfsojourner/article/details/80476741 星型模型因为数据的冗余所以很多统计查询不需要做外部的连接,因此一般情况下效率比雪花型模型要高 雪花模型使用的是规范化数据,也就是说数据在数据库内部是组织好的,以便消除冗余,因此它
阅读全文
摘要:https://blog.csdn.net/kangkanggegeg/article/details/79373551 数据仓库主要工作就是模型设计; 1、数仓建模方法:范式建模、维度建模、Data Vault; 各自优缺点? 2、维度建模的三种方式:星型模式、雪花模式、星座模式 3、分层架构:O
阅读全文
摘要:https://blog.csdn.net/weixin_42874157/article/details/88863913
阅读全文
摘要:https://www.csdn.net/gather_20/MtTaYgwsOTY3MS1ibG9n.html
阅读全文
摘要:拉链表就是保存历史快照数据,去掉每天相同状态的数据,只保留不一样的数据,并且记录状态发生变化的开始日期和结束日期。 http://lxw1234.com/archives/2015/04/20.htm https://blog.csdn.net/liyong19850208/article/deta
阅读全文

浙公网安备 33010602011771号