随笔分类 -  数据仓库相关

摘要:https://betheme.net/a/6125352.html 阅读全文
posted @ 2023-06-15 15:56 再见傅里叶 阅读(26) 评论(0) 推荐(0)
摘要:一级分区只能按照一个维度进行数据的划分,而很多互联网流水业务都需要按两个维度划分数据:一个维度是时间,数据是按照时间顺序生成的;另外一个维度是用户。 这时候就能使用OceanBase的二级分区的方式来划分数据,时间维度用RANGE分区,用户ID用HASH分区。二级分区的每一级分区方式与一级分区方式相 阅读全文
posted @ 2021-12-02 17:12 再见傅里叶 阅读(349) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/qq_34901049/article/details/103676959 大数据量下Informatica与Datastage的处理速度是比较快的,比较稳定。Kettle的处理速度相比之下稍慢。 Informatica与Datastage有很好的商业化的 阅读全文
posted @ 2021-11-04 20:45 再见傅里叶 阅读(1093) 评论(0) 推荐(0)
摘要:https://www.aboutyun.com/thread-27654-1-1.html https://www.cnblogs.com/bigdatalearnshare/p/13832709.html 阅读全文
posted @ 2021-08-19 15:26 再见傅里叶 阅读(61) 评论(0) 推荐(0)
摘要:数据同步工具:离线同步 sqoop /DataX 实时同步 cannal/Flink CDC 权限管理(kerberos,CDH cloudmanager=> sentry ,HDP ambari=>ranger;其中后两者可以做到目录级别用户级别权限管理) 数据质量监控工具-Apache Grif 阅读全文
posted @ 2020-04-16 16:06 再见傅里叶 阅读(336) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/selfsojourner/article/details/80476741 星型模型因为数据的冗余所以很多统计查询不需要做外部的连接,因此一般情况下效率比雪花型模型要高 雪花模型使用的是规范化数据,也就是说数据在数据库内部是组织好的,以便消除冗余,因此它 阅读全文
posted @ 2020-04-16 11:17 再见傅里叶 阅读(1393) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/kangkanggegeg/article/details/79373551 数据仓库主要工作就是模型设计; 1、数仓建模方法:范式建模、维度建模、Data Vault; 各自优缺点? 2、维度建模的三种方式:星型模式、雪花模式、星座模式 3、分层架构:O 阅读全文
posted @ 2020-03-10 09:48 再见傅里叶 阅读(1421) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/weixin_42874157/article/details/88863913 阅读全文
posted @ 2020-03-06 12:20 再见傅里叶 阅读(2059) 评论(0) 推荐(0)
摘要:https://www.csdn.net/gather_20/MtTaYgwsOTY3MS1ibG9n.html 阅读全文
posted @ 2020-03-06 11:57 再见傅里叶 阅读(136) 评论(0) 推荐(0)
摘要:拉链表就是保存历史快照数据,去掉每天相同状态的数据,只保留不一样的数据,并且记录状态发生变化的开始日期和结束日期。 http://lxw1234.com/archives/2015/04/20.htm https://blog.csdn.net/liyong19850208/article/deta 阅读全文
posted @ 2020-03-06 11:52 再见傅里叶 阅读(644) 评论(0) 推荐(0)