数据仓库相关 - 随笔分类 - 再见傅里叶

摘要：https://betheme.net/a/6125352.html 阅读全文

posted @ 2023-06-15 15:56 再见傅里叶阅读(26) 评论(0) 推荐(0)

摘要：一级分区只能按照一个维度进行数据的划分，而很多互联网流水业务都需要按两个维度划分数据：一个维度是时间，数据是按照时间顺序生成的；另外一个维度是用户。这时候就能使用OceanBase的二级分区的方式来划分数据，时间维度用RANGE分区，用户ID用HASH分区。二级分区的每一级分区方式与一级分区方式相阅读全文

posted @ 2021-12-02 17:12 再见傅里叶阅读(349) 评论(0) 推荐(0)

ETL常用的三种工具介绍及对比Datastage，Informatica和Kettle

摘要：https://blog.csdn.net/qq_34901049/article/details/103676959 大数据量下Informatica与Datastage的处理速度是比较快的，比较稳定。Kettle的处理速度相比之下稍慢。 Informatica与Datastage有很好的商业化的阅读全文

posted @ 2021-11-04 20:45 再见傅里叶阅读(1093) 评论(0) 推荐(0)

利用Canal投递MySQL Binlog到Kafka

摘要：https://www.aboutyun.com/thread-27654-1-1.html https://www.cnblogs.com/bigdatalearnshare/p/13832709.html 阅读全文

posted @ 2021-08-19 15:26 再见傅里叶阅读(61) 评论(0) 推荐(0)

数仓相关工具

摘要：数据同步工具：离线同步 sqoop /DataX 实时同步 cannal/Flink CDC 权限管理（kerberos,CDH cloudmanager=> sentry ，HDP ambari=>ranger;其中后两者可以做到目录级别用户级别权限管理）数据质量监控工具-Apache Grif 阅读全文

posted @ 2020-04-16 16:06 再见傅里叶阅读(336) 评论(0) 推荐(0)

星型模型和雪花型模型比较

摘要：https://blog.csdn.net/selfsojourner/article/details/80476741 星型模型因为数据的冗余所以很多统计查询不需要做外部的连接，因此一般情况下效率比雪花型模型要高雪花模型使用的是规范化数据，也就是说数据在数据库内部是组织好的，以便消除冗余，因此它阅读全文

posted @ 2020-04-16 11:17 再见傅里叶阅读(1393) 评论(0) 推荐(0)

数据仓库常见面试问题

摘要：https://blog.csdn.net/kangkanggegeg/article/details/79373551 数据仓库主要工作就是模型设计； 1、数仓建模方法：范式建模、维度建模、Data Vault; 各自优缺点？ 2、维度建模的三种方式：星型模式、雪花模式、星座模式 3、分层架构：O 阅读全文

posted @ 2020-03-10 09:48 再见傅里叶阅读(1421) 评论(0) 推荐(0)

数据仓库之宽表

摘要：https://blog.csdn.net/weixin_42874157/article/details/88863913 阅读全文

posted @ 2020-03-06 12:20 再见傅里叶阅读(2059) 评论(0) 推荐(0)

数据仓库事实表

摘要：https://www.csdn.net/gather_20/MtTaYgwsOTY3MS1ibG9n.html 阅读全文

posted @ 2020-03-06 11:57 再见傅里叶阅读(136) 评论(0) 推荐(0)

数据仓库学习笔记 --- 拉链表详解

摘要：拉链表就是保存历史快照数据，去掉每天相同状态的数据，只保留不一样的数据，并且记录状态发生变化的开始日期和结束日期。 http://lxw1234.com/archives/2015/04/20.htm https://blog.csdn.net/liyong19850208/article/deta 阅读全文

posted @ 2020-03-06 11:52 再见傅里叶阅读(644) 评论(0) 推荐(0)

再见傅里叶

随笔分类 - 数据仓库相关

公告