随笔分类 -  数据仓库

元数据治理-Atlas血缘
摘要:参考: 官网: https://atlas.apache.org 简单介绍: https://cloud.tencent.com/developer/article/1544396 GG https://blog.csdn.net/wangpei1949/article/details/875557 阅读全文

posted @ 2020-03-02 17:09 锋锋2019 阅读(4917) 评论(0) 推荐(0)

小结
该文被密码保护。

posted @ 2020-02-15 10:54 锋锋2019

数仓设计实战案例-偏流量型
摘要:推荐、用户画像等这些,大数每天日常大部分时间都是和运营打交道。 1/ 用户画像:以业务为导向。考虑数据的问题: 业务数据 埋点数据 爬虫 政府、行业分析报告2/ 运营效果评估:比如:把原来手动评估的做成自动化比如:短信推荐效果渠道:短信 short_url 目的:召回 用户范围:A B 设计字段:u 阅读全文

posted @ 2020-02-13 17:54 锋锋2019 阅读(321) 评论(0) 推荐(0)

数仓设计实战案例-偏业务型
摘要:一、 偏业务型数仓设计 背景: opos互联网信用贷款行业,主要业务流程: 用户注册后,需要通过一系列的信息项认证. 信息项认证成功后,可以申请授信,然后由风控策略、模型给出信用评定,同时给予相应的额度。 用户获取额度后可以在平台发起贷款 贷款需再次通过相应的风控模型,评级通过后可以放款。 用户收到 阅读全文

posted @ 2020-02-11 22:23 锋锋2019 阅读(813) 评论(0) 推荐(0)

数据质量
摘要:数据质量:1/ 数据质量控制环节2/ 元数据管理 数据质量包括:数据的完整性 数据自成体系、无数据缺失(包括实体记录缺失、字段信息缺失)数据一致性: 在整个数仓中,同一数据各主题、层次数据一致正确性: 在数仓各部分、确保数据不失真及时性: 整个数仓处理过程中,数据及时到位、及时反馈 数据质量的控制不 阅读全文

posted @ 2020-01-31 12:52 锋锋2019 阅读(881) 评论(0) 推荐(0)

数据追溯
摘要:数据追溯: 数仓需要追溯,就是看以前的历史变化,比如一个月前的某一天的状态. 比如回溯2018-05-12--query ".....where updated_time>=2018-05-12 00:00:00" >stage.tmp_a#方法一,分区 每天保留一个快照.insert overwi 阅读全文

posted @ 2020-01-31 11:35 锋锋2019 阅读(590) 评论(0) 推荐(0)

数仓技术体系设计
摘要:考虑问题 : 实效性高 业务灵活、多变 数据源多样性 1、关系性数据库 ,结构化数据。 2、nosql 3. 日志,行为日志(非结构化,即埋点) 4、系统日志  数据质量参差不齐 应用场景复杂 针对各种问题和场景,在做技术选型和低层技术架构的时候需要考虑: 梳理业务和响应的应用场景需要处理的 阅读全文

posted @ 2020-01-19 23:50 锋锋2019 阅读(468) 评论(0) 推荐(0)

维度建模
摘要:ODS:数据 来源 : 一部分是来自关系型数据库,符合ER模型 。一部分来自日志 ,清洗成二维表 DWD: 把所有的数据清理整合 ,规范化 。脏数据清理 ,命名不规范的。最后拿到的是干净的 ,一致性的数据 。 把公共维度抽取出来,如区域 DWS: 维度建模,通用的汇总层 ,为了避免重复计算。 DWS 阅读全文

posted @ 2019-12-30 08:48 锋锋2019 阅读(1634) 评论(2) 推荐(0)

数据建模
摘要:常用的模型: 关系模式: 把我们的数据抽象成二维表 目前的业界范式有: 第一范式: 第二范式:不存在局部依赖 第三范式: 常用,消除传递属性依赖 建模理论: ER实体模型 GG 维度模型 GG dataVault模型 Anchor 1/ ER模型 例如: 案例: ER图: 但一般 画这个比较耗时间 阅读全文

posted @ 2019-12-08 17:37 锋锋2019 阅读(299) 评论(0) 推荐(0)

数据仓库介绍
摘要:面向业务的数据库常叫 OLTP(on-line transaction processing)面向 分析的数据仓库常叫OLAP(On-Line Analytical Processing),区别见 : https://www.cnblogs.com/hongfeng2019/p/12004551.h 阅读全文

posted @ 2019-12-08 08:19 锋锋2019 阅读(532) 评论(0) 推荐(0)

OLTP和 OLAP区别
摘要:联机事务处理OLTP(on-line transaction processing) 主要是执行基本日常的事务处理,比如数据库记录的增删查改。比如在银行的一笔交易记录,就是一个典型的事务。 OLTP的特点一般有: 1.实时性要求高。我记得之前上大学的时候,银行异地汇款,要隔天才能到账,而现在是分分钟 阅读全文

posted @ 2019-12-08 08:18 锋锋2019 阅读(579) 评论(0) 推荐(0)

superset采集流程
摘要:superset采集流程: 先从业务的bi从库oride-slave-bi(10.52.123.212)去拿数,然后计算(每10分钟由airflow调py代码),放到bi的库(BI业务-数据指标存储10.52.149.112)由superset显示出来. 还有一部分数据是由算法的redis来 痛点: 阅读全文

posted @ 2019-11-16 20:21 锋锋2019 阅读(170) 评论(0) 推荐(0)

数据仓库—初版
摘要:参考: https://aws.amazon.com/cn/redshift/pricing/?sc_channel=PS&sc_campaign=acquisition_CN&sc_publisher=baidu&sc_category=pc&sc_medium=redshift_nb&sc_co 阅读全文

posted @ 2019-08-17 19:06 锋锋2019 阅读(287) 评论(0) 推荐(0)

导航