摘要: 主题域和主题如何划分 主题域的确定必须由最终用户和数据仓库的设计人员共同完成的, 而在划分主题域时,大家的切入点不同可能会造成一些争论、重构等的现象,考虑的点可能会是下方的某些方面: 1、按照业务或业务过程划分:比如一个靠销售广告位置的门户网站主题域可能会有广告域,客户域等,而广告域可能就会有广告的 阅读全文
posted @ 2019-10-16 00:24 1101011 阅读(890) 评论(0) 推荐(0)
摘要: 数据质量管理 下列要素是进行数据质量管理的基础:1.数据质量的好坏是由用户以及数据使用价值所决定的。2.数据质量的好坏代表着数据在数据知识应用中、数据所存在的系统中以及数据使用过程中被应用或者有价值的程度。3.只有当数据被下游过程(系统或用户)所接收并使用时,数据质量问题的研讨才有意义。4.数据是持 阅读全文
posted @ 2019-10-16 00:23 1101011 阅读(644) 评论(0) 推荐(0)
摘要: 元数据管理,管理哪些内容 元数据(metadata):(他应该是结构化信息) 1) 描述数据的数据 2) 补充原始数据的数据 整合图谱(integration map) 描述的是一个应用程序中的数据是如何与另一个应用程序的数据产生关联,以及数据是以什么样的逻辑被组合到一起 整合图谱是数据何种的数据如 阅读全文
posted @ 2019-10-16 00:22 1101011 阅读(534) 评论(0) 推荐(0)
摘要: 从三个点来说: 1)提供服务的对象 2)业务域 3)层次的划分 1)提供服务的对象 a、数据仓库的服务对象基本上是人。明细数据,聚合指标,转化率模型, 他们的目前用户都是人 b、数据中台的服务对象变成 人+机器。 用户标签、机器学习模型,数据挖掘模型,他们的目标是系统。比如说广告系统,推荐系统,风控 阅读全文
posted @ 2019-09-29 18:08 1101011 阅读(1529) 评论(0) 推荐(0)
摘要: sql优化: 数据倾斜的处理方式: -- Q: 活动数据 和 对应的维表进行关联,其中某个活动特别的大。 A: 1) 给关联健加入一个随机的 1-10的值 2)将维度表 的关联健, 每个加上 1-10的值,将维度表扩充十倍。 3)然后将2个表进行join,从而来消除数据倾斜。 -- 尽量不使用cou 阅读全文
posted @ 2019-09-29 18:08 1101011 阅读(503) 评论(0) 推荐(0)
摘要: 因为python2.7各种版本的问题,所以最终使用 python3.6 1、下载anaconda3 2、通过conda 创建虚拟环境3、根据airflow 的官方文档 Quick Start, 部署demo 文档 URL: http://airflow.apache.org/start.html - 阅读全文
posted @ 2019-08-08 09:39 1101011 阅读(805) 评论(0) 推荐(0)
摘要: NW: OLAP引擎、长迭代、mpp、 Presto 数据量增大可能带来的问题: 存储问题,数据的暴涨导现有系统无法承载 查询性能,大量数据的查询导致,所需的时间大大增加,以致于无法忍受。 在变更相关数据报表时,对历史数据的处理,需要耗费大量的时间。导致每次迭代开发,需要耗费较长的时间。 一般情况下 阅读全文
posted @ 2019-07-19 10:43 1101011 阅读(282) 评论(0) 推荐(0)