摘要: **数据质量管理**元数据管理:数据字典,数据血缘关系**数据生命周期 阅读全文
posted @ 2013-08-30 15:51 oycn0755 阅读(103) 评论(0) 推荐(0)
摘要: 构建企业级数据仓库五步法:一、确定主题即确定数据分析或前端展现的主题(例:某年某月某地区的啤酒销售情况)。主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑.二、确定量度 KPI确定主题后,需要考虑分析的技术指标(例:年销售额等等)。它们一般为数据值型数据,其中有些度量值不可以汇总;些可以汇总起来,以便为分析者提供有用的信息。量度是要统计的指标,必须事先选择恰当,基于不同的量度可以进行复杂关键性指标(KPI)的设计和计算。三、确定事实数据粒度确定量度之后,需要考虑该量度的汇总情况和不同维度下量度的聚合情况.例如在业务系统中数据最小记录到秒,而在将来 阅读全文
posted @ 2013-08-30 15:45 oycn0755 阅读(102) 评论(0) 推荐(0)
摘要: 多维模型中的维表包含用来描述事实表中行记录的属性。维表的属性一些提供描述性信息,其他的属性可以规定事实表数据的汇总方法并帮助分析师来理解汇总的数据。维表还包含属性的层次结构来对数据进行分层汇总。维表一般较小,一些代码表经非正规化处理后重复保存在维表中来避免需要关联多个维表和代码表来提高信息查询的性能。根据IBM多维模型设计方法和生命周期,维表的设计要经过以下的步骤:1. 确定维表 在已确认的业务过程以及其度量的粒度的基础,确认所有的维表以及其粒度2. 确定退化维表在已确认的业务粒度上找到一个或多个退化维3. 确定公共维表 确认在这个模型可以多个星型结构共享的公共维表4. 确定维表的属性和维表的 阅读全文
posted @ 2013-08-30 15:37 oycn0755 阅读(800) 评论(0) 推荐(0)
摘要: 随机分区和Same分区和完全分区随机(Random)分区是DataStage的分区方法之一。随机分区是这样操作的:DataStage将输入数据随机地分配到所有节点上。与循环分区类似,随机方法所产生的分区,各个节点上处理的数据也都大致相等。但与循环分区相比,随机分区需要的系统资源开销要大,因为这种方法在分区时,要为每条记录都生成一个随机值。相对循环分区来讲,开销自然要大。Same分区是另一种分区方法,但也可以说它不是一种分区方法。它是这样操作数据的:它什么也不做,仅仅将在前一个stage中已经分区过的数据,依然保留在同样的节点上,并不重新进行分区。因此,Same分区是最快的分区方法。一般情况下, 阅读全文
posted @ 2013-08-30 15:24 oycn0755 阅读(270) 评论(0) 推荐(0)
摘要: 数据库设计的三范式:范式:数据库设计时的一些规则。而这些规则是由一个姓范的人规定的,所以叫范式三范式设计的规则:三范式所追寻的原则是:不存在冗余数据(同样的数据我不存第二遍)第一范式的要求:1.要有主键(设计任何表都要有主键) 2.列不可分第二范式的要求:当一张表里面有多个字段作为主键的时候,非主键的这些字段,不能依赖于部分主键 (只能依赖整个组合的主键,不能依赖部分) 叫做:不能存在部分依赖第三范式的要求:不能存在传递依赖(除了主键之外的任何其他字段必须直接依赖于主键) 阅读全文
posted @ 2013-08-30 14:25 oycn0755 阅读(139) 评论(0) 推荐(0)
摘要: WMSYS.WM_CONCAT: 依赖WMSYS 用户,不同oracle环境时可能用不了,返回类型为CLOB,可用substr截取长度后to_char转化为字符类型LISTAGG : 11g2才提供的函数,不支持distinct,拼接长度不能大于4000,函数返回为varchar2类型,最大长度为4000.with temp as( select 'China' nation ,'Guangzhou' city from dual union all select 'China' nation ,'Shanghai' city f 阅读全文
posted @ 2013-08-30 14:21 oycn0755 阅读(161) 评论(0) 推荐(0)
摘要: 1,SQL自身的优化:调优,并行处理2,stage的拆分与合并:实践测试为准 如多个JOIN的stage双方都为大数量(几百万一般大于200w)则考虑合并。如大表但JOIN的数据不大就不用合并。 如一个stage中的两个表都为大表且关联很慢时考虑拆分为两个stage作Join(select后数据不大:小于40w)3,选用合理的stage: 像sort,之类的尽量少用,在数据库里完成4,大数据量(上千万)上述方法都优化不明显后 可考虑采用直接INSERT 语句 使用Oracle后台处理,而非DS资源抽取插入。DataStage Job优化指导原则之一:算法的优化。 任何程序的优化,第一点首... 阅读全文
posted @ 2013-08-30 10:11 oycn0755 阅读(507) 评论(0) 推荐(0)
摘要: Join: 数据集内连接,外连接(Left,Rigth)Lookup: 数据字典关联,左关联Transform : 数据计算,通过利用系统函数和表达式进行数据列计算转换,输入输出Mapping;数据分流,定义constraints数据分流、过滤。条件表达式:相当于自定义函数Aggregator 汇总Copy 一个数据集复制为多个数据集Filter 一个数据集不同过滤条件 多个输出数据集,一个Reject(条件都不满足时)Funnel 烟囱,多个输入一个输出 ,相当于Union allRemove Duplicates 去重:一个排序的输入一个非重复输出,依据关键字段判断重复数据Sort 排序: 阅读全文
posted @ 2013-08-30 10:03 oycn0755 阅读(450) 评论(0) 推荐(0)