oycn0755 - 博客园

2013年9月13日

摘要：职位目标：IT总监 CIOCMMI:IPD: 集成产品开发（Integrated Product Development, 简称IPD）是一套产品开发的模式、理念与方法。PMP：企业IT架构业务：财务，HR ,ERP 阅读全文

posted @ 2013-09-13 09:54 oycn0755 阅读(64) 评论(0) 推荐(0)

2013年9月6日

摘要：实体间关系：1， Identifying Relationship 依赖关系主键-外键，从表的外键作为从表主键：实体須由父实体决定,其存在亦需依附父实体从表的外键不为从表主键：子实体不須由父实体决定,但其存在仍需依附父实体 (mandatory)2，Non-Identifying，Non-Mandatory Relationship （非强制关系）关联关系实体 PK 迁移到子实体当作非主键且与子实体为　非标识行 ( Non-Identifying ) ．实体与父实体间的标识为独立存在性．实体信息本身不需完全依賴父实体3，Many-to-Many Relationship 多对多关系阅读全文

posted @ 2013-09-06 17:57 oycn0755 阅读(550) 评论(0) 推荐(0)

数据仓库概念

摘要：退化维般来说事实表中的外键都对应一个维表，维的信息主要存放在维表中。但是退化维仅仅是事实表中的一列，这个维的相关信息都在这一列中，没有维表与之相关联。比如：发票号，序列号等等。那么退化维有什么作用呢？1、退化维具有普通维的各种操作，比如：上卷，切片，切块等(上卷汇总，下钻明细；切片，切块:对二维数据进行切片，三维数据进行切块,,可得到所需要的数据)2、如果存在退化维，那么在ETL的过程将会变得容易。3、它可以让group by等操作变得更快阅读全文

posted @ 2013-09-06 10:51 oycn0755 阅读(154) 评论(0) 推荐(0)

2013年9月5日

数据仓库设计

摘要：主键生成增量加载维表虚拟主键阅读全文

posted @ 2013-09-05 15:39 oycn0755 阅读(109) 评论(0) 推荐(0)

Linux 学习

摘要：书籍资料：1.《鸟哥的Linux私房菜-基础学习篇》2.《Linux Shell 脚本攻略》3.《Unix环境高级编程》网上课程：http://wenku.baidu.com/course/theme/linux?fr=search学习：Linux基础，shell开发常用命令Shell: 变量VI 文件编辑器阅读全文

posted @ 2013-09-05 09:05 oycn0755 阅读(114) 评论(0) 推荐(0)

2013年8月30日

数据仓库管控

摘要： **数据质量管理**元数据管理：数据字典，数据血缘关系**数据生命周期阅读全文

posted @ 2013-08-30 15:51 oycn0755 阅读(111) 评论(0) 推荐(0)

数据仓库构建步骤 .

摘要：构建企业级数据仓库五步法:一、确定主题即确定数据分析或前端展现的主题(例:某年某月某地区的啤酒销售情况)。主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑.二、确定量度 KPI确定主题后，需要考虑分析的技术指标(例:年销售额等等)。它们一般为数据值型数据，其中有些度量值不可以汇总；些可以汇总起来，以便为分析者提供有用的信息。量度是要统计的指标，必须事先选择恰当，基于不同的量度可以进行复杂关键性指标(KPI)的设计和计算。三、确定事实数据粒度确定量度之后，需要考虑该量度的汇总情况和不同维度下量度的聚合情况.例如在业务系统中数据最小记录到秒，而在将来阅读全文

posted @ 2013-08-30 15:45 oycn0755 阅读(110) 评论(0) 推荐(0)

维表设计方法

摘要：多维模型中的维表包含用来描述事实表中行记录的属性。维表的属性一些提供描述性信息，其他的属性可以规定事实表数据的汇总方法并帮助分析师来理解汇总的数据。维表还包含属性的层次结构来对数据进行分层汇总。维表一般较小，一些代码表经非正规化处理后重复保存在维表中来避免需要关联多个维表和代码表来提高信息查询的性能。根据IBM多维模型设计方法和生命周期，维表的设计要经过以下的步骤：1. 确定维表在已确认的业务过程以及其度量的粒度的基础，确认所有的维表以及其粒度2. 确定退化维表在已确认的业务粒度上找到一个或多个退化维3. 确定公共维表确认在这个模型可以多个星型结构共享的公共维表4. 确定维表的属性和维表的阅读全文

posted @ 2013-08-30 15:37 oycn0755 阅读(816) 评论(0) 推荐(0)

Datastage 分区partition

摘要：随机分区和Same分区和完全分区随机（Random）分区是DataStage的分区方法之一。随机分区是这样操作的：DataStage将输入数据随机地分配到所有节点上。与循环分区类似，随机方法所产生的分区，各个节点上处理的数据也都大致相等。但与循环分区相比，随机分区需要的系统资源开销要大，因为这种方法在分区时，要为每条记录都生成一个随机值。相对循环分区来讲，开销自然要大。Same分区是另一种分区方法，但也可以说它不是一种分区方法。它是这样操作数据的：它什么也不做，仅仅将在前一个stage中已经分区过的数据，依然保留在同样的节点上，并不重新进行分区。因此，Same分区是最快的分区方法。一般情况下，阅读全文

posted @ 2013-08-30 15:24 oycn0755 阅读(275) 评论(0) 推荐(0)

数据库三范式

摘要：数据库设计的三范式：范式：数据库设计时的一些规则。而这些规则是由一个姓范的人规定的，所以叫范式三范式设计的规则：三范式所追寻的原则是：不存在冗余数据(同样的数据我不存第二遍)第一范式的要求：1.要有主键(设计任何表都要有主键) 2.列不可分第二范式的要求：当一张表里面有多个字段作为主键的时候，非主键的这些字段，不能依赖于部分主键 (只能依赖整个组合的主键，不能依赖部分) 叫做：不能存在部分依赖第三范式的要求：不能存在传递依赖(除了主键之外的任何其他字段必须直接依赖于主键) 阅读全文

posted @ 2013-08-30 14:25 oycn0755 阅读(147) 评论(0) 推荐(0)

oycn0755的IT时代

风吹草动

公告