随笔档案「2012年9月」 - honkcal

ETL工具箱 4 清洗和规范化

摘要：清洗和规范化实际上真正的改变了数据，并对数据能否用于预期的目标起到决定作用。会有三个表：数据评估报告，错误事件事实表，审计维。清洗和规范化步骤中产生元数据。四个部分：1 设计目标 2 清洗提交 3 快照及其度量 4 规范化提交清洗和规范化过程中关注的更多的是约束关系与控制而不是数据上的内容。提交阶段，主要会介绍清洗子系统的主要结构：错误事件表和审计维定义数据质量：正确的，明确的，一致的，完整的（每个实例定义了特定的值和描述，要确保总数量是完整的）有两个里程碑：1 是在数据抽取完毕之后 2 是在数据清理和规范化之后1 设计目标参与者：数据仓库管理员（日常决策），信息驾驶员（定义信息策略，.. 阅读全文

posted @ 2012-09-29 00:11 honkcal 阅读(1209) 评论(0) 推荐(0)

Hash表（转发）

摘要：Hash表（这篇文章转发，感觉还凑合，但是很不完全，有代码，凑合着看） Hash表也称散列表，也有直接译作哈希表，Hash表是一种特殊的数据结构，它同数组、链表以及二叉排序树等相比较有很明显的区别，它能够快速定位到想要查找的记录，而不是与表中存在的记录的关键字进行比较来进行查找。这个源于Hash表设计的特殊性，它采用了函数映射的思想将记录的存储位置与记录的关键字关联起来，从而能够很快速地进行查找。1.Hash表的设计思想对于一般的线性表，比如链表，如果要存储联系人信息：　张三 13980593357李四 15828662334王五 13409821234张帅 13890583472 ... 阅读全文

posted @ 2012-09-28 15:05 honkcal 阅读(343) 评论(0) 推荐(0)

ETL工具箱3 抽取(3.3抽取变化数据)

摘要：初始化加载数据，捕获源数据中的数据内容的变化不重要。但是加载完成后，捕获源系统中的数据变化立即变成非常重要的任务。要提前规划这个任务。必须制定相应的策略来在项目中捕获源数据中不断增长的变化。几种捕获源数据变化的方法：使用审计列：审计列示附在每个表的最后用来存储记录增加或者修改的日期或者时间，审计列一般通过数据库触发器产生，当插入或更新记录的时候自动生成（有时候为了提升性能，这些列由前端产生）。确认审计列是可靠的，则需要制定策略来利用他们，比如：比较每个记录最后修改的日期和时间与上次加载后的最后的日期和时间，取他们中较晚的值。由于事实表和维表可以来源于许多不同的表和系统，并且由于事实表只包含外建阅读全文

posted @ 2012-09-21 13:26 honkcal 阅读(881) 评论(0) 推荐(0)

ETL工具箱3 抽取（3.2不同平台抽取数据）

摘要：数据不同形式，可以通过ODBC连接不同的数据源，ODBC灵活性是以性能为代价的。对于那些通过ODBC处理数据的ETL过程，在ETL系统和后台数据库之间增加了两层：ODBC管理器，ODBC驱动程序主机数据源：有特定的结构加强外围设备通道来处理输入输出，CPU可以专注处理数据，比如计算和均衡。如果源数据在主机系统上，则ETL工具具有从EBCDIC到ASCII的数据转换功能是很重要，如果可能，最好是在主机上进行转换以避免发生任何教小数值的和压缩数字的损失，如果通过磁带或者其他的介质获取，则这种转换必须由非主机环境中的ETL工具来实现。（具体不详细说了，这块接触的不多）平面文件：使用平面文件的原因 1 阅读全文

posted @ 2012-09-21 00:20 honkcal 阅读(1205) 评论(0) 推荐(0)

ETL工具箱3 抽取（3.1逻辑映射分析）

摘要：在开始创建抽取系统之前，需要一份逻辑数据映射，它描述了那些提交到前台的表中原始字段和最终目标字段之间的关系。该文档贯穿ETL系统物理之前设计逻辑：1 有一个规划 2确定候选的数据源 3使用数据评估分析工具分析源系统 4 接受数据线和业务规则的遍历 5充分理解数据仓库数据模型 6 验证计算和公式的有效性逻辑数据映射的组成：目标表名称，表类型，SCD(缓慢变化维度),源数据库，源表名称，源列名称，转换。这个表必须清洗的描述在转换的过程中包含的流程，不能有任何疑问的地方。表类型给了我们数据加载过程执行的次序--》先是维表，然后是事实表。与表类型一起，加载维表过程SCD类型很重要，开发之前需要理解哪些阅读全文

posted @ 2012-09-19 22:15 honkcal 阅读(1330) 评论(0) 推荐(0)

ETL工具箱2 ETL数据结构

摘要：数据仓库的后台部分经常被称为：集结区（StagingArea）。数据集结主要是指写入磁盘。并且建议ETL的四个主要检查点都要有数据集结。是将数据存储在物理集结区还是在内存中直接处理，这个问题是ETL架构中的最根本的选择之一。开发的ETL处理的效率很大程度上取决于能否很好的均衡物理IO与内存处理。能够在把数据写入集结表和保持在内存两种方法取得理想的均衡是个很大的挑战，也是优化处理过程中必须考虑的问题。最终目标：将数据以最快的速度从数据源获取到最终目标；在处理的过程发生错误的时候，能够进行恢复而无需从头开始。如果计划在内存中处理所有的ETL数据处理，不要忘记任何一种数据仓库，无论其架构和运行环境如阅读全文

posted @ 2012-09-16 19:03 honkcal 阅读(1215) 评论(0) 推荐(0)

ETL工具箱1 需求现状和架构

摘要：ETL系统能够：消除数据错误并纠正缺失数据；提供对于数据可信度的文档化衡量；为保护数据获取相互作用的数据流程；把多个源数据整合到一起；将数据进行结构化供最终用户使用。抽取转换加载==〉抽取，清洗，规格化，提交。创建ETL系统的时候，头脑里并存的两条主线：规划&设计主线和数据流主线规划&设计主线：需求和实现===〉架构===〉系统实施===〉测试和发布数据流主线：抽取===〉清洗====〉规格化====〉提交架构的时候，我们必须作出关于创建ETL系统创建方法的主要的决定，其中包括：1 手工编码还是使用ETL工具 2批处理还是流数据处理 3水平任务依赖还是垂直任务依赖4自动阅读全文

posted @ 2012-09-11 09:30 honkcal 阅读(917) 评论(0) 推荐(0)

Honkcal

有些东西很简单。有些东西很难，难了就多看几遍，便简单了。

09 2012 档案

公告