摘要: So far, you've learned about SSIS objects and process control architecture. Now you will learn about the SSIS components that you use to design, test, deploy, manage, schedule, and execute SSIS packages. Some of the SSIS components reside on the SSIS server, whereas other components reside on yo 阅读全文
posted @ 2012-04-28 11:09 野三坡 阅读(372) 评论(0) 推荐(0) 编辑
摘要: A significant advancement to SSIS is the package architecture design for its process control management. You've already learned that the SSIS process control architecture includes the control flow, data flow, and event handler components. Each of these process control components includes common 阅读全文
posted @ 2012-04-27 15:29 野三坡 阅读(332) 评论(0) 推荐(0) 编辑
摘要: Before you begin learning how to create SSIS applications, it is important to familiarize yourself first with the SSIS process control components and the objects used to create SSIS applications. The first object to note within SSIS is the package.An SSIS package is the highest-level object within a 阅读全文
posted @ 2012-04-27 14:57 野三坡 阅读(232) 评论(0) 推荐(0) 编辑
摘要: One common use for SSIS is to move data from one data source to another. The reasons for moving data are too numerous to count. Some common business reasons for using SSIS include migrating business data from one application to another, extracting data for distribution to external entities, integrat 阅读全文
posted @ 2012-04-27 14:46 野三坡 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 以下是网上摘录的UE 技巧1)删除空行: 替换 %[ ^t]++^p 为 空串2)删除行尾空格: 替换 [ ^t]+$ 为 空串3)删除行首空格: 替换 %[ ^t]+ 为 空串4)每行设置为固定的4个空格开头: 替换 %[ ^t]++^([~ ^t^p]^) 为 " ^1"5)每段设置为固定的4个空格开头: 替换 %[ ^t]+ 为 " " (如果一行是以空格开始的,则视之为一段的开始行)6)将一段合并为一行: 替换 [ ^t]++^p^([~ ^t^p]^) 为 ^1 (注意: 此处假定文本是以DOS方式回车换行 - CR/LF)7)去掉HTML T 阅读全文
posted @ 2012-04-18 10:46 野三坡 阅读(21107) 评论(0) 推荐(1) 编辑
摘要: OLTP 与数据仓库--有何差异?在日常生活中,我们要使用大量的应用程序来生成新的数据、变更数据、删除数据,当然在大多数的情况下我们还要查阅和分析数据。就来想象一个 收发 email 的简单应用程序吧。我们已经存储了地址信息,可能还存储了一些文档。我们可以决定是否存储已经发送过的邮件,但是也可能隔一段时间后将其删除,或者删除已 经发送过的所有邮件。那么我们该如何处理一段时间以前删除或者修改过的地址呢?我们再也不会看到它们了。Email 程序大部分都属于不是很复杂的数据库,但是完全可以将其看作一个在单用户环境下的 OLTP(在线事务处理系统)简单示例。它使用了所有的所谓访问数据的操作 CRUD( 阅读全文
posted @ 2012-04-10 19:03 野三坡 阅读(330) 评论(0) 推荐(0) 编辑
摘要: 锁模式SQL Server 2008 R2MicrosoftSQL Server 数据库引擎使用不同的锁模式锁定资源,这些锁模式确定了并发事务访问资源的方式。下表显示了数据库引擎使用的资源锁模式。锁模式说明共享 (S)用于不更改或不更新数据的读取操作,如 SELECT 语句。更新 (U)用于可更新的资源中。 防止当多个会话在读取、锁定以及随后可能进行的资源更新时发生常见形式的死锁。排他 (X)用于数据修改操作,例如 INSERT、UPDATE 或 DELETE。 确保不会同时对同一资源进行多重更新。意向用于建立锁的层次结构。 意向锁包含三种类型:意向共享 (IS)、意向排他 (IX) 和意向排 阅读全文
posted @ 2012-03-27 16:07 野三坡 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 最近在项目中进行压力测试遇到了数据库的死锁问题,简言之,如下的代码在 SERIALIZABLE 隔离级别造成了死锁:?1234567891011121314SELECT @findCount=COUNT(id) FROM MyTableWHERE [fk_related_id]=@ArgumentIF (@findCount > 0)BEGINROLLBACK TRANSACTIONRETURN ERROR_CODEENDINSERT INTO MyTable ([fk_related_id],…)VALUES (@Argument,…)COMMIT TRANSACTIONRETURN 阅读全文
posted @ 2012-03-27 15:01 野三坡 阅读(228) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2012-03-27 14:30 野三坡 阅读(4) 评论(0) 推荐(0) 编辑
摘要: http://blog.bridata.ca/?cat=16前几天Post 了一些BI 的面试问题,感兴趣的人很多,有很多人问我答案以此来评估一下自己的知识水平。坦白地说我没有写在纸上的具体答案,事实上每个问题也没有具体和精确的答案,所谓面试就不是笔试,很多问和答全在交谈中的感觉了。也可能国内的面试和国外的不同吧,或者说找工市场不同?总之从 CSDN 上的反馈来看,大家还是挺有兴趣的。以下选择了些 Sr. 级别的问题,简单写了些答案,立此存照。Questions I asked candidates who are applyingSr.Developer/Tech leadposition: 阅读全文
posted @ 2012-03-20 17:08 野三坡 阅读(363) 评论(0) 推荐(0) 编辑
摘要: http://blog.bridata.ca/?p=458Amtura 公司总部位于美国宾州,是一家从事 ERP 软件和通信软件的公司。总部大约有700多管理人员,3个公司的分部分别在加州和得克萨斯州。ERP 软件的客户主要是包装产品生产企业,在美国由于生产企业的分工很细,很多生产企业并不亲自包装自己的产品,而是由专门的包装公司负责包装,也有的包装企业负责给客户提供特定的包装产品,但是这些包装企业往往很专业也很大。Amtura 的软件产品就是面向这些包装企业的。项目简介:Amtura的 ERP 系统虽然有专用的领域,但是也有生产企业 ERP 系统的一般特点,也分几个主要的模块:预订、生产、销售 阅读全文
posted @ 2012-03-20 17:01 野三坡 阅读(244) 评论(0) 推荐(0) 编辑
摘要: A. 备份整个数据库下面的示例将 AdventureWorks2008R2 数据库备份到磁盘文件。复制代码BACKUP DATABASE AdventureWorks2008R2 TO DISK = 'Z:\SQLServerBackups\AdvWorksData.bak' WITH FORMAT;GOB. 备份数据库和日志下面的示例备份 AdventureWorks2008R2 示例数据库,默认情况下,该数据库使用简单恢复模式。若要支持日志备份,请将 AdventureWorks2008R2 数据库改为使用完整恢复模式。接下来,该示例使用 创建一个逻辑以备份数据 (AdvW 阅读全文
posted @ 2012-03-20 15:58 野三坡 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 万恶的null啊和null进行数据计算会导致结果也是null例如 select null+3 return的结果是null但是对一个列求和 select sum(a) 即使a中有null ,也无关紧要,对于菜鸟的我来说,还是少用null为妙啊 阅读全文
posted @ 2012-03-19 16:49 野三坡 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 走过2010年,回首走过的一年,全部精力投入到了数据平台的建设过程中,在不断的探索、尝试中探索一条适合数据仓库发展之路的数据模型建设方法;作为数据平台建设的主要驱动人,与团队一起完成数据平台基础数据模型(宽表层)的搭建,应用迁移、实现应用项目在新的数据模型上实施。在建设的过程中,有过困惑、走过弯路,但获得了对模型设计方法和理念的体会与沉淀。因此,我更多想对在数据平台建设工作中的历程、困惑、体会做一个梳理与总结。一、源系统数据调研阿里数据仓库普遍采用的建设方法是应用驱动型,源系统的业务逻辑知识散落在各个ETL开发与PD的头脑中,缺乏总整体上对源系统的一个全面了解。全面的数据调研工作对后续数据仓库 阅读全文
posted @ 2012-03-19 15:49 野三坡 阅读(2612) 评论(0) 推荐(0) 编辑
摘要: http://www.alidw.com/?p=309传统的关系数据库一般采用二维数表的形式来表示数据,一个维是行,另一个维是列,行和列的交叉处就是数据元素。关系数据的基础是关系数据库模型,通过标准的SQL语言来加以实现。 数据仓库是多维数据库,它扩展了关系数据库模型,以星形架构为主要结构方式的,并在它的基础上,扩展出理论雪花形架构和数据星座等方式,但不管是哪一种架构,维度表、事实表和事实表中的量度都是必不可少的组成要素。 维度:是多维数据集的结构性特性。它们是事实数据表中用来描述数据的分类的有组织层次结构(级别)。这些分类和级别分别描述了一些相似的成员集合,用户将基于这些成员集合进行分析。 阅读全文
posted @ 2012-03-19 13:50 野三坡 阅读(916) 评论(0) 推荐(0) 编辑
摘要: http://www.alidw.com/?p=1755继续ETL随笔三的话题,还是继续上回提到ETL数据质量问题,其实这是无法根治的,只能采取特定的手段去尽量避免,而且必须要定义出度量方法来衡量数据的质量是好还是坏。对于数据源的质量,客户对此应该更加关心,如果在这个源头不能保证比较干净的数据,那么后面的分析功能的可信度也都成问题。数据源系统也在不断进化过程中,客户的操作也在逐渐规范中,BI系统也同样如此。 如何应对数据源的质量问题?记得曾经讨论过一个话题-”-1的处理”,在数据仓库模型维表中,通常有一条-1记录,表示“未知”,这个未知含义可广了,任何可能出错的数据,NULL数据甚至是规则没有 阅读全文
posted @ 2012-03-19 13:38 野三坡 阅读(444) 评论(0) 推荐(0) 编辑
摘要: http://www.alidw.com/?p=641谈下ETL过程中经常遇到的历史拉链表的做法,假定现在的目标表是t,增量表是s,现在要把S表的数据加载到历史拉链表T中,不要使用update语句,常见的实现方案有如下几种,具体实现步骤可参见下方。方法一: 1)用t表与s表进行关联比较,把t表中已经改变的记录选择出来,更新结束日期为当前etl日期,然后把结果加载到临时表tmp1 2)delete t表中已经发生改变的那些记录 3)把tmp1表中的记录以及s表的记录都加载到t中,注意,s表在加载要t表时,开始日期是当前etl日期,结果日期为最大日期方法二: 1)用t表与s表进行关联比较,把t表中 阅读全文
posted @ 2012-03-19 13:22 野三坡 阅读(594) 评论(0) 推荐(0) 编辑
摘要: http://www.alidw.com/?p=205谈到ETL,很多人都认为最重要的只是涉及到抽取、转换、加载那些脚本以及脚本的效率这几个方面,其实不尽然,ETL其实包含了很多方面,现在我谈谈个人在ETL方面的心得。(一)数据源。在跨系统做数据抽取的时候往往忽视了几个重要的原则,其一,源表结构的稳定性。如果源表结构有改变,如何保证ETL不受影响。其二,数据接口。源系统如何把数据提供给目标,如果是文本形式,那么就有必要对文本的格式进行约定,同时就如何保证文本的到达通讯、文本的完整性做好相应的策略,通常的做法都是由源提供一个标志文件,目标到固定未知去监测这个文件何时到达,并读取文件中的信息:数据 阅读全文
posted @ 2012-03-19 12:28 野三坡 阅读(398) 评论(0) 推荐(0) 编辑
摘要: 所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库厂商主要是 IBM 和 NCR,这两家公司的除了能够提供较为强大的数据仓库平台之外,也有各自的针对某个行业的数据模型。例如,在银行业,IBM 有自己的 BDWM(Banking data warehouse model),而 NCR 有自己的 FS-LDM 模型。在电信业,IBM 有 TDWM(Telecom Data warehouse model),而 NCR 有自己的 TS-LDM 模型。因此,我们看到,不同的公司有自己针对某个行业的理解,因此会有不同的公. 阅读全文
posted @ 2012-03-16 11:14 野三坡 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 浅析查找ETL系统瓶颈What steps do you take to determine the bottleneck of a slow running ETL process?如果ETL进程运行较慢,需要分哪几步去找到ETL系统的瓶颈问题。答:ETL系统遇到性能问题,运行很慢是一件较常见的事情,这时要做的是逐步找到系统的瓶颈在哪里。首先要确定是由CPU、内存、I/O和网络等产生的瓶颈,还是由ETL处理过程产生的瓶颈。如果环境没有瓶颈,那么需要分析ETL的代码。这时,我们可以采用排除的方法,需要隔离不同的操作,并分别对它们进行测试。如果是采用纯手工编码方式的ETL处理,隔离不同的操作要麻 阅读全文
posted @ 2012-03-15 17:06 野三坡 阅读(268) 评论(0) 推荐(0) 编辑