随笔分类 -  BI那点儿事

BI那点儿事—数据的艺术
该文被密码保护。
posted @ 2014-11-12 12:57 Bobby0322 阅读(7) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2014-11-12 10:54 Bobby0322 阅读(9) 评论(0) 推荐(0) 编辑
摘要:Microsoft 决策树算法是由 Microsoft SQL Server Analysis Services 提供的分类和回归算法,用于对离散和连续属性进行预测性建模。对于离散属性,该算法根据数据集中输入列之间的关系进行预测。它使用这些列的值(也称之为状态)预测指定为可预测的列的状态。具体地说,... 阅读全文
posted @ 2014-11-11 15:15 Bobby0322 阅读(1453) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2014-11-11 13:01 Bobby0322 阅读(5) 评论(0) 推荐(0) 编辑
摘要:斐波那契数列指的是这样一个数列 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368斐波那契数列的发明者,是意大利数学家列昂纳多·斐波那契(L... 阅读全文
posted @ 2014-11-10 21:22 Bobby0322 阅读(2261) 评论(0) 推荐(1) 编辑
该文被密码保护。
posted @ 2014-11-10 13:00 Bobby0322 阅读(5) 评论(0) 推荐(0) 编辑
摘要:在模糊查找中我们提到脏数据是怎样进入到表中的事情,主要还是由于一些“Lazy-add”造成的。这种情况我们的肉眼很容易被欺骗,看上去是同一个单词,其实就差那么一个字母,变成了两个不同的单词。一个简单的例子是X-Ray Tech和xRey,我们很有可能认为他们是同一个职务,CT操作员,但是如果让计算机... 阅读全文
posted @ 2014-11-08 09:15 Bobby0322 阅读(675) 评论(0) 推荐(0) 编辑
摘要:BI项目中经常会有一些提取,转换,数据处理(ELT)的工作,其中最主要的是处理过赃数据。假设在项目中我们向数据库中注入了测试数据,但是通过一个外键从另外一个表中载入数据的时候没有对应的数据,那么这一行就是赃数据。这时候可以使用SQL中的Sound-Ex,full-text,相似度算法等方法查找。这种... 阅读全文
posted @ 2014-11-07 16:30 Bobby0322 阅读(731) 评论(0) 推荐(0) 编辑
摘要:查找转换通过联接输入列中的数据和引用数据集中的列来执行查找。是完全匹配查找。在源表中查找与字表能关联的所有源表记录。准备数据。源表 T_QualMoisture_Middle_Detail字典表 T_DIC_QualProcess数据流任务设计图:设计步骤: 阅读全文
posted @ 2014-11-07 12:52 Bobby0322 阅读(392) 评论(0) 推荐(0) 编辑
摘要:OLE DB命令对数据流中的数据行执行一个OLE DB命令。它针对数据表中的每一行进行更新操作,可以事先将要更新的数据存放在表中。或者针对一个有输入参数的存储过程,可以将这些参数存放在一个数据表中,不用每次都输入参数。示例数据准备: CREATE TABLE SourceParametersForS... 阅读全文
posted @ 2014-11-06 16:13 Bobby0322 阅读(577) 评论(0) 推荐(0) 编辑
摘要:导入列:导入列例子现在来做一个例子:创建路径D:\Pictures随便在路径D:\Pictures中粘贴4个比较小的图像文件命名为01.png、02.png、03.png、04.png在路径D:\Pictures内创建一个txt文件命名为filelist.txt,文件内容如下D:\Pictures\... 阅读全文
posted @ 2014-10-29 14:28 Bobby0322 阅读(808) 评论(0) 推荐(0) 编辑
摘要:建立测试数据:CREATE TABLE FactResults ( Name VARCHAR(50) , Course VARCHAR(50) , Score INT )INSERT INTO FactResults ( Name , ... 阅读全文
posted @ 2014-10-29 13:32 Bobby0322 阅读(1535) 评论(0) 推荐(1) 编辑
摘要:关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。不同 O... 阅读全文
posted @ 2014-10-28 17:19 Bobby0322 阅读(2713) 评论(0) 推荐(0) 编辑
摘要:字词查找转换将从转换输入列的文本中提取的字词与引用表中的字词进行匹配,然后计算出查找表中的字词在输入数据集中出现的次数,并将计数与引用表中的此字词一并写入转换输出的列中。此转换对于创建基于输入文本并带有词频统计信息的自定义词列表很有用。本章功能:取出一个表中某字段的数据,并取出另一个表中的关键词,判... 阅读全文
posted @ 2014-10-28 16:15 Bobby0322 阅读(666) 评论(0) 推荐(0) 编辑
摘要:逆透视转换将来自单个记录中多个列的值扩展为单个列中具有同样值的多个记录,使得非规范的数据集成为较规范的版本。例如,每个客户在列出客户名的数据集中各占一行,在该行的各列中显示购买的产品和数量。逆透视转换将数据集规范之后,客户购买的每种产品在该数据集中各占一行。 我们下一步是进行逆透视。与透视配置... 阅读全文
posted @ 2014-10-28 15:42 Bobby0322 阅读(1051) 评论(1) 推荐(0) 编辑
摘要:这个和T-SQL中的PIVOT和UNPIVOT的作用是一样的。数据透视转换可以将数据规范或使它在报表中更具可读性。通过透视列值的输入数据,透视转换将规范的数据集转变成规范程度稍低、但更为简洁的版本。例如,在列有客户名称、产品和购买数量的规范的 Orders 数据集中,任何购买多种产品的客户都有多行,... 阅读全文
posted @ 2014-10-28 14:23 Bobby0322 阅读(981) 评论(1) 推荐(1) 编辑
摘要:什么是数据挖掘?数据挖掘(Data Mining),又称信息发掘(Knowledge Discovery),是用自动或半自动化的方法在数据中找到潜在的,有价值的信息和规则。数据挖掘技术来源于数据库,统计和人工智能。数据挖掘能够做什么对企业中产生的大量的数据进行分析,找出其中潜藏的规则更加清晰的了解目... 阅读全文
posted @ 2014-10-27 21:52 Bobby0322 阅读(3643) 评论(0) 推荐(0) 编辑
摘要:Microsoft SQL Server是一个提供了联机事务处理、数据仓库、电子商务应用的数据库和数据分析的平台。体系架构是描述系统组成要素和要素之间关系的方式。Microsoft SQL Server系统的体系结构是对Microsoft SQL Server的主要组成部分和这些组成部分之间关系的描... 阅读全文
posted @ 2014-10-27 20:29 Bobby0322 阅读(4118) 评论(0) 推荐(1) 编辑
摘要:百分比抽样和行抽样可以从数据源中随机选择一组数据。这两种task都可以产生两组输出,一组是随机选择的,另一组是没有被选择的。可以将这些选择出的数据发送到开发或者测试服务器上。这个Task的最合适的应用是建立数据挖掘模型然后,使用这些抽样数据来验证这个模型。编辑这种task,选择要抽取的行数或者 百分... 阅读全文
posted @ 2014-10-27 17:12 Bobby0322 阅读(995) 评论(0) 推荐(0) 编辑
摘要:根据条件分割数据是一个在数据流中添加复杂逻辑的方法,它允许根据条件将数据输出到其他不同的路径中。例如,可以将TotalSugar= 27.4406的输出到另一个路径。如图。可以从上面的属性结构中拖放一个列或者代码段,然后根据逻辑重命名而不是使用默认值Case1,还可以编辑输出列的名字。 阅读全文
posted @ 2014-10-27 16:08 Bobby0322 阅读(575) 评论(0) 推荐(0) 编辑