随笔分类 - BI那点儿事

BI那点儿事—数据的艺术
摘要: 摘要:文章介绍了集成学习的概念和它的发展,它有RF和GBDT两大杀器,它有嫁接法、集成半监督学习的最新进展能够提升学习效果,文章还着重分析了集成学习成功的关键。 编者按:目前机器学习领域诞生的多种算法并不见得都有很好的实战效果。本文作者认为,集成学习是一种立竿见影、从不过时的方法,堪称机器学习兵器谱阅读全文
posted @ 2016-04-13 09:38 Bobby0322 阅读(197) | 评论 (0) 编辑
摘要: 例如,“三国人物是否智力越高,政治就越高”,或是“是否武力越高,统率也越高;准备数据分析环境:SELECT *FROM FactSanguo11WHERE 姓名 IN ( N'荀彧', N'荀攸', N'贾诩', N'程昱', N'郭嘉' )曹魏五谋臣,指荀彧、荀攸、贾诩、程昱、郭嘉五人...阅读全文
posted @ 2014-12-18 19:49 Bobby0322 阅读(877) | 评论 (0) 编辑
摘要: Microsoft神经网络是迄今为止最强大、最复杂的算法。要想知道它有多复杂,请看SQL Server联机丛书对该算法的说明:“这个算法通过建立多层感知神经元网络,建立分类和回归挖掘模型。与Microsoft决策树算法类似,在给定了可预测属性的每个状态时, Microsoft神经网络算法计算输入属性...阅读全文
posted @ 2014-12-15 16:44 Bobby0322 阅读(2233) | 评论 (0) 编辑
摘要: 数据分析基础概念:标准计分: 1、无论作为变量的满分为几分,其标准计分的平均数势必为0,而其标准差势必为1。2、无论作为变量的单位是什么,其标准计分的平均数势必为0,而其标准差势必为1。公式为:离差:离差就是应用标准计分所得的数值。1、无论作为变量的满分为几分,其离差的平均数势必为50,而其标准差势...阅读全文
posted @ 2014-12-10 19:38 Bobby0322 阅读(1613) | 评论 (1) 编辑
摘要: 献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解数据分析基础概念:数据分为“不可测量”的数据和“可测量”的数据。不可测量的数据称为“分类数据”(Category Data或Categorical Data。),而可测量的数据称为“数值数据”(Numerical Data)...阅读全文
posted @ 2014-12-10 11:00 Bobby0322 阅读(1437) | 评论 (5) 编辑
摘要: ETL(Extract/Transformation/Load)是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。ETL过程中的主要环节就是数据抽取、数据转换和加工、数据装载。为了实现这些功能,各个ETL工具一般会...阅读全文
posted @ 2014-12-04 19:24 Bobby0322 阅读(3158) | 评论 (3) 编辑
摘要: 事实表在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。一个按照州、产品和月份划分的销售量和销售额存储的事实表有5个列,概念上与下面的示例类似。SateProductMouthUnitsDollarsWAMountain-100January37.95WACable LockJanuar...阅读全文
posted @ 2014-12-03 23:12 Bobby0322 阅读(8164) | 评论 (1) 编辑
摘要: 准确性验证示例1:——基于三国志11数据库数据准备:挖掘模型:依次为:Naive Bayes 算法、聚类分析算法、决策树算法、神经网络算法、逻辑回归算法、关联算法提升图:依次排名为: 1. 神经网络算法(92.69% 0.99)2. 逻辑回归算法(92.39% 0.99)3. 决策树算法(91.19...阅读全文
posted @ 2014-12-01 20:13 Bobby0322 阅读(3526) | 评论 (2) 编辑
摘要: Microsoft朴素贝叶斯是SSAS中最简单的算法,通常用作理解数据基本分组的起点。这类处理的一般特征就是分类。这个算法之所以称为“朴素”,是因为所有属性的重要性是一样的,没有谁比谁更高。贝叶斯之名则源于Thomas Bayes,他想出了一种运用算术(可能性)原则来理解数据的方法。对此算法的另...阅读全文
posted @ 2014-11-29 19:50 Bobby0322 阅读(2243) | 评论 (1) 编辑
摘要: 什么是聚类分析?聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在三国数据分析中,很多问题可以借助聚类分析来解决,比如三国人物身份划分。聚类分析的基本过程是怎样的?选择聚类变量...阅读全文
posted @ 2014-11-25 21:05 Bobby0322 阅读(1510) | 评论 (0) 编辑
摘要: 献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解数据分析基础概念:集中趋势分析是指在大量测评数据分布中,测评数据向某点集中的情况。总体(population)是指客观存在的,并在同一性质的基础上结合起来的许多个别单位的整体,即具有某一特性的一类事物的全体,又叫母体或全域。...阅读全文
posted @ 2014-11-24 22:07 Bobby0322 阅读(2201) | 评论 (2) 编辑
摘要: 雷达图分析三国超一流谋士、统帅数据,献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解建立数据环境:-- 抽取三国超一流谋士TOP 10数据DECLARE @t1 TABLE ( [姓名] NVARCHAR(255) , [统率] FLOAT , ...阅读全文
posted @ 2014-11-22 21:18 Bobby0322 阅读(1812) | 评论 (4) 编辑
摘要: 根据游戏《三国志11》武将数据,利用决策树分析,找出三国武将特性分布。其中变量包括统率、武力、智力、政治、魅力、身分。变量说明:统率:武将带兵出征时的部队防御力。统帅越高受到普通攻击与兵法攻击越少。武力:武将带兵出征时的部队攻击力,武力越高发动兵法或者普通攻击时对地方部队的伤害就越高;并且当发动单挑...阅读全文
posted @ 2014-11-20 20:38 Bobby0322 阅读(2211) | 评论 (3) 编辑
摘要: 数据准备:一组股票历史成交数据(股票代码:601106 中国一重),起止日期:2011-01-04至今,其中变量有“开盘”、“最高”、“最低”、“收盘”、“总手”、“金额”、“涨跌”等UPDATE FactStockSET [涨跌] = N'涨'WHERE [涨幅] > 0UPDATE...阅读全文
posted @ 2014-11-19 21:14 Bobby0322 阅读(2541) | 评论 (4) 编辑
摘要: Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体,有助于计算依赖变量和独立变量之间的线性关系,然后使用该关系进行预测。该关系采用的表示形式是最能代表数据序列的线的公式。例如,以下关系图中的线是数据最可能的线性表示形式。关系图中的每个数据点都有一个与该数据点与回归线之间距离...阅读全文
posted @ 2014-11-19 12:50 Bobby0322 阅读(1392) | 评论 (2) 编辑
摘要: Microsoft 顺序分析和聚类分析算法是由 Microsoft SQL Server Analysis Services 提供的一种顺序分析算法。您可以使用该算法来研究包含可通过下面的路径或“顺序”链接到的事件的数据。该算法通过对相同的顺序进行分组或分类来查找最常见的顺序。下面是一些顺序示例:用...阅读全文
posted @ 2014-11-18 13:29 Bobby0322 阅读(1018) | 评论 (1) 编辑
摘要: 一、前沿 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descriptive)模...阅读全文
posted @ 2014-11-12 17:15 Bobby0322 阅读(1597) | 评论 (0) 编辑
摘要: 一、回归分析目的:设法找出变量间的依存(数量)关系, 用函数关系式表达出来。所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和...阅读全文
posted @ 2014-11-12 16:57 Bobby0322 阅读(995) | 评论 (1) 编辑
该文被密码保护。
posted @ 2014-11-12 14:42 Bobby0322 阅读(6) | 评论 (0) 编辑
该文被密码保护。
posted @ 2014-11-12 13:23 Bobby0322 阅读(6) | 评论 (0) 编辑
该文被密码保护。
posted @ 2014-11-12 12:57 Bobby0322 阅读(7) | 评论 (0) 编辑
该文被密码保护。
posted @ 2014-11-12 10:54 Bobby0322 阅读(9) | 评论 (0) 编辑
摘要: Microsoft 决策树算法是由 Microsoft SQL Server Analysis Services 提供的分类和回归算法,用于对离散和连续属性进行预测性建模。对于离散属性,该算法根据数据集中输入列之间的关系进行预测。它使用这些列的值(也称之为状态)预测指定为可预测的列的状态。具体地说,...阅读全文
posted @ 2014-11-11 15:15 Bobby0322 阅读(820) | 评论 (0) 编辑
该文被密码保护。
posted @ 2014-11-11 13:01 Bobby0322 阅读(5) | 评论 (0) 编辑
摘要: 斐波那契数列指的是这样一个数列 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368斐波那契数列的发明者,是意大利数学家列昂纳多·斐波那契(L...阅读全文
posted @ 2014-11-10 21:22 Bobby0322 阅读(1504) | 评论 (0) 编辑
该文被密码保护。
posted @ 2014-11-10 13:00 Bobby0322 阅读(4) | 评论 (0) 编辑
摘要: 在模糊查找中我们提到脏数据是怎样进入到表中的事情,主要还是由于一些“Lazy-add”造成的。这种情况我们的肉眼很容易被欺骗,看上去是同一个单词,其实就差那么一个字母,变成了两个不同的单词。一个简单的例子是X-Ray Tech和xRey,我们很有可能认为他们是同一个职务,CT操作员,但是如果让计算机...阅读全文
posted @ 2014-11-08 09:15 Bobby0322 阅读(285) | 评论 (0) 编辑
摘要: BI项目中经常会有一些提取,转换,数据处理(ELT)的工作,其中最主要的是处理过赃数据。假设在项目中我们向数据库中注入了测试数据,但是通过一个外键从另外一个表中载入数据的时候没有对应的数据,那么这一行就是赃数据。这时候可以使用SQL中的Sound-Ex,full-text,相似度算法等方法查找。这种...阅读全文
posted @ 2014-11-07 16:30 Bobby0322 阅读(275) | 评论 (0) 编辑
摘要: 查找转换通过联接输入列中的数据和引用数据集中的列来执行查找。是完全匹配查找。在源表中查找与字表能关联的所有源表记录。准备数据。源表 T_QualMoisture_Middle_Detail字典表 T_DIC_QualProcess数据流任务设计图:设计步骤:阅读全文
posted @ 2014-11-07 12:52 Bobby0322 阅读(136) | 评论 (0) 编辑
摘要: OLE DB命令对数据流中的数据行执行一个OLE DB命令。它针对数据表中的每一行进行更新操作,可以事先将要更新的数据存放在表中。或者针对一个有输入参数的存储过程,可以将这些参数存放在一个数据表中,不用每次都输入参数。示例数据准备: CREATE TABLE SourceParametersForS...阅读全文
posted @ 2014-11-06 16:13 Bobby0322 阅读(228) | 评论 (0) 编辑
摘要: 导入列:导入列例子现在来做一个例子:创建路径D:\Pictures随便在路径D:\Pictures中粘贴4个比较小的图像文件命名为01.png、02.png、03.png、04.png在路径D:\Pictures内创建一个txt文件命名为filelist.txt,文件内容如下D:\Pictures\...阅读全文
posted @ 2014-10-29 14:28 Bobby0322 阅读(438) | 评论 (0) 编辑
摘要: 建立测试数据:CREATE TABLE FactResults ( Name VARCHAR(50) , Course VARCHAR(50) , Score INT )INSERT INTO FactResults ( Name , ...阅读全文
posted @ 2014-10-29 13:32 Bobby0322 阅读(795) | 评论 (0) 编辑
摘要: 关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。不同 O...阅读全文
posted @ 2014-10-28 17:19 Bobby0322 阅读(1098) | 评论 (0) 编辑
摘要: 字词查找转换将从转换输入列的文本中提取的字词与引用表中的字词进行匹配,然后计算出查找表中的字词在输入数据集中出现的次数,并将计数与引用表中的此字词一并写入转换输出的列中。此转换对于创建基于输入文本并带有词频统计信息的自定义词列表很有用。本章功能:取出一个表中某字段的数据,并取出另一个表中的关键词,判...阅读全文
posted @ 2014-10-28 16:15 Bobby0322 阅读(311) | 评论 (0) 编辑
摘要: 逆透视转换将来自单个记录中多个列的值扩展为单个列中具有同样值的多个记录,使得非规范的数据集成为较规范的版本。例如,每个客户在列出客户名的数据集中各占一行,在该行的各列中显示购买的产品和数量。逆透视转换将数据集规范之后,客户购买的每种产品在该数据集中各占一行。 我们下一步是进行逆透视。与透视配置...阅读全文
posted @ 2014-10-28 15:42 Bobby0322 阅读(536) | 评论 (1) 编辑
摘要: 这个和T-SQL中的PIVOT和UNPIVOT的作用是一样的。数据透视转换可以将数据规范或使它在报表中更具可读性。通过透视列值的输入数据,透视转换将规范的数据集转变成规范程度稍低、但更为简洁的版本。例如,在列有客户名称、产品和购买数量的规范的 Orders 数据集中,任何购买多种产品的客户都有多行,...阅读全文
posted @ 2014-10-28 14:23 Bobby0322 阅读(527) | 评论 (1) 编辑
摘要: 什么是数据挖掘?数据挖掘(Data Mining),又称信息发掘(Knowledge Discovery),是用自动或半自动化的方法在数据中找到潜在的,有价值的信息和规则。数据挖掘技术来源于数据库,统计和人工智能。数据挖掘能够做什么对企业中产生的大量的数据进行分析,找出其中潜藏的规则更加清晰的了解目...阅读全文
posted @ 2014-10-27 21:52 Bobby0322 阅读(2248) | 评论 (0) 编辑
摘要: Microsoft SQL Server是一个提供了联机事务处理、数据仓库、电子商务应用的数据库和数据分析的平台。体系架构是描述系统组成要素和要素之间关系的方式。Microsoft SQL Server系统的体系结构是对Microsoft SQL Server的主要组成部分和这些组成部分之间关系的描...阅读全文
posted @ 2014-10-27 20:29 Bobby0322 阅读(2218) | 评论 (0) 编辑
摘要: 百分比抽样和行抽样可以从数据源中随机选择一组数据。这两种task都可以产生两组输出,一组是随机选择的,另一组是没有被选择的。可以将这些选择出的数据发送到开发或者测试服务器上。这个Task的最合适的应用是建立数据挖掘模型然后,使用这些抽样数据来验证这个模型。编辑这种task,选择要抽取的行数或者 百分...阅读全文
posted @ 2014-10-27 17:12 Bobby0322 阅读(451) | 评论 (0) 编辑
摘要: 根据条件分割数据是一个在数据流中添加复杂逻辑的方法,它允许根据条件将数据输出到其他不同的路径中。例如,可以将TotalSugar= 27.4406的输出到另一个路径。如图。可以从上面的属性结构中拖放一个列或者代码段,然后根据逻辑重命名而不是使用默认值Case1,还可以编辑输出列的名字。阅读全文
posted @ 2014-10-27 16:08 Bobby0322 阅读(245) | 评论 (0) 编辑
摘要: 派生列转换通过对转换输入列应用表达式来创建新列值。 表达式可以包含来自转换输入的变量、函数、运算符和列的任意组合。 结果可作为新列添加,也可作为替换值插入到现有列。 派生列转换可定义多个派生列,任何变量或输入列都可以出现在多个表达式中。可以使用此转换执行下列任务:将不同列的数据连接到一个派生列中。 ...阅读全文
posted @ 2014-10-27 15:46 Bobby0322 阅读(342) | 评论 (0) 编辑
摘要: 排序转换允许对数据流中的数据按照某一列进行排序。这是五个常用的转换之一。连接数据源打开编辑界面,编辑这种任务。不想设置为排序列的字段不要选中,默认情况下所有列都会选中。如图所示,按照TotalSugar_Cnt排序,并将所有列输出。在底部的表格中,可以设置输出列的别名,是否按照列来排序。Sort O...阅读全文
posted @ 2014-10-27 14:00 Bobby0322 阅读(240) | 评论 (0) 编辑
摘要: 数据转换执行类似于T-SQL中的函数CONVERT或CAST的功能。数据转换的编辑界面如图,选择需要转换的列,在DataType下拉列表中选择需要的数据类型。Output Alias栏内设置输出时使用的别名。阅读全文
posted @ 2014-10-27 13:47 Bobby0322 阅读(183) | 评论 (0) 编辑
摘要: 特征映射转换如图展示数据流中列的特征,它的编辑界面很简单,只有一个标签界面,点击要进行映射的列,可以选择需要添加新列或需要更新的列。可以在Output Alias列中给原来的列一个别名,选择要进行的操作,可以进行的操作类型有:Byte Reversal:逆转数字位的顺序,例如数据0x1234 0x9...阅读全文
posted @ 2014-10-27 13:11 Bobby0322 阅读(324) | 评论 (0) 编辑
摘要: 审核转换允许对数据流添加审核审核数据,以往使用HIPPA和Sarbanes-Oxley (SOX)时,必须跟踪谁在什么时插入数据,审核转换可以实现这种功能。例如要跟踪那一个task向表里插入数据,可以在审核转换中添加相应的列。在Output Column Name列中输入想要审核的列,在Audit ...阅读全文
posted @ 2014-10-27 12:51 Bobby0322 阅读(190) | 评论 (0) 编辑
摘要: 聚合转换可以像T-SQL中的函数GROUP BY, Average, Minimum, Maximum, 和 Count一样对数据进行聚合运算。在图中可以看到数据以SampleID分组,对TotalSugar做Average、Maximum、Minimum、Count操作。这样产生了4列新的数据,供...阅读全文
posted @ 2014-10-27 11:45 Bobby0322 阅读(428) | 评论 (0) 编辑
摘要: 数据仓库建模 — 星型模式Example of Star Schema数据仓库建模 — 雪片模式Example of Snowflake Schema节省存储空间一定程度上的范式星形 vs.雪花型Which one is better?长期以来的争论两种观点各有支持者争论在继续……目前看来,大部分更...阅读全文
posted @ 2014-10-26 20:05 Bobby0322 阅读(4231) | 评论 (0) 编辑
摘要: 关系 OLAP (ROLAP)ROLAP的基本数据和聚合数据均存放在关系数据库中;ROLAP 存储模式使得分区的聚合存储在关系数据库的表(在分区数据源中指定)中。但是,可为分区数据使用 ROLAP 存储模式,而不在关系数据库中创建聚合。使用 ROLAP 的维度的数据实际上存储在用于定义维度的表中。相...阅读全文
posted @ 2014-10-26 18:27 Bobby0322 阅读(1319) | 评论 (0) 编辑
摘要: 原创·《BI那点儿事—数据的艺术》教程免费发布 各位园友,大家好,我是Bobby,在学习BI和开发的项目的过程中有一些感悟和想法,整理和编写了一些学习资料,本来只是内部学习使用,但为了方便更多的BI开发者,推动BI企业级应用开发,决定整理成一部教程,并在网络上免费发布该教程,希望为BI时代贡献绵薄之...阅读全文
posted @ 2014-10-26 18:17 Bobby0322 阅读(2244) | 评论 (2) 编辑