BI那点儿事 - 随笔分类 - Bobby0322

集成学习：机器学习兵器谱的“屠龙刀”

摘要：摘要：文章介绍了集成学习的概念和它的发展，它有RF和GBDT两大杀器，它有嫁接法、集成半监督学习的最新进展能够提升学习效果，文章还着重分析了集成学习成功的关键。编者按：目前机器学习领域诞生的多种算法并不见得都有很好的实战效果。本文作者认为，集成学习是一种立竿见影、从不过时的方法，堪称机器学习兵器谱阅读全文

posted @ 2016-04-13 09:38 Bobby0322 阅读(572) 评论(0) 推荐(0)

《BI那点儿事》双变量的相关分析——相关系数

摘要：例如，“三国人物是否智力越高，政治就越高”，或是“是否武力越高，统率也越高；准备数据分析环境：SELECT *FROM FactSanguo11WHERE 姓名 IN ( N'荀彧', N'荀攸', N'贾诩', N'程昱', N'郭嘉' )曹魏五谋臣，指荀彧、荀攸、贾诩、程昱、郭嘉五人... 阅读全文

posted @ 2014-12-18 19:49 Bobby0322 阅读(2222) 评论(0) 推荐(0)

《BI那点儿事》Microsoft 神经网络算法

摘要：Microsoft神经网络是迄今为止最强大、最复杂的算法。要想知道它有多复杂，请看SQL Server联机丛书对该算法的说明：“这个算法通过建立多层感知神经元网络，建立分类和回归挖掘模型。与Microsoft决策树算法类似，在给定了可预测属性的每个状态时， Microsoft神经网络算法计算输入属性... 阅读全文

posted @ 2014-12-15 16:44 Bobby0322 阅读(3248) 评论(0) 推荐(3)

《BI那点儿事》运用标准计分和离差——分析三国超一流统帅综合实力排名绝对客观，数据说话

摘要：数据分析基础概念：标准计分： 1、无论作为变量的满分为几分，其标准计分的平均数势必为0，而其标准差势必为1。2、无论作为变量的单位是什么，其标准计分的平均数势必为0，而其标准差势必为1。公式为：离差：离差就是应用标准计分所得的数值。1、无论作为变量的满分为几分，其离差的平均数势必为50，而其标准差势... 阅读全文

posted @ 2014-12-10 19:38 Bobby0322 阅读(2786) 评论(1) 推荐(1)

《BI那点儿事》三国人物智力分布状态分析

摘要：献给广大的三国爱好者们，希望喜欢三国的朋友一起讨论，加深对传奇三国时代的了解数据分析基础概念：数据分为“不可测量”的数据和“可测量”的数据。不可测量的数据称为“分类数据”（Category Data或Categorical Data。），而可测量的数据称为“数值数据”（Numerical Data）... 阅读全文

posted @ 2014-12-10 11:00 Bobby0322 阅读(2661) 评论(5) 推荐(5)

《BI那点儿事》ETL中的关键技术

摘要：ETL（Extract/Transformation/Load）是BI/DW的核心和灵魂，按照统一的规则集成并提高数据的价值，是负责完成数据从数据源向目标数据仓库转化的过程，是实施数据仓库的重要步骤。ETL过程中的主要环节就是数据抽取、数据转换和加工、数据装载。为了实现这些功能，各个ETL工具一般会... 阅读全文

posted @ 2014-12-04 19:24 Bobby0322 阅读(5025) 评论(3) 推荐(6)

《BI那点儿事—数据的艺术》理解维度数据仓库——事实表、维度表、聚合表

摘要：事实表在多维数据仓库中，保存度量值的详细值或事实的表称为“事实表”。一个按照州、产品和月份划分的销售量和销售额存储的事实表有5个列，概念上与下面的示例类似。SateProductMouthUnitsDollarsWAMountain-100January37.95WACable LockJanuar... 阅读全文

posted @ 2014-12-03 23:12 Bobby0322 阅读(13041) 评论(2) 推荐(7)

《BI那点儿事》数据挖掘各类算法——准确性验证

摘要：准确性验证示例1：——基于三国志11数据库数据准备：挖掘模型：依次为：Naive Bayes 算法、聚类分析算法、决策树算法、神经网络算法、逻辑回归算法、关联算法提升图：依次排名为： 1. 神经网络算法（92.69% 0.99）2. 逻辑回归算法（92.39% 0.99）3. 决策树算法（91.19... 阅读全文

posted @ 2014-12-01 20:13 Bobby0322 阅读(6169) 评论(2) 推荐(6)

Microsoft Naive Bayes 算法——三国人物身份划分

摘要：Microsoft朴素贝叶斯是SSAS中最简单的算法，通常用作理解数据基本分组的起点。这类处理的一般特征就是分类。这个算法之所以称为“朴素”，是因为所有属性的重要性是一样的，没有谁比谁更高。贝叶斯之名则源于Thomas Bayes，他想出了一种运用算术（可能性）原则来理解数据的方法。对此算法的另... 阅读全文

posted @ 2014-11-29 19:50 Bobby0322 阅读(3134) 评论(1) 推荐(2)

《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分

摘要：什么是聚类分析？聚类分析属于探索性的数据分析方法。通常，我们利用聚类分析将看似无序的对象进行分组、归类，以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高，组间对象相似性较低。在三国数据分析中，很多问题可以借助聚类分析来解决，比如三国人物身份划分。聚类分析的基本过程是怎样的？选择聚类变量... 阅读全文

posted @ 2014-11-25 21:05 Bobby0322 阅读(2710) 评论(0) 推荐(3)

《BI那点儿事》三国数据分析系列——蜀汉五虎上将与魏五子良将武力分析，绝对的经典分析

摘要：献给广大的三国爱好者们，希望喜欢三国的朋友一起讨论，加深对传奇三国时代的了解数据分析基础概念：集中趋势分析是指在大量测评数据分布中，测评数据向某点集中的情况。总体（population）是指客观存在的，并在同一性质的基础上结合起来的许多个别单位的整体，即具有某一特性的一类事物的全体，又叫母体或全域。... 阅读全文

posted @ 2014-11-24 22:07 Bobby0322 阅读(3609) 评论(2) 推荐(8)

《BI那点儿事》SSRS图表和仪表——雷达图分析三国超一流谋士、统帅数据（图文并茂）

摘要：雷达图分析三国超一流谋士、统帅数据，献给广大的三国爱好者们，希望喜欢三国的朋友一起讨论，加深对传奇三国时代的了解建立数据环境：-- 抽取三国超一流谋士TOP 10数据DECLARE @t1 TABLE ( [姓名] NVARCHAR(255) , [统率] FLOAT , ... 阅读全文

posted @ 2014-11-22 21:18 Bobby0322 阅读(2962) 评论(4) 推荐(3)

《BI那点儿事》Microsoft 决策树算法——找出三国武将特性分布，献给广大的三国爱好者们

摘要：根据游戏《三国志11》武将数据，利用决策树分析，找出三国武将特性分布。其中变量包括统率、武力、智力、政治、魅力、身分。变量说明：统率：武将带兵出征时的部队防御力。统帅越高受到普通攻击与兵法攻击越少。武力：武将带兵出征时的部队攻击力，武力越高发动兵法或者普通攻击时对地方部队的伤害就越高；并且当发动单挑... 阅读全文

posted @ 2014-11-20 20:38 Bobby0322 阅读(3238) 评论(3) 推荐(4)

《BI那点儿事》Microsoft 逻辑回归算法——预测股票的涨跌

摘要：数据准备：一组股票历史成交数据（股票代码：601106 中国一重），起止日期：2011-01-04至今，其中变量有“开盘”、“最高”、“最低”、“收盘”、“总手”、“金额”、“涨跌”等UPDATE FactStockSET [涨跌] = N'涨'WHERE [涨幅] > 0UPDATE... 阅读全文

posted @ 2014-11-19 21:14 Bobby0322 阅读(3690) 评论(4) 推荐(3)

《BI那点儿事》Microsoft 线性回归算法

摘要：Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体，有助于计算依赖变量和独立变量之间的线性关系，然后使用该关系进行预测。该关系采用的表示形式是最能代表数据序列的线的公式。例如，以下关系图中的线是数据最可能的线性表示形式。关系图中的每个数据点都有一个与该数据点与回归线之间距离... 阅读全文

posted @ 2014-11-19 12:50 Bobby0322 阅读(2109) 评论(2) 推荐(4)

《BI那点儿事》Microsoft 顺序分析和聚类分析算法

摘要：Microsoft 顺序分析和聚类分析算法是由 Microsoft SQL Server Analysis Services 提供的一种顺序分析算法。您可以使用该算法来研究包含可通过下面的路径或“顺序”链接到的事件的数据。该算法通过对相同的顺序进行分组或分类来查找最常见的顺序。下面是一些顺序示例：用... 阅读全文

posted @ 2014-11-18 13:29 Bobby0322 阅读(1797) 评论(1) 推荐(2)

《BI那点儿事》浅析十三种常用的数据挖掘的技术

摘要：一、前沿数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式，可以发现的模式有很多种，按功能可以分为两大类：预测性(Predictive)模式和描述性(Descriptive)模... 阅读全文

posted @ 2014-11-12 17:15 Bobby0322 阅读(3021) 评论(0) 推荐(0)

《BI那点儿事》数据挖掘的主要方法

摘要：一、回归分析目的：设法找出变量间的依存(数量)关系, 用函数关系式表达出来。所谓回归分析法，是在掌握大量观察数据的基础上，利用数理统计方法建立因变量与自变量之间的回归关系函数表达式（称回归方程式）。回归分析中，当研究的因果关系只涉及因变量和一个自变量时，叫做一元回归分析；当研究的因果关系涉及因变量和... 阅读全文

posted @ 2014-11-12 16:57 Bobby0322 阅读(1786) 评论(1) 推荐(1)

《BI那点儿事》Microsoft Naive Bayes 算法

该文被密码保护。

posted @ 2014-11-12 14:42 Bobby0322 阅读(6) 评论(0) 推荐(0)

《BI那点儿事》Microsoft 逻辑回归算法

该文被密码保护。

posted @ 2014-11-12 13:23 Bobby0322 阅读(6) 评论(0) 推荐(0)

Bobby0322

专注OOAD、BI、数据分析技术 ... 学习在于不断的总结和积累，希望借此平台结识更多志同道合的朋友.

随笔分类 - BI那点儿事

公告