随笔分类 - 0.0--数据分析挖掘
摘要:梯度提升树(GBT)是决策树的集合。 GBT迭代地训练决策树以便使损失函数最小化。 spark.ml实现支持GBT用于二进制分类和回归,可以使用连续和分类特征。 导入包 导入数据源 GBT建模 代码执行结果
阅读全文
摘要:多层感知器分类器(MLPC)是基于前馈人工神经网络(ANN)的分类器。 MLPC由多个节点层组成。 每个层完全连接到网络中的下一层。 输入层中的节点表示输入数据。 所有其他节点,通过输入与节点的权重w和偏置b的线性组合,并应用激活函数,将输入映射到输出。 对于具有K + 1层的MLPC,这可以以矩阵
阅读全文
摘要:导入包 导入源数据 逻辑回归建模 代码执行结果
阅读全文
摘要:随机森林是决策树的集合。 随机森林结合许多决策树,以减少过度拟合的风险。 spark.ml实现支持随机森林,使用连续和分类特征,做二分类和多分类以及回归。 导入包 导入源数据 随机森林建模 代码执行结果 随机森林模型调优
阅读全文
摘要:LogisticRegression简介
阅读全文
摘要:Model selection模型选择 ML中的一个重要任务是模型选择,或使用数据为给定任务找到最佳的模型或参数。 这也称为调优。 可以对诸如Logistic回归的单独Estimators进行调整,或者对包括多个算法,特征和其他步骤的整个Pipeline进行调整。 用户可以一次调整整个Pipelin
阅读全文
摘要:Weibull distribution 或者 σ是未知的scale参数,独立于X的常量, σ>0 是服从某一分布的随机变量 残差(residuals)=
阅读全文
摘要:1、定义目标 调研业务目标 评析环境 确定挖掘目标 制定计划2、数据理解 收集原始数据 探索数据 检验数据质量3、数据准备 数据选取 抽取建模数据 数据预处理4、建立模型 选择建模技术 建立模型 评估和改进模型 模型评价5、部署实施 制定实施计划 模型实施 项目总结和评价
阅读全文
摘要:在spark.ml中,实现了加速失效时间(AFT)模型,这是一个用于检查数据的参数生存回归模型。 它描述了生存时间对数的模型,因此它通常被称为生存分析的对数线性模型。 不同于为相同目的设计的比例风险模型,AFT模型更容易并行化,因为每个实例独立地贡献于目标函数。 当在具有常量非零列的数据集上匹配AF
阅读全文
摘要:混合高斯模型GMM是指对样本的概率密度分布进行估计,而估计采用的模型(训练模型)是几个高斯模型的加权和(具体是几个要在模型训练前建立好)。每个高斯模型就代表了一个类(一个Cluster)。对样本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。
阅读全文
摘要:以下绘图以Weibull分布(韦伯分布、威布尔分布)为例 关于Weibull分布(韦伯分布、威布尔分布),请参考本人博客http://www.cnblogs.com/wwxbi/p/6141501.html
阅读全文
摘要:log函数 从概率论和统计学角度看,Weibull Distribution是连续性的概率分布,其概率密度为: 其中,x是随机变量,λ>0是比例参数(scale parameter),k>0是形状参数(shape parameter)。显然,它的累积分布函数是扩展的指数分布函数,而且,Weibull
阅读全文
摘要:一、生存分析(survival analysis)的定义 生存分析:对一个或多个非负随机变量进行统计推断,研究生存现象和响应时间数据及其统计规律的一门学科。 生存分析:既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因
阅读全文
摘要:VectorAssembler字段转换成特征向量 VectorIndexer自动识别分类的特征,并对它们进行索引 VectorSlicer向量切割 Bucketizer将连续数据离散化到指定的范围区间
阅读全文
摘要:data数据源,请参考我的博客http://www.cnblogs.com/wwxbi/p/6063613.html import org.apache.Spark.sql.DataFrameStatFunctions import org.apache.spark.sql.functions._
阅读全文
摘要:所用数据源,请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html 1.导入包 2.加载数据源 3.创建决策树模型 4.代码执行结果
阅读全文
摘要:1.数据字段解释 affairs:一年来婚外情的频率 gender:性别 age:年龄 yearsmarried:婚龄 children:是否有小孩 religiousness:宗教信仰程度(5分制,1分表示反对,5分表示非常信仰) education:学历 occupation:职业(逆向编号的戈
阅读全文
摘要:APP的数据指标体系主要分为五个维度:用户规模与质量、参与度分析、渠道分析、功能分析及用户属性分析。 1.用户规模和质量维度主要是分析用户规模指标,这类指标一般为产品考核的重点指标; 2.参与度分析主要分析用户的活跃度; 3.渠道分析主要分析渠道推广效果; 4.功能分析主要分析功能的活跃情况、页面访
阅读全文
摘要:游戏玩家1 新增玩家1.1 新增设备激活:当日新增加的激活设备量。新增玩家账户:当日新增加的玩家帐户数1.2 玩家转化:安装游戏的玩家中(即激活设备)有注册账户的玩家比例,1人多次注册,只记1次有效转化。例如:共5台激活设备,其中3台每人1次注册,1台没有注册,1台注册了3次账户,共注册了6个不同账
阅读全文