智能先行者

2016年12月8日

摘要：混合高斯模型GMM是指对样本的概率密度分布进行估计，而估计采用的模型（训练模型）是几个高斯模型的加权和（具体是几个要在模型训练前建立好）。每个高斯模型就代表了一个类（一个Cluster）。对样本中的数据分别在几个高斯模型上投影，就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。阅读全文

posted @ 2016-12-08 17:51 智能先行者阅读(1426) 评论(0) 推荐(0)

2016年12月7日

ggplot2绘制概率密度图

摘要：以下绘图以Weibull分布(韦伯分布、威布尔分布)为例关于Weibull分布(韦伯分布、威布尔分布)，请参考本人博客http://www.cnblogs.com/wwxbi/p/6141501.html 阅读全文

posted @ 2016-12-07 19:22 智能先行者阅读(28039) 评论(0) 推荐(0)

Weibull分布(韦伯分布、威布尔分布)

摘要： log函数从概率论和统计学角度看，Weibull Distribution是连续性的概率分布，其概率密度为：其中，x是随机变量，λ＞0是比例参数（scale parameter），k＞0是形状参数（shape parameter）。显然，它的累积分布函数是扩展的指数分布函数，而且，Weibull 阅读全文

posted @ 2016-12-07 15:52 智能先行者阅读(181593) 评论(1) 推荐(0)

2016年12月6日

生存分析(survival analysis)

摘要：一、生存分析(survival analysis)的定义生存分析：对一个或多个非负随机变量进行统计推断，研究生存现象和响应时间数据及其统计规律的一门学科。生存分析：既考虑结果又考虑生存时间的一种统计方法，并可充分利用截尾数据所提供的不完全信息，对生存时间的分布特征进行描述，对影响生存时间的主要因阅读全文

posted @ 2016-12-06 09:48 智能先行者阅读(85446) 评论(0) 推荐(3)

2016年12月5日

spark脚本日志输出级别设置

摘要： import org.apache.log4j.{ Level, Logger } Logger.getLogger("org").setLevel(Level.WARN) Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Logge 阅读全文

posted @ 2016-12-05 16:09 智能先行者阅读(4043) 评论(0) 推荐(0)

2016年12月2日

Spark特征(提取，转换，选择)extracting, transforming and selecting features

摘要： VectorAssembler字段转换成特征向量 VectorIndexer自动识别分类的特征，并对它们进行索引 VectorSlicer向量切割 Bucketizer将连续数据离散化到指定的范围区间阅读全文

posted @ 2016-12-02 13:54 智能先行者阅读(2460) 评论(0) 推荐(0)

Spark2 探索性数据统计分析

摘要： data数据源，请参考我的博客http://www.cnblogs.com/wwxbi/p/6063613.html import org.apache.Spark.sql.DataFrameStatFunctions import org.apache.spark.sql.functions._ 阅读全文

posted @ 2016-12-02 13:11 智能先行者阅读(2105) 评论(0) 推荐(0)

2016年11月30日

Scala日期处理

摘要：计算时间间隔产生日期序列执行结果阅读全文

posted @ 2016-11-30 10:15 智能先行者阅读(4275) 评论(0) 推荐(0)

2016年11月29日

Spark2 SQL configuration参数配置

摘要：查看当前环境SQL参数的配置阅读全文

posted @ 2016-11-29 17:17 智能先行者阅读(5915) 评论(0) 推荐(0)

Spark2 ML包之决策树分类Decision tree classifier详细解说

摘要：所用数据源，请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html 1.导入包 2.加载数据源 3.创建决策树模型 4.代码执行结果阅读全文

posted @ 2016-11-29 16:14 智能先行者阅读(3245) 评论(1) 推荐(0)

公告