上一页 1 2 3 4 5 6 7 8 9 ··· 20 下一页
摘要: 混合高斯模型GMM是指对样本的概率密度分布进行估计,而估计采用的模型(训练模型)是几个高斯模型的加权和(具体是几个要在模型训练前建立好)。每个高斯模型就代表了一个类(一个Cluster)。对样本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。 阅读全文
posted @ 2016-12-08 17:51 智能先行者 阅读(1358) 评论(0) 推荐(0) 编辑
摘要: 以下绘图以Weibull分布(韦伯分布、威布尔分布)为例 关于Weibull分布(韦伯分布、威布尔分布),请参考本人博客http://www.cnblogs.com/wwxbi/p/6141501.html 阅读全文
posted @ 2016-12-07 19:22 智能先行者 阅读(27662) 评论(0) 推荐(0) 编辑
摘要: log函数 从概率论和统计学角度看,Weibull Distribution是连续性的概率分布,其概率密度为: 其中,x是随机变量,λ>0是比例参数(scale parameter),k>0是形状参数(shape parameter)。显然,它的累积分布函数是扩展的指数分布函数,而且,Weibull 阅读全文
posted @ 2016-12-07 15:52 智能先行者 阅读(173319) 评论(1) 推荐(0) 编辑
摘要: 一、生存分析(survival analysis)的定义 生存分析:对一个或多个非负随机变量进行统计推断,研究生存现象和响应时间数据及其统计规律的一门学科。 生存分析:既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因 阅读全文
posted @ 2016-12-06 09:48 智能先行者 阅读(83532) 评论(0) 推荐(3) 编辑
摘要: import org.apache.log4j.{ Level, Logger } Logger.getLogger("org").setLevel(Level.WARN) Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Logge 阅读全文
posted @ 2016-12-05 16:09 智能先行者 阅读(4020) 评论(0) 推荐(0) 编辑
摘要: VectorAssembler字段转换成特征向量 VectorIndexer自动识别分类的特征,并对它们进行索引 VectorSlicer向量切割 Bucketizer将连续数据离散化到指定的范围区间 阅读全文
posted @ 2016-12-02 13:54 智能先行者 阅读(2432) 评论(0) 推荐(0) 编辑
摘要: data数据源,请参考我的博客http://www.cnblogs.com/wwxbi/p/6063613.html import org.apache.Spark.sql.DataFrameStatFunctions import org.apache.spark.sql.functions._ 阅读全文
posted @ 2016-12-02 13:11 智能先行者 阅读(2074) 评论(0) 推荐(0) 编辑
摘要: 计算时间间隔 产生日期序列 执行结果 阅读全文
posted @ 2016-11-30 10:15 智能先行者 阅读(4243) 评论(0) 推荐(0) 编辑
摘要: 查看当前环境SQL参数的配置 阅读全文
posted @ 2016-11-29 17:17 智能先行者 阅读(5874) 评论(0) 推荐(0) 编辑
摘要: 所用数据源,请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html 1.导入包 2.加载数据源 3.创建决策树模型 4.代码执行结果 阅读全文
posted @ 2016-11-29 16:14 智能先行者 阅读(3223) 评论(1) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 20 下一页