随笔分类 -  Spark-MLlib

 
SparkMLlib之 logistic regression源码分析
摘要:最近在研究机器学习,使用的工具是spark,本文是针对spar最新的源码Spark1.6.0的MLlib中的logistic regression, linear regression进行源码分析,其理论部分参考:http://www.cnblogs.com/ljy2013/p/5129610.ht... 阅读全文
posted @ 2016-01-16 11:23 ljy2013 阅读(1451) 评论(0) 推荐(0)
线性回归与逻辑回归
摘要:本文转自:http://blog.csdn.net/itplus/article/details/10857843本文详细的介绍了线性回归和逻辑回归是怎么一回事,很好的介绍了线性回归的原理和逻辑回归的原理。针对逻辑回归,最后参数的求解过程中,还可以用到牛顿法和拟牛顿法,具体可以参考:http://w... 阅读全文
posted @ 2016-01-14 11:26 ljy2013 阅读(591) 评论(0) 推荐(0)
无约束优化算法——牛顿法与拟牛顿法(DFP,BFGS,LBFGS)
摘要:简介:最近在看逻辑回归算法,在算法构建模型的过程中需要对参数进行求解,采用的方法有梯度下降法和无约束项优化算法。之前对无约束项优化算法并不是很了解,于是在学习逻辑回归之前,先对无约束项优化算法中经典的算法学习了一下。下面将无约束项优化算法的细节进行描述。为了尊重别人的劳动成果,本文的出处是:http... 阅读全文
posted @ 2016-01-14 10:04 ljy2013 阅读(30136) 评论(3) 推荐(5)
Spark MLlib 之 Basic Statistics
摘要:Spark MLlib提供了一些基本的统计学的算法,下面主要说明一下:1、Summary statistics对于RDD[Vector]类型,Spark MLlib提供了colStats的统计方法,该方法返回一个MultivariateStatisticalSummary的实例。他封装了列的最大值,... 阅读全文
posted @ 2016-01-06 14:43 ljy2013 阅读(1362) 评论(0) 推荐(0)
Spark MLlib 之 Naive Bayes
摘要:1、前言: Naive Bayes(朴素贝叶斯)是一个简单的多类分类算法,该算法的前提是假设各特征之间是相互独立的。Naive Bayes 训练主要是为每一个特征,在给定的标签的条件下,计算每个特征在该标签的条件下的条件概率。最后用这个训练后的条件概率去预测。 由于我使用的Spark的版本是1.... 阅读全文
posted @ 2016-01-05 14:52 ljy2013 阅读(1307) 评论(0) 推荐(0)
Spark MLlib Data Type
摘要:MLlib 支持存放在单机上的本地向量和矩阵,也支持通过多个RDD实现的分布式矩阵。因此MLlib的数据类型主要分为两大类:一个是本地单机向量;另一个是分布式矩阵。下面分别介绍一下这两大类都有哪些类型: 1、Local vector(本地向量) (1)Vector 最基本的类型是Vector,该类型 阅读全文
posted @ 2016-01-05 09:56 ljy2013 阅读(879) 评论(0) 推荐(0)