逻辑回归分类器(Logistic Regression Classifier)
Logistic regression (逻辑回归)是当前业界比較经常使用的机器学习方法,用于预计某种事物的可能性。也用来进行分类。
在分类的情形下,经过学习之后的LR分类器事实上就是一组权值w0,w1,...,wm. 
当输入測试样本集中的測试数据时。这一组权值依照与測试数据线性加和的方式,求出一个z值:
z = w0+w1*x1+w2*x2+...+wm*xm。 ① (当中x1,x2,...,xm是某样本数据的各个特征,维度为m)
之后依照sigmoid函数的形式求出:
σ(z) = 1 / (1+exp(z)) 。
②
因为sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1)。
因此最主要的LR分类器适合于对两类目标进行分类。该sigmoid函数看成样本数据的概率密度函数,每个样本点,都能够通过上述的公式①和②计算出其概率密度。
则LR分类器的关键问题就是求出这一组权值w0,w1,...,wm。这须要涉及到极大似然预计MLE和优化算法的概念。
一、逻辑回归模型
何为回归:回归事实上就是对已知公式的未知參数进行预计。比方已知公式是y = a*x + b,未知參数是a和b。
我们如今有非常多真实的(x,y)数据(训练样本),回归就是利用这些数据对a和b的取值去自己主动预计。
事实上Logistic Regression 就是一个被logistic方程归一化后的线性回归,仅此而已。
至于用logistic方程而不用其他,是由于这样的归一化的方法往往比較合理,可以打压过大和过小的结果(往往是噪音),以保证主流的结果不至于被忽视。
1.1逻辑回归模型
1.2极大似然函数
1.3 牛顿-拉斐森迭代法
注:逻辑回归分类器的Spark代码实现參照博客:Spark简单介绍第六章代码部分:http://blog.csdn.net/qustqustjay/article/details/46874071
 
                    
                
 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号