Logistics Regression整理

此文章已于 11:45:32 2015/11/20 发布到 shibalang

Logistics Regression

Logistics回归是线性分类模型,是由线性模型外加一层sigmoid函数,sigmoid函数的表达式及曲线如下:

clip_image002

clip_image004

然而,为什么Logistics回归要选用sigmoid函数呢?这一直是困扰我的一个问题。下面,是我从统计学习基础及机器学习基础教程中理解到的答案。

假设为二值分类,设:

clip_image006 clip_image008

clip_image010 clip_image012 clip_image014

给定了以上两个条件,我们怎么使用这两个条件去造一个model呢?首先G=1的概率与G=0的概率属于0到1,0到1区间并不能找到一个合适的模型,但clip_image016则属于0到正无穷,

对其进行对数转换,则clip_image018则属于负无穷到正无穷,这样的话就可以对其进行线性建模。

clip_image020,且 clip_image022

可得:

clip_image024 此式,即为Logistics回归中用到的sigmoid模型。

clip_image026

clip_image028

由于y取值为0或1,则

clip_image030

假设有m个训练样本,则参数的似然函数为:

clip_image032

最大化对数似然,得:

clip_image034

对其求导,并采用梯度下降方法:

clip_image036

每次迭代更新参数值:

clip_image038

 

 

关于Logistics regression的决策边界,S型sigmoid函数并不是决策边界,而是转换线性连续预测值到0,1。

Logistics回归的决策边界通常是直线或超平面。将Logistics regression的模型转换如下:

令上式右方等于F,F仅仅是一个标准线性模型。

因此,对于每一个点的预测值为:

由于F为超平面,sigmoid函数也为单调函数,因此每一个样本的预测值也是单调的,设定一个阈值c,当p>c时,分类为1,p<=c时,分类为0;因此得到如下所示,Logistics 回归的决策空间如下所示:(其中红线即为二维特征时的决策边界)

 

以上则为Logistics回归的主要内容,本文主要参考:

1. 斯坦福大学的机器学习公开课第三讲

2. 《The elements of statistical Learning》

3. 机器学习基础教程

4. 网络博客《Logistic Regression Vs Decision Trees Vs SVM: Part I

posted on 2015-11-20 11:58  shibalang  阅读(607)  评论(0)    收藏  举报