【机器学习】Logistic Regression 学习笔记

逻辑回归模型

虽然逻辑回归姓回归，不过其实它的真实身份是二分类器。介绍完了姓，我们来介绍一下它的名字，逻辑斯蒂。这个名字来源于逻辑斯蒂分布：

逻辑斯蒂分布

设X是连续随机变量，X服从逻辑斯蒂分布是指X具有下列的分布函数和密度函数：

有没有发现

此处输入图片的描述

有没有发现右边很熟悉？没错，就是sigmoid 曲线，这个曲线是以点(

sigmoid曲线有几个特性：

1.x趋向正无穷时F(x)趋近于1

2.x趋向负无穷时F(x)趋近于0

3.x在0处为0.5

它的这些特性，决定它非常适合用于当作基于概率的二项分类函数。类似的还有正态分布的分布函数，和它非常类似，如果选用正态分布，则是贝叶斯逻辑回归（Bayesian logistic regression）。

　　逻辑斯谛回归的采用的是最大似然估计的思想。对于给定的训练数据集T = {(x1, y1),(x2, y2),......(xn, yn)}，我们找到它的似然函数(即它发生的概率)，如果能使似然函数取得最大值，那么就是让这个样本发生的概率最大（这个概率是个联合概率）。

我们看一下逻辑回归的似然函数。

L(w)取得极大值，则需要yi为1时，P(Y = 1 | x)尽量的大，yi为0时，P(Y = 1 | x)尽量的小。

我们的概率函数P(Y = 1 | x)为

P (Y = 1 | x) 为sigmod函数(等价形式)，为了使yi为1时，P(Y = 1 | x)尽量的大，yi为0时，P(Y = 1 | x)尽量的小。我们需要调整w⋅x，使得yi 为1时，w⋅x尽量取比较大的值，位于原点右侧较远的地方，yi为0时，w⋅x尽量位于原点左侧较远的地方，即它发生的概率尽量小。换句话说，我们调整w⋅x使得yi为1尽量发生，为0尽量不要发生。这个时候似然函数取得最大值

借用andrew ng老师的图

我们要找到w⋅x = 0 这条曲线，使得样本x尽量被分成两部分，一类发生的概率尽量大，另一类概率尽量小。样本点与w⋅x = 0 的距离，即误差，服从逻辑斯谛分布。

二项逻辑回归模型

一个事件的几率（odds）：指该事件发生与不发生的概率比值，若事件发生概率为

o d d s = p 1 - p

l o g i t (p) = l o g p 1 - p

l o g P ( Y = 1 | x ) 1 - P ( Y = 1 | x ) = w \cdot x

也就是说，输出

模型的数学形式确定后，剩下就是如何去求解模型中的参数。在统计学中，常常使用极大似然估计法来求解，即找到一组参数，使得在这组参数下，我们的数据的似然度（概率）最大。

设：

P (Y = 1 | x) = π (x), P (Y = 0 | x) = 1 - π (x)

似然函数：

L (w) = \prod [π (x i)] y i [1 - π (x i)] 1 - y i

对数似然函数:

l n L (w) = \sum [y i l n π (x i) + (1 - y i) l n (1 - π (x i))]

= \sum [y i l n π ( x i ) 1 - π ( x i ) + l n ( 1 - π ( x i ) ) ]

= \sum [y i (w \cdot x i) - l n (1 + e w \cdot x i)]

现在要求

在机器学习领域，我们更经常遇到的是损失函数的概念，其衡量的是模型预测错误的程度。常用的损失函数有0-1损失，log损失，hinge损失等。通常是最小化损失函数，这里为啥求极大似然估计？

实际上，对数似然损失在单个数据点上的定义为：

- y l n p (y | x) - (1 - y) l n [1 - p (y | x)] = - [y i l n π (x i) +

如果取整个数据集上的平均对数似然损失，我们恰好可以得到:

J (w) = - 1 N l n L ( w )

即在逻辑回归模型中，我们最大化似然函数和最小化对数似然损失函数实际上是等价的。

接下来就是对

[先跑个题]，讲到求极值的方法，突然想到有几个可视化的gif图，能够很直观地体现各种算法的优劣，好东西当然要分享了。

Imgur 网友通过可视化方法，对比了SGD, momentum, Nesterov, AdaGrad, AdaDelta,
RMSProp等优化算法在Long Valley, Beale’s Function及Saddle Point情况下的性质。

Long Valley:
此处输入图片的描述

Beale’s Function:

此处输入图片的描述

Saddle Point:

此处输入图片的描述

以后会专门写一篇来讲求极值的方法，这是题外话了，我们还是继续回归逻辑吧，哈哈。
下面介绍使用梯度下降法来求解逻辑回归问题。

使用梯度下降法(Gradient Descent)求解逻辑回归

算法（梯度下降法求解逻辑回归）
输入：目标函数：

J (w k) = - 1 N l n L ( w k ) \Rightarrow - l n L ( w k )

= \sum [y i (w k \cdot x i) - l n (1 + e w k \cdot x i)]

(3) 计算梯度

g (w k) = \sum [x i \cdot y i - x i \cdot e w k \cdot x i 1 + e w k \cdot

= \sum [x i \cdot y i - π (x i)]

若

w * = w k

否则，令

J (w k + λ k p k) = m i n (J (w k + λ p k))

(4) 令

w * = w k + 1

(5) 否则，令

逻辑回归的正则化

当模型的参数过多时，很容易遇到过拟合的问题。而正则化是结构风险最小化的一种实现方式，通过在经验风险上加一个正则化项，来惩罚过大的参数来防止过拟合。

正则化是符合奥卡姆剃刀(Occam’s razor)原理的：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单的才是最好的模型。

我们来看一下underfitting，fitting跟overfitting的情况：

此处输入图片的描述

显然，最右这张图overfitting了，原因可能是能影响结果的参数太多了。典型的做法在优化目标中加入正则项，通过惩罚过大的参数来防止过拟合：

J (w) => J (w) + λ | | w | | p

p=1或者2，表示

：是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。那么，参数稀疏 有什么好处呢？

：它有两个美称，在回归里面，有人把有它的回归叫“岭回归”（Ridge Regression），有人也叫它“权值衰减”(weight decay)。

接下来我们思考一下为什么L1范式会产生稀疏性。

假设代价函数 L 与某个参数 x 的关系如图所示：

则最优的 x 在绿点处，x 非零。

现在施加 L2 regularization，新的代价函数（ $L + Cx^2$ ）如图中蓝线所示：

施加L2范式的实质是在原来函数曲线上上移一个抛物线的位移，虽然抛物线在0处取得最小值，但是抛物线在0处过于平缓。最优的 x 在黄点处，x 的绝对值减小了，但依然非零。

而如果施加 L1 regularization，则新的代价函数（ $L + C|x|$ ）如图中粉线所示：

施加L1范式的实质是在原来函数曲线上上移一个V形折线的位移，折线在0处取得最小值，只要系数C足够大，就能够使得代价函数在0处取得最小值。最优的 x 就变成了 0。这里利用的就是绝对值函数(L1)的尖峰。

两种 regularization 能不能把最优的 x 变成 0，取决于原先的费用函数在 0 点处的导数。
如果本来导数不为 0，那么施加 L2 regularization 后导数依然不为 0，最优的 x 也不会变成 0。
而施加 L1 regularization 时，只要 regularization 项的系数 C 大于原先费用函数在 0 点处的导数的绝对值，x = 0 就会变成一个极小值点。

上面只分析了一个参数 x。事实上 L1 regularization 会使得许多参数的最优值变成 0，这样模型就稀疏了。

posted on 2016-07-06 17:55 各各他阅读(2457) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

各各他

【机器学习】Logistic Regression 学习笔记

逻辑回归模型

逻辑斯蒂分布

二项逻辑回归模型

使用梯度下降法(Gradient Descent)求解逻辑回归

逻辑回归的正则化

导航

公告